sliver__

[Pandas 데이터 분석] Chapter 3 - 데이터 살펴보기(1) 본문

CS/Pandas

[Pandas 데이터 분석] Chapter 3 - 데이터 살펴보기(1)

sliver__ 2022. 2. 23. 15:14
728x90

[데이터프레임의 구조]

[데이터 내용 미리보기]

 

  • head() 메소드는 데이터프레임의 앞부분 일부 내용을 출력한다.
  • 데이터셋의 내용과 구조를 개략적으로 살펴볼 수 있기 때문에 분석 방향을 정하는데 필요한 정보를 얻을 수 있다.
  • 마지막 부분의 내용을 보고 싶다면, tail() 메소드를 사용한다.
#앞부분 미리보기
DataFrame 객체.head(n)

#뒷부분 미리보기
DataFrame 객체.tail(n)

#default : 5개

 

[데이터 요약 정보 확인하기]

 

  • 데이터프레임의 크기(행, 열)
#(행, 열)
DataFrame 객체.shape
  • 데이터 프레임의 기본정보
DataFrame 객체.info()

 

  • 판다스 자료형
판다스 자료형 파이썬 자료형 비교
int64 int 정수형 데이터
float64 float 실수형 데이터(소수점이 있는 수)
object string 문자열 데이터
datetime64, timedelta64 없음(datetime 라이브러리 활용) 시간 데이터

 

  • 기술 통계 정보 요약
DataFrame 객체.describe()

#모든 열에 대한 정보 출력
DataFrame 객체.describe(include='all')
  • 각 열의 데이터 개수
    • Series 객체를 return
    • 유효한 값의 개수만을 계산
DataFrame 객체.count()

 

  • 각 열의 고유값 개수
    • 고유값이 행 인덱스, 고유값의 개수가 데이터 값이 되는 시리지 객체가 만들어진다.
    • dropna = True 옵션을 설정하면 데이터 값 중에서 NaN을 제외하고 개수를 계산한다.
    • dropna 디폴트는 false로 NaN 개수도 포함한다.
DataFrame 객체["열 이름"].value_counts()

[통계 함수 적용]

  • 평균값
    • mean() 메소드 : 산술 데이터를 갖는 모든 열의 평균값을 각각 계산하여 시리즈 객체로 반환
    • 특정 열을 선택하여 평균값을 계산할 수도 있다.
#모든 열의 평균값
DataFrame 객체.mean(numeric_only=True)
#numeric_only는 숫자에 대해서만 표현할 것인지 나타내는 flag

#특정 열의 평균값
DataFrame 객체["열 이름"].mean()

 

  • 중간값
    • median() 메소드 : 산술 데이터를 갖는 모든 열의 중간값을 계산하여 시리즈로 반환.
    • 특정 열을 선택하여 중간 값을 계산할 수도 있다.
#모든 열의 중간 값
DataFrame 객체.median(numeric_only=True)

#특정 열의 중간 값
DataFrame 객체["열 이름"].median()

 

  • 최대 값
    • max() : 데이터프레임의 각 열이 갖는 데이터 값 중에서 최대값을 계산하여 시리즈로 반환
    • 특정 열을 선택하여 계산가능하다.
DataFrame 객체.max()
DataFrame 객체["열 이름"].max()

 

  • 최소값
    • min() : 데이터프레임의 각 열이 갖는 데이터 값 중에서 최대값을 계산하여 시리즈로 반환
    • 특정 열을 선택하여 계산가능하다.

 

DataFrame 객체.min()
DataFrame 객체["열 이름"].min()

 

 

  • 표준편차
    • std() : 산술 데이터를 갖는 열의 표준편차를 계산하여 시리즈로 반환
    • 특정 열을 선택하여 계산가능하다.
DataFrame 객체.std(numeric_only=True)
DataFrame 객체["열 이름"].std()

 

  • 상관계수
    • corr() : 두 열간의 상관계수를 계산한다.
    • 산술 데이터를 갖는 모든 열에 대하여 2개씩 서로 짝을 짓고, 각각의 경우에 대하여 상관 계수를 선택한다.
DataFrame 객체.corr()
DataFrame 객체[열 이름의 리스트].corr()

출처 : 파이썬 머신러닝 판다스 데이터 분석

728x90
Comments