일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- align-items
- skt membership
- Gap
- c
- Prefix Sums
- 강화학습
- 확률
- Codility
- Photoshop
- 수학
- 소수
- SK바이오사이언스
- series
- dataframe
- stl
- Flexbox
- spring
- 백준
- 포토샵
- grid
- 통신사할인
- Design Pattern
- pandas
- 상태
- c++
- 에라토스테네스의 체
- 알고리즘
- margin
- CSS
- Javascript
Archives
- Today
- Total
sliver__
[Pandas 데이터 분석] Chapter 3 - 데이터 살펴보기(1) 본문
728x90
[데이터프레임의 구조]
[데이터 내용 미리보기]
- head() 메소드는 데이터프레임의 앞부분 일부 내용을 출력한다.
- 데이터셋의 내용과 구조를 개략적으로 살펴볼 수 있기 때문에 분석 방향을 정하는데 필요한 정보를 얻을 수 있다.
- 마지막 부분의 내용을 보고 싶다면, tail() 메소드를 사용한다.
#앞부분 미리보기
DataFrame 객체.head(n)
#뒷부분 미리보기
DataFrame 객체.tail(n)
#default : 5개
[데이터 요약 정보 확인하기]
- 데이터프레임의 크기(행, 열)
#(행, 열)
DataFrame 객체.shape
- 데이터 프레임의 기본정보
DataFrame 객체.info()
- 판다스 자료형
판다스 자료형 | 파이썬 자료형 | 비교 |
int64 | int | 정수형 데이터 |
float64 | float | 실수형 데이터(소수점이 있는 수) |
object | string | 문자열 데이터 |
datetime64, timedelta64 | 없음(datetime 라이브러리 활용) | 시간 데이터 |
- 기술 통계 정보 요약
DataFrame 객체.describe()
#모든 열에 대한 정보 출력
DataFrame 객체.describe(include='all')
- 각 열의 데이터 개수
- Series 객체를 return
- 유효한 값의 개수만을 계산
DataFrame 객체.count()
- 각 열의 고유값 개수
- 고유값이 행 인덱스, 고유값의 개수가 데이터 값이 되는 시리지 객체가 만들어진다.
- dropna = True 옵션을 설정하면 데이터 값 중에서 NaN을 제외하고 개수를 계산한다.
- dropna 디폴트는 false로 NaN 개수도 포함한다.
DataFrame 객체["열 이름"].value_counts()
[통계 함수 적용]
- 평균값
- mean() 메소드 : 산술 데이터를 갖는 모든 열의 평균값을 각각 계산하여 시리즈 객체로 반환
- 특정 열을 선택하여 평균값을 계산할 수도 있다.
#모든 열의 평균값
DataFrame 객체.mean(numeric_only=True)
#numeric_only는 숫자에 대해서만 표현할 것인지 나타내는 flag
#특정 열의 평균값
DataFrame 객체["열 이름"].mean()
- 중간값
- median() 메소드 : 산술 데이터를 갖는 모든 열의 중간값을 계산하여 시리즈로 반환.
- 특정 열을 선택하여 중간 값을 계산할 수도 있다.
#모든 열의 중간 값
DataFrame 객체.median(numeric_only=True)
#특정 열의 중간 값
DataFrame 객체["열 이름"].median()
- 최대 값
- max() : 데이터프레임의 각 열이 갖는 데이터 값 중에서 최대값을 계산하여 시리즈로 반환
- 특정 열을 선택하여 계산가능하다.
DataFrame 객체.max()
DataFrame 객체["열 이름"].max()
- 최소값
- min() : 데이터프레임의 각 열이 갖는 데이터 값 중에서 최대값을 계산하여 시리즈로 반환
- 특정 열을 선택하여 계산가능하다.
DataFrame 객체.min()
DataFrame 객체["열 이름"].min()
- 표준편차
- std() : 산술 데이터를 갖는 열의 표준편차를 계산하여 시리즈로 반환
- 특정 열을 선택하여 계산가능하다.
DataFrame 객체.std(numeric_only=True)
DataFrame 객체["열 이름"].std()
- 상관계수
- corr() : 두 열간의 상관계수를 계산한다.
- 산술 데이터를 갖는 모든 열에 대하여 2개씩 서로 짝을 짓고, 각각의 경우에 대하여 상관 계수를 선택한다.
DataFrame 객체.corr()
DataFrame 객체[열 이름의 리스트].corr()
출처 : 파이썬 머신러닝 판다스 데이터 분석
728x90
'CS > Pandas' 카테고리의 다른 글
[Pandas 데이터 분석] Chapter 5 - 데이터 사전 처리 (0) | 2022.02.26 |
---|---|
[Pandas 데이터 분석] Chapter 3 - 데이터 살펴보기(2) (0) | 2022.02.23 |
[Pandas 데이터 분석] Chapter 2 - 데이터 입출력 (0) | 2022.02.21 |
[Pandas 데이터 분석] Chapter 1 - 판다스 입문(2) (0) | 2022.02.16 |
[Pandas 데이터 분석] Chapter 1 - 판다스 입문(1) (0) | 2022.02.14 |
Comments