Just Fighting
결측값 처리하기 2 (평균, 중앙값) 본문
728x90
이전에 결측값 처리하는 게시물을 작성했던 적이 있다.
그때는 이제 결측값이 있는 행을 지우고, 남은 결측값에 하나의 값을 넣어주었다.
2022.02.13 - [Statistics/Python] - 결측값 처리하기
이번에는 열의 평균값이나 중앙값으로 변경하는 방법에 대해 정리하려고 한다.
먼저 numpy와 pandas 임포트부터!
아래 사진과 같은 데이터를 이용해 결측값을 처리해보는 연습을 했다.
import numpy as np
import pandas as pd
결측값을 대체하기 전에 먼저 평균과 중앙값을 구하는 코드를 보자.
아래 사진을 보면 평균을 구하는 코드에는 NaN값이 있어도 잘 계산이 되지만
중앙값을 구할 때는 계산이 되지 않는 것을 볼 수 있다.
그때 사용할 수 있는 함수가 nanmedian()이다! 잘 활용하면 좋을 것 같다.
① fillna()를 사용하는 방법
data['c'] = data['c'].fillna(data.c.median())
② loc를 사용하는 방법
NaN인 데이터만 값을 바꾼다.
data.loc[np.isnan(data.c)==True,'c'] = data.c.median()
아래 사진과 같이 결측값이 중앙값으로 채워진걸 확인할 수 있다!
728x90
'Python' 카테고리의 다른 글
[Python] map() 사용하기 (0) | 2022.05.24 |
---|---|
세 개 이상의 데이터 프레임 합치기(reduce) (0) | 2022.05.04 |
[Python] Counter() 이용해 카운트 하기 (0) | 2022.03.17 |
[Python] 크롤링한 데이터 csv로 변환하기 (0) | 2022.03.01 |
결측값 처리하기 (0) | 2022.02.13 |
Comments