Just Fighting

결측값 처리하기 2 (평균, 중앙값) 본문

Python

결측값 처리하기 2 (평균, 중앙값)

yennle 2022. 3. 23. 22:53
728x90

이전에 결측값 처리하는 게시물을 작성했던 적이 있다.

그때는 이제 결측값이 있는 행을 지우고, 남은 결측값에 하나의 값을 넣어주었다.

2022.02.13 - [Statistics/Python] - 결측값 처리하기

 

 

이번에는 열의 평균값이나 중앙값으로 변경하는 방법에 대해 정리하려고 한다.

먼저 numpy와 pandas 임포트부터!

아래 사진과 같은 데이터를 이용해 결측값을 처리해보는 연습을 했다.

import numpy as np
import pandas as pd

 

결측값을 대체하기 전에 먼저 평균과 중앙값을 구하는 코드를 보자.

아래 사진을 보면 평균을 구하는 코드에는 NaN값이 있어도 잘 계산이 되지만

중앙값을 구할 때는 계산이 되지 않는 것을 볼 수 있다.

그때 사용할 수 있는 함수가 nanmedian()이다! 잘 활용하면 좋을 것 같다.

 

① fillna()를 사용하는 방법

data['c'] = data['c'].fillna(data.c.median())

 

② loc를 사용하는 방법

NaN인 데이터만 값을 바꾼다.

data.loc[np.isnan(data.c)==True,'c'] = data.c.median()

 

 

아래 사진과 같이 결측값이 중앙값으로 채워진걸 확인할 수 있다!

 

 

728x90
Comments