Just Fighting
데이터 살펴보기 본문
앞서 csv 파일에 저장된 데이터를 불러오는 것까지 했다.
이제 데이터가 어떤 형식으로 되어있고, 어떤 값들을 가지는 지에 대해 알아보자!
csv 파일로 불러온 데이터는 DataFrame의 형식을 갖는다.
DataFrame은 엑셀과 같은 형식을 가지며, 데이터를 변환하고 가공하기 쉽게 도와준다.
<pandas.DataFrame.head> (위 사진 참고)
head()는 데이터의 일부만 보여주는 함수로 디폴트값이 5이기 때문에 5개의 데이터만을 보여준다.
괄호 안에 숫자를 써 넣으면 원하는 개수의 행을 볼 수 있다.
또한 tail()이라는 함수가 있는데, 이 함수는 반대로 맨 밑에있는 데이터부터 보여준다.
<pandas.DataFrame.index>
위 데이터 같은 경우 인덱스를 따로 지정하지 않아 0부터 215의 값을 가지는 것을 알 수 있다.
<pandas.DataFrame.columns>
<pandas.DataFrame.dtypes>
<pandas.DataFrame.info>
데이터에 결측값(null)이 있는지 없는지 볼 수 있다.
<pandas.DataFrame.describe>
describe()는 데이터의 기술통계량을 제공한다.
이 데이터의 경우 '계약 년도'와 '계약년월'은 범주형 데이터라고 할 수 있지만,
info()에서 알 수 있듯이 int 타입으로 되어있기 때문에 함께 계산되어 나타났다. 따라서 의미없음.
<pandas.DataFrame.astype>
astype()으로 컬럼의 타입을 변경할 수 있다.
int형으로 되어있는 '계약년도'와 '계약년월'을 문자열로 바꾸어주었다.
<pandas.Series.unique>
각 컬럼이 어떤 값들을 가지고 있는지 알 수 있다.
중복을 제외하고 존재하는 모든 값을 보여준다.
<pandas.DataFrame.nunique>
데이터프레임의 모든 컬럼들이 가진 값의 개수를 알 수 있다.
중복을 제외하고 존재하는 모든 값의 개수를 알려준다.
이외에도 아주 다양한 함수들이 많기 때문에
필요한 정보가 있으면 그때 그때 찾아보는 것이 좋겠다!
'Python' 카테고리의 다른 글
데이터 타입 별 barplot 그리기 (0) | 2022.01.27 |
---|---|
GroupBy 사용하기 (0) | 2022.01.24 |
데이터 필터링하기 (0) | 2022.01.24 |
CSV 파일 불러오기 (0) | 2022.01.14 |
웹 크롤링하기 (0) | 2022.01.12 |