목록Python (29)
Just Fighting

groupby() 함수는 그룹별로 묶어서 데이터에 대한 정보를 얻고 싶을 때 사용한다. 그룹별 합계, 그룹별 평균 등 원하는 데이터를 얻을 수 있다. 사용할 데이터는 지역과 업무 구분별로 계약건수와 계약금액을 나타낸 데이터이다. 지역별 건수의 합계를 구해보자. 지역별 건수의 평균을 구해보자. 지역별 건수의 평균, 최댓값, 최솟값, 합계를 한번에 구해보자. 지역별 건수의 합계를 내림차순으로 정렬해보자. 위에 정렬한 데이터를 시각화해보자. # 표를 그리기 위해서 꼭 실행시켜야함 import matplotlib.pyplot as plt import matplotlib # 한글깨지는 현상 해결 matplotlib.rcParams['font.family'] ='Malgun Gothic' matplotlib.rcP..

데이터를 다룰 때 필요한 데이터를 걸러내는 것도 중요하다! 그동안 써봤던 방법들을 기술해보려고 한다. 아래와 같은 데이터를 이용해서 데이터 필터링을 연습하자. 각 변수의 데이터 타입은 다음과 같다. 계약년도가 2019인 데이터만 뽑아보자. 계약년도 2019년이면서 기업구분이 중소기업인 데이터만 뽑아보자. 위 데이터에서 계약년도, 계약년월, 건수, 금액만 뽑아보자. 위와 같은 방법으로 원하는 데이터를 만들 수 있지만, loc 함수와 iloc 함수를 사용해도 된다!

앞서 csv 파일에 저장된 데이터를 불러오는 것까지 했다. 이제 데이터가 어떤 형식으로 되어있고, 어떤 값들을 가지는 지에 대해 알아보자! csv 파일로 불러온 데이터는 DataFrame의 형식을 갖는다. DataFrame은 엑셀과 같은 형식을 가지며, 데이터를 변환하고 가공하기 쉽게 도와준다. (위 사진 참고) head()는 데이터의 일부만 보여주는 함수로 디폴트값이 5이기 때문에 5개의 데이터만을 보여준다. 괄호 안에 숫자를 써 넣으면 원하는 개수의 행을 볼 수 있다. 또한 tail()이라는 함수가 있는데, 이 함수는 반대로 맨 밑에있는 데이터부터 보여준다. 위 데이터 같은 경우 인덱스를 따로 지정하지 않아 0부터 215의 값을 가지는 것을 알 수 있다. 데이터에 결측값(null)이 있는지 없는지 볼..

데이터를 분석하기에 앞서 먼저 데이터를 불러오는 방법에 대해 알아야한다. 대부분의 데이터를 csv파일로 저장하여 사용하기 때문에 csv파일 불러오는 방법에 대해 알아보자. import pandas as pd data = pd.read_csv('파일명') 다음과 같은 코드를 사용하면 된다. pandas는 데이터 분석을 하기 위한 라이브러리로, 파이썬으로 데이터분석을 하고자 할 때 아주 유용한 라이브러리이다. '파일명'에는 파일의 이름이 들어가면 된다. 같은 폴더에 있는 파일인 경우 이름만 써주면 되지만, 다른 폴더에 있을 경우에는 경로를 함께 써주어야 한다. 위와 같은 코드를 이용하여 csv파일을 불러왔는데 오류가 난다! 이럴 때는 encoding 방식을 'cp949'나 'euc-kr'로 지정해주면 된다...