최근 취미생활로 Python을 이용한 데이터 분석을 공부하고 있는데, 단순히 실습을 해보고 끝내기보다는 데이터 분석 과정을 정리해 두면 나중에 많은 도움이 될 것 같아서, 블로그에 정리해 두려고 합니다.
금일 목표
A. 데이터 분석 목표 정의
B. 공공데이터 준비 및 살펴보기
C. 데이터 전처리 하기
A. 데이터 분석 목표 정의
단순히 의미없이 데이터 분석을 하기보다는 목표를 정하고 해당 목표를 해결하기 위해 삽질의 과정을 거치는 것이 재미있을 것 같아서 일단은 목표를 정하고 그에 맞는 데이터 분석을 진행하려고 합니다.
목표 정의 : "지하철 승하차 인원이 역세권 아파트 시세에 미치는 영향 분석"
B. 공공데이터 준비 및 살펴보기
일단 지하철 승하차 인원과 역세권 아파트 시세의 상관관계를 파악하기 위해 가장 먼저, 지하철 승하차 인원에 대한 데이터 분석을 진행하려고 합니다. 지하철 승하차 인원에 대한 데이터는 아래 서울시 공공데이터를 통해 얻을 수 있습니다.
https://data.seoul.go.kr/dataList/OA-12914/S/1/datasetView.do
서울시 지하철호선별 역별 승하차 인원 정보
교통카드(선후불교통카드 및 1회용 교통카드)를 이용한 지하철호선별 역별(서울교통공사, 한국철도공사, 공항철도, 9호선) 승하차인원을 나타내는 정보입니다. (일단위) <br />※ Sheet 서비스는 마
data.seoul.go.kr
C. 데이터 전처리 하기
데이터 분석의 목표를 해결하기 위해서는 매우 방대한 자료가 필요하지만, 일단은 범위를 줄여서 데이터 전처리하는 것부터 시작하려고 결정하였습니다. 일단 지하철 호선은 제가 가장 많이 이용하는 '분당선'으로 한정하고, 데이터 분석의 범위도 2021년도 자료로 한정하였습니다.
이를 위해 먼저 2021년도의 지하철호선별 역별 승하차 인원 정보 파일을 읽어와서, data frame으로 저장하는 것 까지 진행하려고 합니다.
import glob
import pandas as pd
subway_files = glob.glob('./subway_data/CARD_SUBWAY_*')
print(len(subway_files))
for file in subway_files:
df = pd.read_csv(file, index_col=False)
print(df)
index_col = False를 사용하지 않으면, data frame이 원하는 대로 저장이 되지 않기 때문에 해당 option을 사용하였습니다. 다음 글에서는 각 data frame 에서 분당선 정보만 추출하는 과정을 진행할 예정이며 금일은 여기까지만 진행하겠습니다.
'데이터 분석' 카테고리의 다른 글
분당선 역별 승하차 인원 분석 (21.01 - 21.06) - 2 - (0) | 2021.08.05 |
---|