본문 바로가기

데이터 분석

분당선 역별 승하차 인원 분석 (21.01 - 21.06) - 2 -

지난번 작성 글에 이어 두 번째 분석 과정을 정리하는 포스팅입니다.

제가 처음으로 확인하기 원하는 정보는 분당선의 각 역별 이용 승객 수입니다. 읽어온 데이터 프레임은 다양한 노선들이 모두 포함되어 있기 때문에, 분당선에 대한 값만을 보기 위해 노선명이 분당선인 데이터를 필터링하여 새로운 데이터 프레임에 저장하였습니다.

 

import glob
import pandas as pd

line_num = '분당선'

subway_files = glob.glob('./subway_data/CARD_SUBWAY_*')

print(len(subway_files))

for file in subway_files:
    subway_df = pd.read_csv(file, index_col=False)
    
    bline_filter = subway_df['노선명'] == line_num
    subway_line_raw = subway_df[bline_filter]
    
    print(subway_line_raw)

 

실행 결과


출력 결과를 보면 분당선 데이터만 저장된 것을 확인할 수 있습니다. 하지만 여전히 필요없는 컬럼(Column)인 등록일자가 보이네요. 해당 컬럼을 삭제해보겠습니다.

 

subway_line = subway_line_raw.copy().drop('등록일자', axis=1)


그리고 제가 확인하고 싶은 각 역의 이용 승객수를 확인하기 위해, 승하차 승객수를 더한 "총승객수"란 컬럼을 새로 만들었습니다.

 

subway_line['총승객수'] = subway_line['승차총승객수'] + subway_line['하차총승객수']

 

실행 결과


이제 제가 원하는 데이터들로만 이루어진 데이터 프레임이 완성되었습니다. 오늘은 여기까지만 하고 다음 포스팅을 통해 다양한 관점에서 해당 데이터를 좀 더 살펴보겠습니다.

반응형