본문 바로가기

따릉이 Data Science Project

2019 10 04 빅데이터분석 2회차

반응형

데이터 분석 단계에서 설계 방식은 우선 우리는 여러개의 칼럼을 기준으로 대여소의 값을 예측 하는 

데이터 프레임을 만들 것임.

(칼럼으로 선정된 것)

-> 칼럼 선정은 여러 기사 및 우리의 도메인 지식을 바탕으로 선정한 것. (뇌피셜)

이 칼럼이 의미가 있는지는 머신러닝 모델을 만들어 확인.

 

1. 구별 공원 면적

-

자전거를 이용하는 이유에 운동 및 건강을 위한 이유가 1위에 선정됨을 바탕으로 공원면적이 넓은 구 일 수록 

자전거를 타는 것에 동기 부여가 더 될 것이고, 자전거의 이용률이 증가하면 이는 공공자전거의 수요가 증가 할 것이므로 대여소의 수가 늘어 날 것이다.

 

2. 구별 학급당 학생 수

자전거를 이용하는 연령별 분포를 봤을 때 10대가 가장 높게 책정 되었으므로 학급당 학생 수가 높은 구 일 수록 

10대의 인원이 많을 것이고 , 자전거 이용률에 영향을 미칠 것이라고 판단.

 

3. 직장인 종사자 수 

출 퇴근을 하는 직장인들의 교통 수단에 자전거가 항상 일정 비율을 차지함에서 이용률에 영향을 미칠 것이라고 판단.

 

자전거 이용률에 가장 영향을 미치는 요인의 우선순위를 찾아냄.

 

 

(사용 데이터셋)

서울시 교원 1인당 학생수 (구별) 통계

 서울특별시 공공자전거 대여소 정보

서울시 자전거 이용률 통계

서울시 공원 통계

서울시 직업유형별 취업인구 (구별) 통계

 

반응형

'따릉이 Data Science Project' 카테고리의 다른 글

빅데이터 2019 10 05  (0) 2019.10.05
따릉이 설치 지역 정하기. 2019-10-03  (0) 2019.10.03