우리가 해 주고 싶은 작업. -> 서울시 내에 따릉이 추가 설치 장소 찾기
자전거 이용률이 높은 지역이 공공 자전거 수요가 높아서 따릉이 대여소가 많을 것이라고 전제.
-> 자전거 이용률에 영향을 미칠 요인 도메인 지식으로 추림.
1. 공원 면적수 -> 건강 ,운동 목적이 자전거 이용에 가장 높은 비율을 차지하였기 때문.
2. 학생 수 -> 10대가 자전거 이용률이 가장 높음을 확인.
3. 직장인 수 -> 출퇴근시 자전거 이용하는 직장인 고려
구 별 자전거 이용률과 각 요인간의 관계를 파악해서 어떤 것이 가장 영향을 많이 미치는 요인인지
머신러닝 모델을 통하여 분석 함.
가장 자전거 이용률에 영향을 미치는 요인을 바탕으로 구 -> 동 으로 추려가면서 뽑음 그리고
실제 이용률이 높은것과 비례하여 따릉이 대여소 수도 많은 장소는 제외하고,
이용률이 높지만 따릉이 대여소 수가 적은 지역을 선정.
자전거 이용률에 영향을 미치는 우선 순위를 찾아 낸 후에 각 조건에 대해 부합하는 장소를 찾아 내기 위해
이를테면 공원이 가장 이용률에 영향을 미친다는 결과라면 공원이 많은 지역을 좀 더 우선적으로 보는 과정을 거치기 위해 각 칼럼의 importance 퍼센트 값을 각 칼럼에 곱해 줘서 importance라는 칼럼을 새로 만듬
이미 구별 자전거 이용률이 존재하는데 importance값을 따로 추출한 이유는 자전거 이용률에는 우리가 생각한 요인들 보다 더 많은 요인들이 포함 되어 있고, 그 모든 조건들을 전부 종합해서 생각해 주기가 힘들기 때문에,
우리의 도메인으로 판단한 조건들을 위주로 생각해 주기 위해서 이런 연산 작업이 필요하다고 생각.
'따릉이 Data Science Project' 카테고리의 다른 글
2019 10 04 빅데이터분석 2회차 (0) | 2019.10.04 |
---|---|
따릉이 설치 지역 정하기. 2019-10-03 (0) | 2019.10.03 |