본문 바로가기

따릉이 Data Science Project

빅데이터 2019 10 05

반응형

우리가 해 주고 싶은 작업. -> 서울시 내에 따릉이 추가 설치 장소 찾기

 

자전거 이용률이 높은 지역이 공공 자전거 수요가 높아서 따릉이 대여소가 많을 것이라고 전제.

-> 자전거 이용률에 영향을 미칠 요인 도메인 지식으로 추림.

1. 공원 면적수 -> 건강 ,운동 목적이 자전거 이용에 가장 높은 비율을 차지하였기 때문.

2. 학생 수 -> 10대가 자전거 이용률이 가장 높음을 확인.

3. 직장인 수 -> 출퇴근시 자전거 이용하는 직장인 고려

 

구 별 자전거 이용률과 각 요인간의 관계를 파악해서 어떤 것이 가장 영향을 많이 미치는 요인인지

머신러닝 모델을 통하여 분석 함.

 

가장 자전거 이용률에 영향을 미치는 요인을 바탕으로 구 -> 동 으로 추려가면서 뽑음 그리고

실제 이용률이 높은것과 비례하여 따릉이 대여소 수도 많은 장소는 제외하고,

이용률이 높지만 따릉이 대여소 수가 적은 지역을 선정.

 

자전거 이용률에 영향을 미치는 우선 순위를 찾아 낸 후에 각 조건에 대해 부합하는 장소를 찾아 내기 위해

이를테면 공원이 가장 이용률에 영향을 미친다는 결과라면 공원이 많은 지역을 좀 더 우선적으로 보는 과정을 거치기 위해 각 칼럼의 importance 퍼센트 값을 각 칼럼에 곱해 줘서 importance라는 칼럼을 새로 만듬

이미 구별 자전거 이용률이 존재하는데 importance값을 따로 추출한 이유는 자전거 이용률에는 우리가 생각한 요인들 보다 더 많은 요인들이 포함 되어 있고, 그 모든 조건들을 전부 종합해서 생각해 주기가 힘들기 때문에,

우리의 도메인으로 판단한 조건들을 위주로 생각해 주기 위해서 이런 연산 작업이 필요하다고 생각.

반응형