본문 바로가기

따릉이 Data Science Project

(3)
빅데이터 2019 10 05 우리가 해 주고 싶은 작업. -> 서울시 내에 따릉이 추가 설치 장소 찾기 자전거 이용률이 높은 지역이 공공 자전거 수요가 높아서 따릉이 대여소가 많을 것이라고 전제. -> 자전거 이용률에 영향을 미칠 요인 도메인 지식으로 추림. 1. 공원 면적수 -> 건강 ,운동 목적이 자전거 이용에 가장 높은 비율을 차지하였기 때문. 2. 학생 수 -> 10대가 자전거 이용률이 가장 높음을 확인. 3. 직장인 수 -> 출퇴근시 자전거 이용하는 직장인 고려 구 별 자전거 이용률과 각 요인간의 관계를 파악해서 어떤 것이 가장 영향을 많이 미치는 요인인지 머신러닝 모델을 통하여 분석 함. 가장 자전거 이용률에 영향을 미치는 요인을 바탕으로 구 -> 동 으로 추려가면서 뽑음 그리고 실제 이용률이 높은것과 비례하여 따릉이 대..
2019 10 04 빅데이터분석 2회차 데이터 분석 단계에서 설계 방식은 우선 우리는 여러개의 칼럼을 기준으로 대여소의 값을 예측 하는 데이터 프레임을 만들 것임. (칼럼으로 선정된 것) -> 칼럼 선정은 여러 기사 및 우리의 도메인 지식을 바탕으로 선정한 것. (뇌피셜) 이 칼럼이 의미가 있는지는 머신러닝 모델을 만들어 확인. 1. 구별 공원 면적 - 자전거를 이용하는 이유에 운동 및 건강을 위한 이유가 1위에 선정됨을 바탕으로 공원면적이 넓은 구 일 수록 자전거를 타는 것에 동기 부여가 더 될 것이고, 자전거의 이용률이 증가하면 이는 공공자전거의 수요가 증가 할 것이므로 대여소의 수가 늘어 날 것이다. 2. 구별 학급당 학생 수 - 자전거를 이용하는 연령별 분포를 봤을 때 10대가 가장 높게 책정 되었으므로 학급당 학생 수가 높은 구 일 ..
따릉이 설치 지역 정하기. 2019-10-03 (분석 배경) 따릉이란 ? -> 따릉이 설명. 현재 따릉이 이용자 수 가 증가하고 있는 추세임을 밝혀야함. 자료 사진 3 첨부. 공공자전거의 이용이 필요한 지역에 대여소가 설치되어 있지 않아서 불편을 겪는 시민들이 있음. 자료 사진 1,2 첨부 (데이터 분석) 자전거 이용률이 가장 높은 구를 선출하고, 선별 된 구에서 직장 종사자가 많은 동일 수록 자전거 이용량이 많을 것이라고 판단. 회사 출퇴근 수단 자료 이거는 동별로 추출 (서울시 산업체 현황 (동별) 통계 ) 실제 지역별 따릉이 현재수 - 우리가 예측한 지역별 따릉이수 값이 가장 작은 순으로 따릉이 대여소가 부족한 순서. 그 순으로 따릉이 설치 장소를 추천 하도록 함. (분석 결과) -아직 없음 과제) 동별 종사자와 자전거 이용량의 관계 증명하는 ..