본문 바로가기

AI/Kaggle

Bike Sharing Demand

반응형

Score = 0.44679  811/3249

 

 

 

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

 

 

train = pd.read_csv("/kaggle/input/bike-sharing-demand/train.csv")

train["datetime"] = train["datetime"].astype("datetime64")
train.dtypes 

train["hour"] = train["datetime"].dt.hour
train["year"] = train["datetime"].dt.year
train.head()

 

y = train["count"]  

train = train.drop(["casual","registered","count","datetime"], 1)  #1은 열 0이 행 0은 디폴트
train.head()


test = pd.read_csv("/kaggle/input/bike-sharing-demand/test.csv")
test["datetime"] = test["datetime"].astype("datetime64")
test["hour"] = test["datetime"].dt.hour
test["year"] = test["datetime"].dt.year

test.head()


test = test.drop("datetime",1)

test.head()




sub = pd.read_csv("/kaggle/input/bike-sharing-demand/sampleSubmission.csv")
sub.head()

train.head()





from sklearn.ensemble import RandomForestRegressor

rf = RandomForestRegressor()

rf.fit(train,y)

p = rf.predict(test)
p

sub["count"] = p

sub.head()



sub.to_csv("imu.csv",index = False)

 

 

RandomForestRegressor = 예측  //시간대에 따른 , 양에 따른

RandomForestClassifier = 구분

 

도출되어야 하는 값 따로 빼서 씀
파일이름에.csv 무조건
index = False안쓰면 index라는 칼럼이 만들어짐.

 

순서) 두 데이터 데이터형식 맞추기 -> 모델 라이브러리로 불러오고 -> 생성-> train시킬 값을 넣어주고, 결과로 출력할 값을 같이 넣어줌 -> 훈련된 모듈을 통해 결과 값을 받아옴 -> 최종 담을 빈 데이터에 그 값을 넣어줌

->바뀐 결과 데이터를 csv형식으로 변환해서 파일 생성 

반응형