Score = 0.44679 811/3249
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
# Input data files are available in the "../input/" directory.
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory
import os
for dirname, _, filenames in os.walk('/kaggle/input'):
for filename in filenames:
print(os.path.join(dirname, filename))
train = pd.read_csv("/kaggle/input/bike-sharing-demand/train.csv")
train["datetime"] = train["datetime"].astype("datetime64")
train.dtypes
train["hour"] = train["datetime"].dt.hour
train["year"] = train["datetime"].dt.year
train.head()
y = train["count"]
train = train.drop(["casual","registered","count","datetime"], 1) #1은 열 0이 행 0은 디폴트
train.head()
test = pd.read_csv("/kaggle/input/bike-sharing-demand/test.csv")
test["datetime"] = test["datetime"].astype("datetime64")
test["hour"] = test["datetime"].dt.hour
test["year"] = test["datetime"].dt.year
test.head()
test = test.drop("datetime",1)
test.head()
sub = pd.read_csv("/kaggle/input/bike-sharing-demand/sampleSubmission.csv")
sub.head()
train.head()
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor()
rf.fit(train,y)
p = rf.predict(test)
p
sub["count"] = p
sub.head()
sub.to_csv("imu.csv",index = False)
RandomForestRegressor = 예측 //시간대에 따른 , 양에 따른
RandomForestClassifier = 구분
도출되어야 하는 값 따로 빼서 씀
파일이름에.csv 무조건
index = False안쓰면 index라는 칼럼이 만들어짐.
순서) 두 데이터 데이터형식 맞추기 -> 모델 라이브러리로 불러오고 -> 생성-> train시킬 값을 넣어주고, 결과로 출력할 값을 같이 넣어줌 -> 훈련된 모듈을 통해 결과 값을 받아옴 -> 최종 담을 빈 데이터에 그 값을 넣어줌
->바뀐 결과 데이터를 csv형식으로 변환해서 파일 생성
'AI > Kaggle' 카테고리의 다른 글
kaggle 그림으로 데이터 분석 (0) | 2019.09.10 |
---|---|
Store Item Demand Forecasting Challenge 2회차 (0) | 2019.09.10 |
Bike Sharing Demand (2) 성능 개선 2회차 (0) | 2019.09.06 |
Store Item Demand Forecasting Challenge (0) | 2019.08.29 |
Kaggle 데이터셋 학습법 (0) | 2019.08.27 |