본문 바로가기

AI/Kaggle

kaggle 그림으로 데이터 분석

반응형

 

import seaborn as sns  #그림을 그림.
import matplotlib.pyplot as plt  #그림을 그릴 판을 만듬

_,banana = plt.subplots(2,1,figsize =(20,12))  #변수 두개가 필요한데 하나는 안써도 되므로, _이렇게 사용해도됨. 

                                                               #매개변수로 들어가는건 1,2 = 1열 2행, figuresize
sns.boxplot(train["year"],train["count"],ax = banana[0])     #아까 쓴 변수(그림판)에 count에 관하여 그림을 그림.
sns.distplot(np.log(train["count"]),ax = banana[1])

 

boxplot 같은 경우는 x축과 y축을 설정해서 칼럼관계에 대해서 분석이 가능하고, distplot은 하나의 칼럼에 대한 수의 분포를 볼 수 있음. 정규분포관계 같은것을 확인 할 때 사용. 인자가 하나 들어감

 

year과 month 의 차이는 얼핏 보기엔 비슷해 보이지만 year과 같은 경우엔 중간 값의 차이가 200 안과 밖으로 구분됨. 꽤 큰 차이지만 month 같은 경우에는 중간 값의 데이터가 200내부에서 비슷한 수준에서 머뭄. 따라서 차이가 희박.

그래서 month를 추가 시키면 분석에 방해가 될 수 있음.

반응형