본문 바로가기

AI/Kaggle

(10)
Breast Cancer Wisconsin (Diagnostic) Data Set df.info() 데이터 포맷 확인. metrics.accuracy_score(pre_1,y_test)*100 예측 값과 테스트 값의 비교로 성능확인. Pd.Series -> 1차원 배열. Value로 들어갈 값 넣어준 후에 Index를 바꿔 줄 수 있음. Sort_values는 당연히 value기준으로 정렬됨. import pandas as pd import numpy as np from sklearn import metrics train= pd.read_csv("data.csv") #B양성 M악성 train = train.drop(["Unnamed: 32"],1) from sklearn.preprocessing import LabelEncoder le = LabelEncoder() train["dia..
San Francisco Crime Classification 2일차 Randomforest -> 덜 복잡한 데이터 셋 작업에서 성능 우수 LGBM -> 복잡한 데이터 셋 작업에서 성능 우수 836/2332 스코어 2.531 # This Python 3 environment comes with many helpful analytics libraries installed # It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python # For example, here's several helpful packages to load in import numpy as np # linear algebra import pandas as pd # data processing, CSV f..
San Francisco Crime Classification 1일차 아직 output 없음 . 점수 x # This Python 3 environment comes with many helpful analytics libraries installed # It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python # For example, here's several helpful packages to load in import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) # Input data files are available in the ..
머신러닝 이해 (하이퍼 파라미터 , 머신 학습방법) 하이퍼 파라미터에서 n_estimators값이 무조건 크다고 좋은게 아닌 이유는 과 학습이 되어 버리면 어떤 특정 케이스에 대해 답을 찍어버림. 따라서 어떤 모델의 질문과 예측에 의한 결과가 아니라 해당 case에 대한 결과 값으로 값을 내어 버리기 때문에 오히려 성능이 떨어질 수 있음. 우리가 사용하는 데이터의 속성들 즉 칼럼 정보에 대해서 결과를 도출 하는 과정에 대해 질문을 던짐. 그 과정에 분류하고 일정한 규칙과 경향이 생기는데 , 하이퍼 파라미터 설정이유는 default가 만약 1개의 트리라면 하나의 트리로는 많은 질문을 던질 수도 그리고 분류하는 그 체계 또한 한정적임. 딱 1set에 대한 정보임 . 따라서 트리가 많아 질수록 좀 더 분류가 많아지고 정확한 정보에 가까워짐. 하지만 위에서 말했..
kaggle 그림으로 데이터 분석 import seaborn as sns #그림을 그림. import matplotlib.pyplot as plt #그림을 그릴 판을 만듬 _,banana = plt.subplots(2,1,figsize =(20,12)) #변수 두개가 필요한데 하나는 안써도 되므로, _이렇게 사용해도됨. #매개변수로 들어가는건 1,2 = 1열 2행, figuresize sns.boxplot(train["year"],train["count"],ax = banana[0]) #아까 쓴 변수(그림판)에 count에 관하여 그림을 그림. sns.distplot(np.log(train["count"]),ax = banana[1]) boxplot 같은 경우는 x축과 y축을 설정해서 칼럼관계에 대해서 분석이 가능하고, distplot은..
Store Item Demand Forecasting Challenge 2회차 38.34583 - > 14.49390 (251/461) 1. 그냥 생각없이 칼럼을 추가하는 것이 아니고 date 에 포함된 것중에 group으로 묶였을 때 값의 변화에 따라 sales에 영향을 주는 칼럼만을 추가함. 2. 하이퍼 파라미터를 조절함 150으로 하니까 14점대 까지 내려갔고 300까지 올렸으나 그이상에서는 미비한 차이만 존재 했음. 3. 로그로 정규분포처럼 만들어봤는데 오히려 역효과 근데 표에서도 봤듯이 애초에 정규분포와 비슷한 형태였음. 그렇다면 데이터값을 건드리는 것이 좋은점보다 안좋은 점이 더 커지는 듯 하다. 의문) 그냥 어떤 칼럼에 의해 원하는 목표값이 달라진다면 의미있는 칼럼인가? 이걸 표로 확인하는 법이 뭐였지? # This Python 3 environment comes wi..
Bike Sharing Demand (2) 성능 개선 2회차 0.38 300등 안으로 진입. 성능 개선 1) 필요한 데이터 찾기. 연관성을 그림이나 groupby를 사용하여 시각화 시켜 확인. 2) 앙상블 기법 = 두가지의 feature로 result가 될 수 있는 값을 만드는 방법. 3) 새로운 머신러닝 모델 사용하기. ->과제 # This Python 3 environment comes with many helpful analytics libraries installed # It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python # For example, here's several helpful packages to load in import numpy as..
Store Item Demand Forecasting Challenge Score = 38.34583 430/461 # This Python 3 environment comes with many helpful analytics libraries installed # It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python # For example, here's several helpful packages to load in import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) # Input data files are available in..