본문 바로가기

AI

(77)
Store Item Demand Forecasting Challenge 2회차 38.34583 - > 14.49390 (251/461) 1. 그냥 생각없이 칼럼을 추가하는 것이 아니고 date 에 포함된 것중에 group으로 묶였을 때 값의 변화에 따라 sales에 영향을 주는 칼럼만을 추가함. 2. 하이퍼 파라미터를 조절함 150으로 하니까 14점대 까지 내려갔고 300까지 올렸으나 그이상에서는 미비한 차이만 존재 했음. 3. 로그로 정규분포처럼 만들어봤는데 오히려 역효과 근데 표에서도 봤듯이 애초에 정규분포와 비슷한 형태였음. 그렇다면 데이터값을 건드리는 것이 좋은점보다 안좋은 점이 더 커지는 듯 하다. 의문) 그냥 어떤 칼럼에 의해 원하는 목표값이 달라진다면 의미있는 칼럼인가? 이걸 표로 확인하는 법이 뭐였지? # This Python 3 environment comes wi..
Bike Sharing Demand (2) 성능 개선 2회차 0.38 300등 안으로 진입. 성능 개선 1) 필요한 데이터 찾기. 연관성을 그림이나 groupby를 사용하여 시각화 시켜 확인. 2) 앙상블 기법 = 두가지의 feature로 result가 될 수 있는 값을 만드는 방법. 3) 새로운 머신러닝 모델 사용하기. ->과제 # This Python 3 environment comes with many helpful analytics libraries installed # It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python # For example, here's several helpful packages to load in import numpy as..
Store Item Demand Forecasting Challenge Score = 38.34583 430/461 # This Python 3 environment comes with many helpful analytics libraries installed # It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python # For example, here's several helpful packages to load in import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) # Input data files are available in..
Bike Sharing Demand Score = 0.44679 811/3249 import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) # Input data files are available in the "../input/" directory. # For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory import os for dirname, _, filenames in os.walk('/kaggle/input'): for filename in filena..
Kaggle 데이터셋 학습법 우선 문제를 찾아서 거기서 데이터 셋을 다운받아서 해결하는 방법도 존재. 그냥 해보려면 csv파일을 따로 만들어서 불러오면 됨. 학습된 모듈을 실행 파일로 뽑는 방법은 뭐가 있을까.... kaggle점수의 완성도 평가는 주어진 train 데이터 셋에서 얼만큼 필요한 정보를 뽑아서 test에 적용 시킬 수 있는지가 관건 즉 효력이 있는 칼럼데이터가 많아질 수록 완성도가 올라감.