본문 바로가기

AI

(77)
csv파일 다루기. 공공데이터 셋에서 파일 다운로드 했을 때 , 실제로 jupyter로 불러오면 원하는 포맷 출력이 안되는 경우가 있는데, 이는 쉼표 대신 공백을 사용하고 있는것과 , 칼럼이름을 한글로 사용하고 있는경우 굉장히 불편해 진다. 따라서 우선 첫작업으로 ,은 구분자가 되므로 1,000 같은 표현은 사용해서는 안된다. 따라서 바꾸기 버튼에서 모든 , 를 제거 후에 공백 지정후에 공백을 ,로 바꿔준다. 그 다음에 필요 없는 튜플들을 삭제해 주고, 칼럼이름을 영어로 다시 rename 시켜준다.
정렬, 데이터 프레임 기법. bike["area"].value_counts().sort_index().tolist() 이렇게 해주면 bike["area"]에서 중복 값에 대한 갯수들을 뽑아주고 sort_index()를 하면 index별로 즉 이름값의 오름차순으로 정렬이 된다. ㄱ,ㄴ,ㄷ..... 순 그리고 tolist()가 붙게 되면 그중에 숫자 값 즉 count값이 리스트로 뽑아진다. z = park["size"].sort_index().keys().tolist() 같은 방식으로 정렬 후에 keys()로 하면 문자 값 즉 value값이 리스트로 뽑아진다. data = {"name" : z, "park" : x, "count" : y } df = pd.DataFrame(data, columns = ["name", "park","co..
파이썬 유니코드 에러 한글 사용시, 아래처럼 에러 메시지가 나오는 경우 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc1 in position 26: invalid start byte encoding='cp949' 를 추가해준다. bike = pd.read_csv("bike.csv",encoding='CP949') 그리고 맨위에 주석 추가. #-*- coding:utf-8 -*-
San Francisco Crime Classification 2일차 Randomforest -> 덜 복잡한 데이터 셋 작업에서 성능 우수 LGBM -> 복잡한 데이터 셋 작업에서 성능 우수 836/2332 스코어 2.531 # This Python 3 environment comes with many helpful analytics libraries installed # It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python # For example, here's several helpful packages to load in import numpy as np # linear algebra import pandas as pd # data processing, CSV f..
San Francisco Crime Classification 1일차 아직 output 없음 . 점수 x # This Python 3 environment comes with many helpful analytics libraries installed # It is defined by the kaggle/python docker image: https://github.com/kaggle/docker-python # For example, here's several helpful packages to load in import numpy as np # linear algebra import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv) # Input data files are available in the ..
파이썬 개발환경 구축. 1. 파이썬 공식 홈페이지에서 파이썬 다운로드 후 시스템 설정에서 path-편집에서 파이썬이 저장된 경로의 주소를 입력시킨 후 cmd 창에서 python 명령어 입력시 버전이 나옴을 확인. 2. pip install jupyter로 주피터 노트북 설치후 jupyter notebook 명령어로 웹창에서 주피터 개발환경이 열림. 이때 cmd 창을 닫으면 서버연결이 닫히므로 주의. 주피터에서 python 파일을 생성 할때는 빈 디렉토리를 만들고 그안에서 만들어야함. 3. 라이브러리 설치 1) 데이터 구조 제공 패키지 pip install pandas 2) 수학 및 과학 연산 제공 패키지 pip install numpy 3) 데이터 분석결과 시각화 도구 pip install matplotlib pip insta..
머신러닝 이해 (하이퍼 파라미터 , 머신 학습방법) 하이퍼 파라미터에서 n_estimators값이 무조건 크다고 좋은게 아닌 이유는 과 학습이 되어 버리면 어떤 특정 케이스에 대해 답을 찍어버림. 따라서 어떤 모델의 질문과 예측에 의한 결과가 아니라 해당 case에 대한 결과 값으로 값을 내어 버리기 때문에 오히려 성능이 떨어질 수 있음. 우리가 사용하는 데이터의 속성들 즉 칼럼 정보에 대해서 결과를 도출 하는 과정에 대해 질문을 던짐. 그 과정에 분류하고 일정한 규칙과 경향이 생기는데 , 하이퍼 파라미터 설정이유는 default가 만약 1개의 트리라면 하나의 트리로는 많은 질문을 던질 수도 그리고 분류하는 그 체계 또한 한정적임. 딱 1set에 대한 정보임 . 따라서 트리가 많아 질수록 좀 더 분류가 많아지고 정확한 정보에 가까워짐. 하지만 위에서 말했..
kaggle 그림으로 데이터 분석 import seaborn as sns #그림을 그림. import matplotlib.pyplot as plt #그림을 그릴 판을 만듬 _,banana = plt.subplots(2,1,figsize =(20,12)) #변수 두개가 필요한데 하나는 안써도 되므로, _이렇게 사용해도됨. #매개변수로 들어가는건 1,2 = 1열 2행, figuresize sns.boxplot(train["year"],train["count"],ax = banana[0]) #아까 쓴 변수(그림판)에 count에 관하여 그림을 그림. sns.distplot(np.log(train["count"]),ax = banana[1]) boxplot 같은 경우는 x축과 y축을 설정해서 칼럼관계에 대해서 분석이 가능하고, distplot은..