본문 바로가기

분류 전체보기

(1196)
Breast Cancer Wisconsin (Diagnostic) Data Set df.info() 데이터 포맷 확인. metrics.accuracy_score(pre_1,y_test)*100 예측 값과 테스트 값의 비교로 성능확인. Pd.Series -> 1차원 배열. Value로 들어갈 값 넣어준 후에 Index를 바꿔 줄 수 있음. Sort_values는 당연히 value기준으로 정렬됨. import pandas as pd import numpy as np from sklearn import metrics train= pd.read_csv("data.csv") #B양성 M악성 train = train.drop(["Unnamed: 32"],1) from sklearn.preprocessing import LabelEncoder le = LabelEncoder() train["dia..
백준 11403번 경로찾기 문제 가중치 없는 방향 그래프 G가 주어졌을 때, 모든 정점 (i, j)에 대해서, i에서 j로 가는 경로가 있는지 없는지 구하는 프로그램을 작성하시오. 입력 첫째 줄에 정점의 개수 N (1 ≤ N ≤ 100)이 주어진다. 둘째 줄부터 N개 줄에는 그래프의 인접 행렬이 주어진다. i번째 줄의 j번째 숫자가 1인 경우에는 i에서 j로 가는 간선이 존재한다는 뜻이고, 0인 경우는 없다는 뜻이다. i번째 줄의 i번째 숫자는 항상 0이다. 출력 총 N개의 줄에 걸쳐서 문제의 정답을 인접행렬 형식으로 출력한다. 정점 i에서 j로 가는 경로가 있으면 i번째 줄의 j번째 숫자를 1로, 없으면 0으로 출력해야 한다. 간단한 BFS문제. check true전환 포인트 잘보기 . 자신과 end가 같으면 무조건 체크하게 하..
백준 1260번 DFS와 BFS 재풀이. 문제 그래프를 DFS로 탐색한 결과와 BFS로 탐색한 결과를 출력하는 프로그램을 작성하시오. 단, 방문할 수 있는 정점이 여러 개인 경우에는 정점 번호가 작은 것을 먼저 방문하고, 더 이상 방문할 수 있는 점이 없는 경우 종료한다. 정점 번호는 1번부터 N번까지이다. 입력 첫째 줄에 정점의 개수 N(1 ≤ N ≤ 1,000), 간선의 개수 M(1 ≤ M ≤ 10,000), 탐색을 시작할 정점의 번호 V가 주어진다. 다음 M개의 줄에는 간선이 연결하는 두 정점의 번호가 주어진다. 어떤 두 정점 사이에 여러 개의 간선이 있을 수 있다. 입력으로 주어지는 간선은 양방향이다. 출력 첫째 줄에 DFS를 수행한 결과를, 그 다음 줄에는 BFS를 수행한 결과를 출력한다. V부터 방문된 점을 순서대로 출력하면 된다. ..
백준 6603번 로또 문제 독일 로또는 {1, 2, ..., 49}에서 수 6개를 고른다. 로또 번호를 선택하는데 사용되는 가장 유명한 전략은 49가지 수 중 k(k>6)개의 수를 골라 집합 S를 만든 다음 그 수만 가지고 번호를 선택하는 것이다. 예를 들어, k=8, S={1,2,3,5,8,13,21,34}인 경우 이 집합 S에서 수를 고를 수 있는 경우의 수는 총 28가지이다. ([1,2,3,5,8,13], [1,2,3,5,8,21], [1,2,3,5,8,34], [1,2,3,5,13,21], ..., [3,5,8,13,21,34]) 집합 S와 k가 주어졌을 때, 수를 고르는 모든 방법을 구하는 프로그램을 작성하시오. 입력 입력은 여러 개의 테스트 케이스로 이루어져 있다. 각 테스트 케이스는 한 줄로 이루어져 있다. 첫 ..
데이터 셋의 임의의 칼럼의 행 데이터 뽑기. importances_df["importances"].values[0] #importances_df 데이터 셋에서 importances 칼럼의 첫 번째 데이터. 이름 string값으로 정렬 하는것은 df.sort_values(by ="name") 숫자 값을 기준으로 정렬 df.sort_values("count",ascending =False)
빅데이터 2019 10 05 우리가 해 주고 싶은 작업. -> 서울시 내에 따릉이 추가 설치 장소 찾기 자전거 이용률이 높은 지역이 공공 자전거 수요가 높아서 따릉이 대여소가 많을 것이라고 전제. -> 자전거 이용률에 영향을 미칠 요인 도메인 지식으로 추림. 1. 공원 면적수 -> 건강 ,운동 목적이 자전거 이용에 가장 높은 비율을 차지하였기 때문. 2. 학생 수 -> 10대가 자전거 이용률이 가장 높음을 확인. 3. 직장인 수 -> 출퇴근시 자전거 이용하는 직장인 고려 구 별 자전거 이용률과 각 요인간의 관계를 파악해서 어떤 것이 가장 영향을 많이 미치는 요인인지 머신러닝 모델을 통하여 분석 함. 가장 자전거 이용률에 영향을 미치는 요인을 바탕으로 구 -> 동 으로 추려가면서 뽑음 그리고 실제 이용률이 높은것과 비례하여 따릉이 대..
csv파일 다루기. 공공데이터 셋에서 파일 다운로드 했을 때 , 실제로 jupyter로 불러오면 원하는 포맷 출력이 안되는 경우가 있는데, 이는 쉼표 대신 공백을 사용하고 있는것과 , 칼럼이름을 한글로 사용하고 있는경우 굉장히 불편해 진다. 따라서 우선 첫작업으로 ,은 구분자가 되므로 1,000 같은 표현은 사용해서는 안된다. 따라서 바꾸기 버튼에서 모든 , 를 제거 후에 공백 지정후에 공백을 ,로 바꿔준다. 그 다음에 필요 없는 튜플들을 삭제해 주고, 칼럼이름을 영어로 다시 rename 시켜준다.
2019 10 04 빅데이터분석 2회차 데이터 분석 단계에서 설계 방식은 우선 우리는 여러개의 칼럼을 기준으로 대여소의 값을 예측 하는 데이터 프레임을 만들 것임. (칼럼으로 선정된 것) -> 칼럼 선정은 여러 기사 및 우리의 도메인 지식을 바탕으로 선정한 것. (뇌피셜) 이 칼럼이 의미가 있는지는 머신러닝 모델을 만들어 확인. 1. 구별 공원 면적 - 자전거를 이용하는 이유에 운동 및 건강을 위한 이유가 1위에 선정됨을 바탕으로 공원면적이 넓은 구 일 수록 자전거를 타는 것에 동기 부여가 더 될 것이고, 자전거의 이용률이 증가하면 이는 공공자전거의 수요가 증가 할 것이므로 대여소의 수가 늘어 날 것이다. 2. 구별 학급당 학생 수 - 자전거를 이용하는 연령별 분포를 봤을 때 10대가 가장 높게 책정 되었으므로 학급당 학생 수가 높은 구 일 ..