본문 바로가기

AI/Kaggle

머신러닝 이해 (하이퍼 파라미터 , 머신 학습방법)

반응형

하이퍼 파라미터에서 n_estimators값이 무조건 크다고 좋은게 아닌 이유는 과 학습이 되어 버리면 

어떤 특정 케이스에 대해 답을 찍어버림. 따라서 어떤 모델의 질문과 예측에 의한 결과가 아니라 해당 case에 대한 

결과 값으로 값을 내어 버리기 때문에 오히려 성능이 떨어질 수 있음.

 

우리가 사용하는 데이터의 속성들 즉 칼럼 정보에 대해서 결과를 도출 하는 과정에 대해 질문을 던짐. 그 과정에 분류하고 일정한 규칙과 경향이 생기는데 , 하이퍼 파라미터 설정이유는 default가 만약 1개의 트리라면 하나의 트리로는 많은 질문을 던질 수도 그리고 분류하는 그 체계 또한 한정적임. 딱 1set에 대한 정보임 . 따라서 트리가 많아 질수록 좀 더 분류가 많아지고 정확한 정보에 가까워짐. 하지만 위에서 말했듯이 과학습이 되면 안됨.

반응형