반응형

8가지의 머신러닝 모델 정확성 증가 방법

우리는 100% 완벽한 데이터를 가지고 모델을 생성할 수 없기 때문에 오차가 있다고 가정한 내에서 가장 높은 성능을 나타내는 모델을 구현하기 위해 노력한다. 모델 성능을 높이기 위해서는 EDA(탐색적 데이터 분석) 가 필수적이다.

 

  1. 학습 데이터 추가
    • 데이터가 너무 적으면 모델 성능이 잘 나오지 않는다.
    • 하지만 너무 많은 데이터로 학습할 시 Overfitting(과적합)문제가 발생할 수 도 있다.
  2. 결측치 및 이상치 제거
    • 결측치가 있으면 학습이 안될 수 있다.
    • 이상치는 학습에 영향을 많이 끼친다. 꼭 제거할 필요는 없고 이상치 확인 후 처리 방법을 고민한다.
  3. Feature Engineering
    • 존재하는 데이터로부터 데이터 변환 또는 생성하는 과정.
    • Feature Transformation : 정규화, Log변환, 차원축소 등..
    • Feature Creation : 매일 판매량 데이터에서 각 판매일에 대한 휴일여부를 추가
  4. Feature Selection
    • 학습에 필요한 Feature를 선택하는 과정.
    • https://blackas119.tistory.com/71?category=779040 참고
  5. Multiple algorithms
    • 좋은 성능을 나타내는 알고리즘을 선택하는 것은 실제로 하는게 어려운 일입니다.
    • 따라서 여러가지 알고리즘에 대해 적용하고 성능을 확인해봐야 한다.
  6. Algorithm Tuning
    • 알고리즘 사용시 여러가지의 매개변수를 선택하게 된다. 적절한 매개변수를 통해 정확한 성능을 나타내도록 한다.
    • 예를 들어, K-means 알고리즘에서 적절한 K 를 찾는 과정
  7. Ensemble Method
  8. Cross Validation

참고 사이트 : https://www.analyticsvidhya.com/blog/2015/12/improve-machine-learning-results/

 

How To Increase Accuracy Of Machine Learning Model

8 proven ways for improving machine learning model accuracy which includes cross validation, engineering, ensemble & outliers in data science.

www.analyticsvidhya.com

 

반응형

+ Recent posts