8가지의 머신러닝 모델 정확성 증가 방법
우리는 100% 완벽한 데이터를 가지고 모델을 생성할 수 없기 때문에 오차가 있다고 가정한 내에서 가장 높은 성능을 나타내는 모델을 구현하기 위해 노력한다. 모델 성능을 높이기 위해서는 EDA(탐색적 데이터 분석) 가 필수적이다.
- 학습 데이터 추가
- 데이터가 너무 적으면 모델 성능이 잘 나오지 않는다.
- 하지만 너무 많은 데이터로 학습할 시 Overfitting(과적합)문제가 발생할 수 도 있다.
- 결측치 및 이상치 제거
- 결측치가 있으면 학습이 안될 수 있다.
- 이상치는 학습에 영향을 많이 끼친다. 꼭 제거할 필요는 없고 이상치 확인 후 처리 방법을 고민한다.
- Feature Engineering
- 존재하는 데이터로부터 데이터 변환 또는 생성하는 과정.
- Feature Transformation : 정규화, Log변환, 차원축소 등..
- Feature Creation : 매일 판매량 데이터에서 각 판매일에 대한 휴일여부를 추가
- Feature Selection
- 학습에 필요한 Feature를 선택하는 과정.
- https://blackas119.tistory.com/71?category=779040 참고
- Multiple algorithms
- 좋은 성능을 나타내는 알고리즘을 선택하는 것은 실제로 하는게 어려운 일입니다.
- 따라서 여러가지 알고리즘에 대해 적용하고 성능을 확인해봐야 한다.
- Algorithm Tuning
- 알고리즘 사용시 여러가지의 매개변수를 선택하게 된다. 적절한 매개변수를 통해 정확한 성능을 나타내도록 한다.
- 예를 들어, K-means 알고리즘에서 적절한 K 를 찾는 과정
- Ensemble Method
- 데이터 사이언스 대회에서 주로 사용하는 방법
- https://www.analyticsvidhya.com/blog/2015/08/introduction-ensemble-learning/
- Cross Validation
- 학습 데이터에서 다시 학습 / 테스트 데이터로 분리하여 분리된 데이터로 학습 후 테스트를 하는 방법
- k-folds cross-validation 기법을 사용
- https://www.analyticsvidhya.com/blog/2018/05/improve-model-performance-cross-validation-in-python-r/
참고 사이트 : https://www.analyticsvidhya.com/blog/2015/12/improve-machine-learning-results/
'Machine learning Deep learning' 카테고리의 다른 글
[ML] 앙상블(Ensemble) 기법 (0) | 2022.02.07 |
---|---|
[ML/DL] Feature Selection Method (0) | 2022.01.16 |
[DL] 딥러닝 인공신경망 종류 (0) | 2022.01.06 |
[Kaggle][House Prices]보스턴 집값 예측 for Begginers (0) | 2021.12.19 |
기계 학습 알고리즘 (Machine Learning Algorithm) (0) | 2019.03.12 |