반응형

앙상블 기법

  • 단일 머신러닝 모델을 연결하여 더 효율적인 모델을 만드는 기법
  • 앙상블의 아이디어는 많은 시행의 결과가 이성적으로 합리적인 결과를 기대함
  • 크게 Bagging과 Boosting 방법으로 나눈다.

Bagging(bootstrap agrregating)

  • 샘플을 여러번 뽑아(Bootstrap) 각 모델을 학습시켜 결과물을 집계(Aggregration)
  • Train데이터에서 임의로 여러개의 샘플을 추출하여 모델 학습하는 과정을 반복하여 개별 학습모델을 생성
  • 각 모델은 서로 독립적
  • 각 모델별로 Test 데이터를 예측한 값으로 투표(Voting) 또는 평균(Regression)을 통해 최종 예측
  • 이러한 Bagging 기법을 이용한 모델이 Random Forest

출처 : https://icim.nims.re.kr/post/easyMath/838

Boosting

  • 잘못 분류된 샘플에 더 많은 가중치를 주어 학습
  • Bagging과 달리 모델 결과에 가중치를 주어 다음 모델에 영향을 끼침(Sequential 하다)
  • 잘못 분류된 데이터에 집중하여 새로운 분류 규칙을 만드는 단계를 반복

출처: Medium (Boosting and Bagging explained with examples)

  • Boosting 모델
    1. Adaboost
    2. XGBoost
    3. LightGBM
    4. CatBoost

Bagging과 Boosting의 장단점

  1. Boosting은 Bagging의 비해 오류가 적다.
  2. Boosting은 Overfitting 될 가능성이 있으며 속도가 느리다

 

출처 : https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-11-%EC%95%99%EC%83%81%EB%B8%94-%ED%95%99%EC%8A%B5-Ensemble-Learning-%EB%B0%B0%EA%B9%85Bagging%EA%B3%BC-%EB%B6%80%EC%8A%A4%ED%8C%85Boosting

 

머신러닝 - 11. 앙상블 학습 (Ensemble Learning): 배깅(Bagging)과 부스팅(Boosting)

앙상블(Ensemble) 앙상블은 조화 또는 통일을 의미합니다. 어떤 데이터의 값을 예측한다고 할 때, 하나의 모델을 활용합니다. 하지만 여러 개의 모델을 조화롭게 학습시켜 그 모델들의 예측 결과들

bkshin.tistory.com

https://icim.nims.re.kr/post/easyMath/838

 

앙상블의 Bagging과 Boosting | 알기 쉬운 산업수학 | 산업수학혁신센터

 

icim.nims.re.kr

 

반응형
반응형

시계열 분석에 대한 내용 정리

 

시계열 데이터란?

  • 시간에 따라 순차적으로 저장된 데이터
  • 정상 시계열 : 시계열의 평균, 분산, 공분산이 일정하고 일정한 추세가 없으면 정상 시계열
  • 비정상 시계열 : 정상 시계열에 만족하지 못한 시계열, 주로 현실에서 수집한 데이터들이 이에 해당
  • 시계열 예시 : 주가, 상품 판매 추세, 날씨
  • 비정상 시계열을 정상 시계열 형태로 가공하여 모델 학습

 

시계열 분석 방법

  1. 추세(Trend) : 시간에 따른 움직임
  2. 계절성(Seasonality) : 계절 변화가 표현
  3. 주기(Cyclical) : 계정성 이외의 기간적인 데이터
  4. 불규칙(Irregular) : 패턴이 없는 불규칙적인 데이터

 

시계열 데이터 모델

  • ARMA(Auto-regressive Moving Average)
    • AR(자기회귀모형)과 MA(이동평균모형)이 결합된 모델
  • ARIMA : 자기회귀누적이동평균 모델
    • 비정상적 시계열 자료에 대한 분석 방법
    • 4단계로 구분 : 1. 모형식별 > 2. 모수 추정 > 3. 모델 적합 > 4. 예측
    • SARIMA(Seasonal ARIMA) : 비정상 시계열 자료에 계절효과가 추가
  • ES(Exponential Smoothing) : 지수 창함수를 사용하여 시계열 데이터를 완만하게 만드는 방법
    • Moving Average방법과 유사
    • N개에 포함된 모든 데이터에 각각 다른 비중을 부여하여 하지만 최근 실적에 가중치를 더 두고 산술평균을 계산하여 다음을 예측
  • LSTM(Long Short-Term Memory) : 공부 후 작성 예정

 

반응형
반응형

8가지의 머신러닝 모델 정확성 증가 방법

우리는 100% 완벽한 데이터를 가지고 모델을 생성할 수 없기 때문에 오차가 있다고 가정한 내에서 가장 높은 성능을 나타내는 모델을 구현하기 위해 노력한다. 모델 성능을 높이기 위해서는 EDA(탐색적 데이터 분석) 가 필수적이다.

 

  1. 학습 데이터 추가
    • 데이터가 너무 적으면 모델 성능이 잘 나오지 않는다.
    • 하지만 너무 많은 데이터로 학습할 시 Overfitting(과적합)문제가 발생할 수 도 있다.
  2. 결측치 및 이상치 제거
    • 결측치가 있으면 학습이 안될 수 있다.
    • 이상치는 학습에 영향을 많이 끼친다. 꼭 제거할 필요는 없고 이상치 확인 후 처리 방법을 고민한다.
  3. Feature Engineering
    • 존재하는 데이터로부터 데이터 변환 또는 생성하는 과정.
    • Feature Transformation : 정규화, Log변환, 차원축소 등..
    • Feature Creation : 매일 판매량 데이터에서 각 판매일에 대한 휴일여부를 추가
  4. Feature Selection
    • 학습에 필요한 Feature를 선택하는 과정.
    • https://blackas119.tistory.com/71?category=779040 참고
  5. Multiple algorithms
    • 좋은 성능을 나타내는 알고리즘을 선택하는 것은 실제로 하는게 어려운 일입니다.
    • 따라서 여러가지 알고리즘에 대해 적용하고 성능을 확인해봐야 한다.
  6. Algorithm Tuning
    • 알고리즘 사용시 여러가지의 매개변수를 선택하게 된다. 적절한 매개변수를 통해 정확한 성능을 나타내도록 한다.
    • 예를 들어, K-means 알고리즘에서 적절한 K 를 찾는 과정
  7. Ensemble Method
  8. Cross Validation

참고 사이트 : https://www.analyticsvidhya.com/blog/2015/12/improve-machine-learning-results/

 

How To Increase Accuracy Of Machine Learning Model

8 proven ways for improving machine learning model accuracy which includes cross validation, engineering, ensemble & outliers in data science.

www.analyticsvidhya.com

 

반응형

+ Recent posts