특징

  • 하나의 데이터를 여러개의 분류기를 통해 다수의 학습 모델을 만들어 학습시키고, 학습 결과를 결합함으로써 과적합을 방지하고 정확도를 높이는 학습 기법.  즉, 다양한 학습 알고리즘들을 결합하여 학습시키는 학습 기법
  • 예측력 보완 Good - 더 많은 연산능력을 활용하여 더 좋은 예측력 가짐
  • 각각의 알고리즘을 single로 사용할 경우 나타나는 단점들 보완

 

유형

  • 앙상블 기법 종류: 보팅, 배깅, 부스팅, 스태킹 등

1. 보팅

  • 앙상블 학습의 기본, 하위 모든 기법들이 보팅 사용
  • 하나의 데이터에 여러 알고리즘 적용
  • 여러 모델에서 구해진 예측값들을 대상으로 다수결 투표를하여 최종 클래스를 예측
  • 하드 보팅과 소프트 보팅

 

2. 배깅

  • 하나의 데이터를 여러개로 나누어 학습하는(부스트래핑) 앙상블 학습법
  • Booststrap Aggregating의 줄임말
    • 부트스트랩이란?
    • : 학습 데이터셋에서 중복을 허용하여 랜덤하게 추출하는 방식(aka. 리샘플링), random sampling을 통해 training data를 늘릴 수 있음
      • 장점: 분산 감소, 학습 데이터가 충분하지 않더라도 충분한 학습효과를 줌 - underfitting, overfitting 문제 해결 도움
      • 단점: 중복으로 인해, 특정 샘플은 사용되지 않고 특정 샘플은 여러번 사용되어 편향될 가능성
  • 여러개로 나누어진 데이터에 하나의 알고리즘 적용
  • 하지만 여러개로 나누어진 데이터를 이용하는 배깅에서도, 최종 예측값을 선택하는 행위는 '보팅'이라 함
  • 대표적 알고리즘: 랜덤 포레스트(Random Forest)

3. 부스팅

  • 병렬로 수행되는 배깅과 달리, 각 결과값을 이용하여 순차적으로 결합
  • 성능이 약한 학습기(weak learner)를 여러 개 연결하여 순차적으로 학습함으로써 강한 학습기(strong learner)를 만드는 기법
  • 즉, 앞에서 학습한 분류기가 예측이 틀린 데이터에 대해서는 올바르게 예측할 수 있도록 다음 분류기에서는 가중치(Weight)를 부여하면서 학습과 예측을 진행하는 기법
  • 장점: 오답에 대해 높은 가중치를 부여하고 정답에 대해 낮은 가중치를 부여하여 오답에 더욱 집중
  • 단점: 이상치(Outlier)에 취약
  • 대표적 알고리즘: 그래디언트 부스팅 (Gradient Boosting), XgBoost (eXtra Gradient Boost), LightGBM

 

참고:

 

1. 앙상블(Ensemble) 기법과 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking)

안녕하세요, 허브솔트에요. 저희 데이터맛집의 허브솔트 첫 글 주제로 앙상블이 당첨됐네요...! 요새 캐글의 상위권 메달을 휩쓸고 있는 대세 알고리즘이 앙상블 기법을 사용한 알고리즘의 한

data-matzip.tistory.com

 

 

앙상블(Ensemble)

1. 앙상블 방법들(Ensemble methods) 앙상블은 분류에서 가장 각광받는 알고리즘 방법 중 하나입니다. 딥러닝을 제외한 정형 데이터의 예측 분석 영역에서는 앙상블이 매우 높은 예측 성능으로 인해

gggggeun.tistory.com

+ Recent posts