특징
- 하나의 데이터를 여러개의 분류기를 통해 다수의 학습 모델을 만들어 학습시키고, 학습 결과를 결합함으로써 과적합을 방지하고 정확도를 높이는 학습 기법. 즉, 다양한 학습 알고리즘들을 결합하여 학습시키는 학습 기법
- 예측력 보완 Good - 더 많은 연산능력을 활용하여 더 좋은 예측력 가짐
- 각각의 알고리즘을 single로 사용할 경우 나타나는 단점들 보완
유형
- 앙상블 기법 종류: 보팅, 배깅, 부스팅, 스태킹 등

1. 보팅
- 앙상블 학습의 기본, 하위 모든 기법들이 보팅 사용
- 하나의 데이터에 여러 알고리즘 적용
- 여러 모델에서 구해진 예측값들을 대상으로 다수결 투표를하여 최종 클래스를 예측
- 하드 보팅과 소프트 보팅

2. 배깅
- 하나의 데이터를 여러개로 나누어 학습하는(부스트래핑) 앙상블 학습법
- Booststrap Aggregating의 줄임말
- 부트스트랩이란?
- : 학습 데이터셋에서 중복을 허용하여 랜덤하게 추출하는 방식(aka. 리샘플링), random sampling을 통해 training data를 늘릴 수 있음
- 장점: 분산 감소, 학습 데이터가 충분하지 않더라도 충분한 학습효과를 줌 - underfitting, overfitting 문제 해결 도움
- 단점: 중복으로 인해, 특정 샘플은 사용되지 않고 특정 샘플은 여러번 사용되어 편향될 가능성
- 여러개로 나누어진 데이터에 하나의 알고리즘 적용
- 하지만 여러개로 나누어진 데이터를 이용하는 배깅에서도, 최종 예측값을 선택하는 행위는 '보팅'이라 함
- 대표적 알고리즘: 랜덤 포레스트(Random Forest)
3. 부스팅
- 병렬로 수행되는 배깅과 달리, 각 결과값을 이용하여 순차적으로 결합
- 성능이 약한 학습기(weak learner)를 여러 개 연결하여 순차적으로 학습함으로써 강한 학습기(strong learner)를 만드는 기법
- 즉, 앞에서 학습한 분류기가 예측이 틀린 데이터에 대해서는 올바르게 예측할 수 있도록 다음 분류기에서는 가중치(Weight)를 부여하면서 학습과 예측을 진행하는 기법
- 장점: 오답에 대해 높은 가중치를 부여하고 정답에 대해 낮은 가중치를 부여하여 오답에 더욱 집중
- 단점: 이상치(Outlier)에 취약
- 대표적 알고리즘: 그래디언트 부스팅 (Gradient Boosting), XgBoost (eXtra Gradient Boost), LightGBM
참고:
1. 앙상블(Ensemble) 기법과 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking)
안녕하세요, 허브솔트에요. 저희 데이터맛집의 허브솔트 첫 글 주제로 앙상블이 당첨됐네요...! 요새 캐글의 상위권 메달을 휩쓸고 있는 대세 알고리즘이 앙상블 기법을 사용한 알고리즘의 한
data-matzip.tistory.com
앙상블(Ensemble)
1. 앙상블 방법들(Ensemble methods) 앙상블은 분류에서 가장 각광받는 알고리즘 방법 중 하나입니다. 딥러닝을 제외한 정형 데이터의 예측 분석 영역에서는 앙상블이 매우 높은 예측 성능으로 인해
gggggeun.tistory.com
'Data Scientist > Machine Learning' 카테고리의 다른 글
[ML] 경사하강법 (0) | 2022.07.04 |
---|---|
[ML] XGBoost (0) | 2022.03.31 |
[ML] tensorflow와 keras 의 차이 (0) | 2022.02.03 |
[ML] 머신러닝의 큰 그림 살펴보기(왕기초) (0) | 2021.12.03 |
[ML] 머신러닝 기본 개념과 학습 방법 (0) | 2021.07.30 |