앙상블 학습 기초 완벽 가이드

머신러닝에서 여러 모델을 조합하여 더 강력한 예측 성능을 만들어내는 앙상블 학습의 핵심 기법들을 알아봅니다. 랜덤 포레스트부터 그래디언트 부스팅까지 실무에서 바로 활용할 수 있는 기초 지식을 담았습니다.

1. 앙상블 학습이란

김개발 씨는 머신러닝 프로젝트에서 정확도 85%를 달성했지만, 팀장님은 90% 이상을 요구했습니다. 모델을 아무리 튜닝해도 한계에 부딪힌 그때, 선배가 조용히 다가와 말했습니다.

"혼자서 안 되면, 여럿이 힘을 합쳐보는 건 어때요?"

앙상블 학습은 여러 개의 모델을 조합하여 하나의 강력한 예측기를 만드는 기법입니다. 마치 어려운 문제를 풀 때 혼자 고민하는 것보다 여러 전문가의 의견을 종합하는 것이 더 정확한 답을 얻는 것과 같습니다.

개별 모델의 약점을 서로 보완하여 더 안정적이고 정확한 예측이 가능해집니다.

다음 코드를 살펴봅시다.

from sklearn.ensemble import VotingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

# 세 명의 전문가(모델)를 모읍니다
tree_model = DecisionTreeClassifier(max_depth=5)
logistic_model = LogisticRegression(max_iter=1000)
svm_model = SVC(probability=True)

# 앙상블: 세 모델의 의견을 종합합니다
ensemble = VotingClassifier(
    estimators=[('tree', tree_model), ('lr', logistic_model), ('svm', svm_model)],
    voting='soft'  # 확률 기반 투표
)
ensemble.fit(X_train, y_train)
accuracy = ensemble.score(X_test, y_test)

김개발 씨는 입사 6개월 차 데이터 분석가입니다. 고객 이탈 예측 모델을 만들었는데, 정확도가 85%에서 도무지 올라가지 않았습니다.

로지스틱 회귀도 써보고, 의사결정나무도 시도해봤지만 결과는 비슷했습니다. 선배 박시니어 씨가 김개발 씨의 모니터를 보더니 빙그레 웃었습니다.

"개발 씨, 혹시 앙상블 학습이라고 들어봤어요? 한 명의 천재보다 여러 명의 평범한 사람이 모이면 더 좋은 결과를 낼 수 있거든요." 앙상블 학습이란 정확히 무엇일까요?

쉽게 비유하자면, 앙상블은 마치 퀴즈 대회에서 팀전을 치르는 것과 같습니다. 역사에 강한 사람, 수학에 강한 사람, 과학에 강한 사람이 한 팀이 되면 어떤 문제가 나와도 누군가는 답을 알고 있습니다.

개인전에서는 한계가 있지만, 팀으로 뭉치면 서로의 약점을 보완할 수 있습니다. 머신러닝에서도 마찬가지입니다.

의사결정나무는 비선형 관계를 잘 잡아내지만 과적합되기 쉽습니다. 로지스틱 회귀는 안정적이지만 복잡한 패턴을 놓칩니다.

SVM은 고차원에서 강하지만 해석이 어렵습니다. 이런 서로 다른 특성의 모델들을 조합하면 각자의 단점이 상쇄됩니다.

앙상블이 없던 시절에는 어땠을까요? 데이터 과학자들은 하나의 모델만으로 모든 것을 해결해야 했습니다.

모델 A가 틀리면 그대로 틀린 예측이 되었습니다. 특히 노이즈가 많은 실제 데이터에서는 단일 모델의 한계가 뚜렷했습니다.

바로 이런 문제를 해결하기 위해 앙상블 학습이 등장했습니다. 여러 모델이 각자 예측한 결과를 투표하거나 평균 내면, 한두 모델이 틀리더라도 다수의 올바른 예측이 최종 결과를 이끌어냅니다.

위의 코드를 살펴보겠습니다. 먼저 세 가지 서로 다른 모델을 생성합니다.

DecisionTreeClassifier, LogisticRegression, SVC가 각각 다른 방식으로 데이터를 바라봅니다. 그다음 VotingClassifier로 이 세 모델을 하나로 묶습니다.

**voting='soft'**는 각 모델이 예측한 확률을 평균 내서 최종 결정을 한다는 뜻입니다. 실제 현업에서 앙상블은 거의 필수입니다.

캐글 대회에서 상위권을 차지하는 솔루션 대부분이 앙상블 기법을 사용합니다. 금융권의 신용평가 모델, 의료 분야의 질병 예측 모델에서도 앙상블은 신뢰도를 높이는 핵심 기법입니다.

하지만 주의할 점도 있습니다. 비슷한 특성의 모델끼리 앙상블하면 효과가 떨어집니다.

마치 역사 전문가 세 명이 모여봤자 수학 문제는 못 푸는 것과 같습니다. 다양성이 앙상블의 핵심입니다.

다시 김개발 씨 이야기로 돌아가 봅시다. 선배의 조언을 듣고 세 가지 모델을 앙상블한 결과, 정확도가 91%로 올랐습니다.

김개발 씨는 그제야 이해했습니다. 완벽한 모델 하나를 찾으려 애쓰기보다, 서로 다른 모델들의 힘을 합치는 것이 더 현명한 방법이라는 것을.

실전 팁

💡 - 앙상블할 때는 서로 다른 특성의 모델을 조합해야 효과가 좋습니다

soft voting은 확률 예측이 가능한 모델에만 사용할 수 있습니다
모델 수가 많다고 무조건 좋은 것은 아닙니다. 3~5개가 적당합니다

2. 랜덤 포레스트 구현

박시니어 씨가 김개발 씨에게 물었습니다. "의사결정나무 하나로는 과적합이 심하다는 거 알죠?

그런데 나무를 백 그루, 천 그루 심으면 어떻게 될까요?" 김개발 씨는 고개를 갸웃했습니다. "나무가 많으면...

숲이 되겠네요?"

랜덤 포레스트는 수많은 의사결정나무를 만들어 그 예측을 종합하는 앙상블 기법입니다. 각 나무는 전체 데이터의 일부만 보고, 일부 특성만 사용하여 학습합니다.

마치 숲의 나무들이 각자 다른 환경에서 자라나듯, 다양한 관점의 나무들이 모여 강건한 예측을 만들어냅니다.

다음 코드를 살펴봅시다.

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

# 샘플 데이터 생성
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 랜덤 포레스트: 100그루의 나무로 숲을 만듭니다
forest = RandomForestClassifier(
    n_estimators=100,      # 나무 100그루
    max_depth=10,          # 각 나무의 최대 깊이
    min_samples_split=5,   # 분할에 필요한 최소 샘플 수
    random_state=42
)
forest.fit(X_train, y_train)
print(f"정확도: {forest.score(X_test, y_test):.4f}")

김개발 씨는 의사결정나무의 문제점을 잘 알고 있었습니다. 학습 데이터에는 거의 100%에 가까운 정확도를 보이다가, 새로운 데이터가 들어오면 성능이 뚝 떨어지곤 했습니다.

전형적인 과적합 문제였습니다. 박시니어 씨가 설명을 이어갔습니다.

"나무 한 그루는 자기가 본 데이터에 너무 민감하게 반응해요. 그런데 나무 백 그루가 각자 조금씩 다른 데이터를 보고 판단하면 어떨까요?" 랜덤 포레스트의 핵심 아이디어는 다양성입니다.

첫째, 부트스트랩 샘플링을 사용합니다. 전체 데이터에서 중복을 허용하여 무작위로 샘플을 추출합니다.

나무마다 서로 다른 데이터 셋으로 학습하게 됩니다. 둘째, 특성 무작위 선택을 적용합니다.

각 분할 시점에서 전체 특성 중 일부만 후보로 고려합니다. 이렇게 하면 나무마다 다른 특성을 중요하게 여기게 됩니다.

이 두 가지 무작위성 덕분에 각 나무는 서로 다른 관점을 가지게 됩니다. 마치 같은 사건을 바라보는 백 명의 목격자처럼, 각자의 시각이 다르기 때문에 종합하면 더 객관적인 진실에 가까워집니다.

위 코드에서 n_estimators=100은 나무를 100그루 만들겠다는 의미입니다. 숫자가 클수록 성능이 안정되지만, 계산 시간도 늘어납니다.

max_depth=10은 각 나무의 최대 깊이를 제한합니다. 너무 깊으면 과적합되고, 너무 얕으면 데이터의 패턴을 충분히 학습하지 못합니다.

실무에서 랜덤 포레스트가 인기 있는 이유가 있습니다. 하이퍼파라미터 튜닝 없이도 꽤 좋은 성능을 보여줍니다.

범주형 변수와 수치형 변수를 자연스럽게 함께 다룹니다. 특성 중요도를 쉽게 파악할 수 있어서 모델 해석에도 유용합니다.

김개발 씨가 궁금해했습니다. "그럼 나무를 많이 만들수록 무조건 좋은 건가요?" 박시니어 씨가 고개를 저었습니다.

"어느 정도 이상이 되면 성능 향상이 거의 없어요. 보통 100~500그루면 충분합니다.

그 이상은 계산 비용만 늘어나고 효과는 미미하죠." 랜덤 포레스트의 또 다른 장점은 oob_score입니다. 각 나무가 학습에 사용하지 않은 데이터로 자체적으로 검증할 수 있습니다.

별도의 검증 세트를 나누지 않아도 모델 성능을 추정할 수 있다는 뜻입니다.

실전 팁

💡 - n_estimators는 100~500 사이가 적당합니다. 더 늘려도 효과는 미미합니다

feature_importances_ 속성으로 어떤 특성이 중요한지 확인하세요
oob_score=True로 설정하면 별도 검증 세트 없이도 성능을 추정할 수 있습니다

3. Bagging과 Boosting 차이

김개발 씨가 문서를 읽다가 고개를 갸웃했습니다. "Bagging이랑 Boosting이 뭔가요?

이름도 비슷한데..." 박시니어 씨가 화이트보드 앞으로 걸어갔습니다. "둘 다 앙상블이지만, 철학이 완전히 달라요.

하나는 민주주의고, 하나는 전문가 양성 시스템이에요."

Bagging은 여러 모델을 독립적으로 학습시켜 결과를 평균 내는 방식입니다. Boosting은 이전 모델의 실수를 다음 모델이 집중적으로 보완하는 순차적 학습 방식입니다.

Bagging은 분산을 줄이고, Boosting은 편향을 줄이는 데 효과적입니다.

다음 코드를 살펴봅시다.

from sklearn.ensemble import BaggingClassifier, AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier

# Bagging: 독립적인 모델들의 민주적 투표
bagging = BaggingClassifier(
    estimator=DecisionTreeClassifier(max_depth=5),
    n_estimators=50,
    max_samples=0.8,    # 각 모델은 80%의 데이터만 사용
    bootstrap=True,      # 중복 추출 허용
    random_state=42
)

# Boosting: 실수를 교정하며 순차적으로 학습
boosting = AdaBoostClassifier(
    estimator=DecisionTreeClassifier(max_depth=1),
    n_estimators=50,
    learning_rate=0.5,  # 각 모델의 기여도 조절
    random_state=42
)

bagging.fit(X_train, y_train)
boosting.fit(X_train, y_train)

박시니어 씨가 화이트보드에 두 개의 그림을 그렸습니다. "먼저 Bagging을 설명할게요.

Bagging은 Bootstrap Aggregating의 줄임말이에요." Bagging은 마치 여러 명의 심사위원이 독립적으로 점수를 매기는 것과 같습니다. 각 심사위원은 서로 상의하지 않고 자기 기준으로 판단합니다.

최종 점수는 모든 심사위원의 점수를 평균 냅니다. 한두 명이 편향된 점수를 줘도 전체 평균에 미치는 영향은 작습니다.

기술적으로 보면, Bagging은 원본 데이터에서 부트스트랩 샘플을 여러 개 만듭니다. 각 샘플로 독립된 모델을 학습시킵니다.

예측할 때는 모든 모델의 결과를 종합합니다. 분류 문제에서는 다수결 투표, 회귀 문제에서는 평균을 사용합니다.

"이제 Boosting을 볼게요. 이건 좀 다른 철학이에요." Boosting은 마치 학원 시스템과 같습니다.

첫 번째 선생님이 학생들을 가르칩니다. 그런데 어떤 학생들은 여전히 문제를 틀립니다.

두 번째 선생님은 그 학생들을 집중적으로 가르칩니다. 세 번째 선생님은 그래도 틀리는 학생들을 더 집중 케어합니다.

이런 식으로 약한 부분을 계속 보강해 나갑니다. Boosting에서는 이전 모델이 틀린 샘플에 더 높은 가중치를 부여합니다.

다음 모델은 그 어려운 샘플을 맞추려고 더 노력합니다. 순차적으로 학습하기 때문에 각 모델이 이전 모델의 실수를 보완합니다.

위 코드를 보면 차이가 명확합니다. BaggingClassifier에서 bootstrap=True는 중복 추출을 허용한다는 뜻입니다.

각 모델이 독립적입니다. 반면 AdaBoostClassifier의 learning_rate는 각 모델이 최종 예측에 얼마나 기여할지 조절합니다.

그렇다면 언제 무엇을 써야 할까요? Bagging은 과적합이 심한 모델에 효과적입니다.

의사결정나무처럼 분산이 큰 모델의 분산을 줄여줍니다. 랜덤 포레스트가 대표적인 Bagging 기법입니다.

Boosting은 단순한 모델의 성능을 끌어올릴 때 좋습니다. 약한 학습기들을 조합하여 강한 학습기를 만듭니다.

하지만 노이즈가 많은 데이터에서는 과적합될 수 있습니다. 김개발 씨가 고개를 끄덕였습니다.

"아, Bagging은 실수를 평균으로 희석시키고, Boosting은 실수를 집중 공략하는 거네요!"

실전 팁

💡 - 과적합이 걱정되면 Bagging을, 성능을 최대한 끌어올리려면 Boosting을 선택하세요

Boosting은 순차 학습이라 병렬화가 어렵습니다. 대용량 데이터에서는 느릴 수 있습니다
두 기법을 함께 사용하는 것도 가능합니다

4. 그래디언트 부스팅 기초

김개발 씨가 캐글 리더보드를 보며 감탄했습니다. "XGBoost, LightGBM, CatBoost...

상위권은 전부 이런 거네요." 박시니어 씨가 웃으며 말했습니다. "그게 다 그래디언트 부스팅 계열이에요.

Boosting의 진화형이라고 보면 돼요."

그래디언트 부스팅은 이전 모델의 잔차(실제값과 예측값의 차이)를 다음 모델이 학습하는 방식입니다. 경사하강법의 아이디어를 Boosting에 적용하여, 손실 함수를 직접 최적화합니다.

현재 가장 강력한 머신러닝 알고리즘 중 하나로 꼽힙니다.

다음 코드를 살펴봅시다.

from sklearn.ensemble import GradientBoostingClassifier
import numpy as np

# 그래디언트 부스팅 분류기
gb_model = GradientBoostingClassifier(
    n_estimators=100,       # 순차적으로 100개의 약한 학습기
    learning_rate=0.1,      # 각 단계의 기여도 (작을수록 안정적)
    max_depth=3,            # 각 트리의 깊이 (얕게 유지)
    min_samples_split=4,
    subsample=0.8,          # 각 트리가 사용할 데이터 비율
    random_state=42
)

gb_model.fit(X_train, y_train)
print(f"학습 정확도: {gb_model.score(X_train, y_train):.4f}")
print(f"테스트 정확도: {gb_model.score(X_test, y_test):.4f}")

# 학습 과정 시각화를 위한 단계별 점수
staged_scores = list(gb_model.staged_score(X_test, y_test))

박시니어 씨가 칠판에 수식을 하나 적었습니다. "AdaBoost는 틀린 샘플의 가중치를 높여서 다음 모델이 그걸 더 신경 쓰게 했죠.

그래디언트 부스팅은 조금 다른 접근을 해요." 그래디언트 부스팅의 핵심 아이디어는 잔차 학습입니다. 쉽게 비유하자면, 과녁 맞추기 게임과 같습니다.

첫 번째 선수가 화살을 쏩니다. 과녁 중심에서 3cm 왼쪽으로 빗나갔습니다.

두 번째 선수는 이 정보를 듣고 3cm 오른쪽을 노려 쏩니다. 세 번째 선수는 남은 오차를 또 보정합니다.

이렇게 각 선수가 이전까지의 누적 오차를 줄이는 방향으로 쏘면, 결국 과녁 중심에 가까워집니다. 수학적으로 설명하면 이렇습니다.

첫 번째 모델 F1이 예측합니다. 실제값 y와 예측값 F1(x)의 차이, 즉 잔차 r1 = y - F1(x)를 계산합니다.

두 번째 모델 h2는 이 잔차 r1을 타깃으로 학습합니다. 최종 예측은 F2(x) = F1(x) + h2(x)가 됩니다.

왜 그래디언트라는 이름이 붙었을까요? 손실 함수를 최소화하는 방향이 바로 잔차이기 때문입니다.

경사하강법에서 그래디언트(기울기)를 따라 내려가듯이, 그래디언트 부스팅도 손실 함수의 그래디언트를 따라 모델을 개선해 나갑니다. 위 코드에서 주목할 파라미터는 learning_rate입니다.

이 값이 작을수록 각 트리의 기여가 줄어듭니다. 0.1이면 각 트리가 잔차의 10%만 보정합니다.

작은 learning_rate은 더 많은 트리가 필요하지만 과적합을 방지합니다. max_depth=3도 중요합니다.

그래디언트 부스팅에서는 각 트리를 의도적으로 얕게 만듭니다. 깊은 트리 하나보다 얕은 트리 여러 개가 더 효과적입니다.

이런 얕은 트리를 약한 학습기(weak learner)라고 부릅니다. subsample=0.8은 각 트리가 전체 데이터의 80%만 사용한다는 뜻입니다.

Bagging의 아이디어를 빌려온 것으로, 과적합을 줄이고 다양성을 높입니다. 실무에서 그래디언트 부스팅 계열 알고리즘은 정형 데이터의 왕으로 불립니다.

XGBoost, LightGBM, CatBoost는 모두 그래디언트 부스팅을 더 빠르고 효율적으로 구현한 라이브러리입니다. 김개발 씨가 물었습니다.

"그럼 sklearn의 GradientBoostingClassifier 말고 XGBoost를 쓰는 게 나을까요?" 박시니어 씨가 답했습니다. "대부분의 경우 그래요.

XGBoost나 LightGBM이 더 빠르고 기능도 많아요. 하지만 sklearn 버전으로 개념을 이해하는 건 중요해요."

실전 팁

💡 - learning_rate를 낮추면 n_estimators를 높여야 합니다. 둘은 트레이드오프 관계입니다

실무에서는 XGBoost나 LightGBM을 더 많이 사용합니다
staged_score 메서드로 학습 과정을 모니터링하면 적절한 트리 개수를 찾을 수 있습니다

5. Voting Classifier 사용법

김개발 씨가 세 개의 모델을 각각 학습시켰습니다. 랜덤 포레스트는 88%, 그래디언트 부스팅은 89%, SVM은 87%의 정확도를 보였습니다.

"이 셋을 합치면 더 좋아지지 않을까요?" 박시니어 씨가 고개를 끄덕였습니다. "바로 그게 Voting Classifier예요."

Voting Classifier는 서로 다른 종류의 모델들을 하나로 묶어 투표하게 하는 앙상블 기법입니다. Hard Voting은 다수결로 최종 클래스를 정하고, Soft Voting은 확률을 평균 내어 더 정교한 결정을 내립니다.

이미 학습된 모델들을 간편하게 앙상블할 수 있습니다.

다음 코드를 살펴봅시다.

from sklearn.ensemble import VotingClassifier, RandomForestClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression

# 개별 모델 정의
rf = RandomForestClassifier(n_estimators=100, random_state=42)
gb = GradientBoostingClassifier(n_estimators=100, random_state=42)
svc = SVC(probability=True, random_state=42)  # soft voting에는 probability 필요
lr = LogisticRegression(max_iter=1000, random_state=42)

# Hard Voting: 다수결 투표
hard_voting = VotingClassifier(
    estimators=[('rf', rf), ('gb', gb), ('svc', svc), ('lr', lr)],
    voting='hard'
)

# Soft Voting: 확률 평균
soft_voting = VotingClassifier(
    estimators=[('rf', rf), ('gb', gb), ('svc', svc), ('lr', lr)],
    voting='soft'
)

soft_voting.fit(X_train, y_train)
print(f"Soft Voting 정확도: {soft_voting.score(X_test, y_test):.4f}")

김개발 씨는 고민에 빠졌습니다. 세 모델 모두 나름 좋은 성능을 보이는데, 어떤 모델을 최종적으로 선택해야 할까요?

박시니어 씨가 새로운 관점을 제시했습니다. "굳이 하나를 고를 필요 없어요.

세 모델 다 쓰면 되죠." Voting Classifier는 가장 직관적인 앙상블 방법입니다. 마치 위원회 투표와 같습니다.

중요한 결정을 내릴 때 한 사람의 의견보다 여러 전문가의 의견을 종합하는 것이 더 신뢰할 수 있습니다. 각 전문가는 자신만의 전문 분야와 관점이 있기 때문에, 종합하면 더 균형 잡힌 결론에 도달합니다.

Hard Voting과 Soft Voting의 차이를 알아봅시다. Hard Voting은 단순 다수결입니다.

네 모델 중 세 모델이 클래스 A를 예측하고 하나가 클래스 B를 예측하면, 최종 결과는 A입니다. 각 모델의 확신 정도는 고려하지 않습니다.

Soft Voting은 확률을 평균 냅니다. 모델 1이 A일 확률 70%, 모델 2가 A일 확률 60%, 모델 3이 A일 확률 80%라면 평균 70%입니다.

확신의 정도까지 반영하므로 보통 Soft Voting이 더 좋은 성능을 보입니다. 위 코드에서 주의할 점이 있습니다.

Soft Voting을 사용하려면 모든 모델이 확률을 출력할 수 있어야 합니다. SVC는 기본적으로 확률을 출력하지 않으므로 probability=True를 설정해야 합니다.

estimators 파라미터에는 튜플의 리스트를 전달합니다. 각 튜플은 (이름, 모델) 형식입니다.

이름은 나중에 특정 모델에 접근하거나 하이퍼파라미터 튜닝할 때 사용합니다. 실무에서 Voting Classifier는 특히 유용합니다.

이미 여러 모델을 실험해봤다면, 가장 좋은 모델 몇 개를 골라 Voting으로 묶으면 됩니다. 추가 학습 없이 기존 모델들을 재활용할 수 있습니다.

하지만 모든 모델을 무작정 넣는 것은 좋지 않습니다. 비슷한 특성의 모델끼리 묶으면 다양성이 떨어집니다.

또한 성능이 현저히 낮은 모델을 포함하면 전체 성능을 깎아먹습니다. 김개발 씨가 실험 결과를 확인했습니다.

개별 모델 중 최고가 89%였는데, Soft Voting 앙상블은 91%를 기록했습니다. "와, 정말 효과가 있네요!"

실전 팁

💡 - Soft Voting이 대부분 Hard Voting보다 성능이 좋습니다

확률 출력이 가능한 모델만 Soft Voting에 사용할 수 있습니다
weights 파라미터로 특정 모델에 더 높은 가중치를 줄 수 있습니다

6. 앙상블 모델 비교

김개발 씨가 일주일간 배운 내용을 정리하려고 합니다. 랜덤 포레스트, AdaBoost, 그래디언트 부스팅, Voting...

각각 언제 써야 할까요? 박시니어 씨가 큰 표를 그리며 말했습니다.

"상황에 따라 최적의 선택이 달라요. 정리해 볼게요."

앙상블 모델마다 특성이 다릅니다. 랜덤 포레스트는 안정적이고 해석이 쉽습니다.

그래디언트 부스팅은 성능이 뛰어나지만 튜닝이 필요합니다. Voting은 기존 모델을 조합할 때 유용합니다.

데이터 특성과 목적에 맞는 앙상블을 선택해야 합니다.

다음 코드를 살펴봅시다.

from sklearn.ensemble import (
    RandomForestClassifier, GradientBoostingClassifier,
    AdaBoostClassifier, VotingClassifier, BaggingClassifier
)
from sklearn.model_selection import cross_val_score
import numpy as np

# 비교할 앙상블 모델들
models = {
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42),
    'Gradient Boosting': GradientBoostingClassifier(n_estimators=100, random_state=42),
    'AdaBoost': AdaBoostClassifier(n_estimators=100, random_state=42),
    'Bagging': BaggingClassifier(n_estimators=100, random_state=42)
}

# 교차 검증으로 성능 비교
print("=== 앙상블 모델 성능 비교 ===")
for name, model in models.items():
    scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy')
    print(f"{name}: {scores.mean():.4f} (+/- {scores.std()*2:.4f})")

김개발 씨가 노트를 펼치고 정리를 시작했습니다. 박시니어 씨가 옆에서 도와주었습니다.

"먼저 랜덤 포레스트의 특징을 볼게요." 랜덤 포레스트는 안정적인 모범생 같은 알고리즘입니다. 하이퍼파라미터 튜닝 없이도 괜찮은 성능을 보여줍니다.

병렬 처리가 가능해서 대용량 데이터에서도 빠릅니다. 특성 중요도를 쉽게 파악할 수 있어 모델 해석에 유리합니다.

단점이라면 극한의 성능을 뽑아내기는 어렵습니다. "다음은 그래디언트 부스팅이에요." 그래디언트 부스팅은 성능 면에서 최강자입니다.

정형 데이터에서 거의 항상 최고 수준의 정확도를 달성합니다. 하지만 순차 학습이라 병렬화가 어렵고, 하이퍼파라미터에 민감합니다.

제대로 튜닝하지 않으면 과적합되기 쉽습니다. "AdaBoost는 어떤가요?" AdaBoost는 그래디언트 부스팅의 선배 격입니다.

구현이 단순하고 이해하기 쉽습니다. 하지만 노이즈에 취약하고, 최신 Boosting 기법에 비해 성능이 떨어지는 편입니다.

교육용으로는 좋지만 실무에서는 그래디언트 부스팅을 더 많이 씁니다. "Bagging은요?" Bagging은 과적합을 줄이는 데 특화되어 있습니다.

분산이 큰 모델, 특히 의사결정나무와 궁합이 좋습니다. 랜덤 포레스트가 Bagging의 대표적인 응용입니다.

박시니어 씨가 정리했습니다. "결국 상황에 따라 선택이 달라져요." 빠른 프로토타이핑이 필요하면 랜덤 포레스트가 좋습니다.

복잡한 튜닝 없이 바로 괜찮은 결과를 얻을 수 있습니다. 최고 성능이 목표라면 XGBoost나 LightGBM 같은 그래디언트 부스팅 계열을 선택하세요.

캐글 대회에서 검증된 성능입니다. 모델 해석이 중요하다면 랜덤 포레스트가 유리합니다.

특성 중요도를 쉽게 확인할 수 있고, 비즈니스 담당자에게 설명하기도 좋습니다. 기존 모델을 활용하고 싶다면 Voting이 답입니다.

이미 만들어둔 좋은 모델들을 조합하면 됩니다. 위 코드는 교차 검증으로 여러 앙상블 모델의 성능을 비교합니다.

cross_val_score는 데이터를 5등분하여 각각을 테스트 세트로 사용하고, 평균 성능과 표준편차를 계산합니다. 표준편차가 작을수록 모델이 안정적이라는 뜻입니다.

김개발 씨가 마지막으로 물었습니다. "결국 어떤 게 제일 좋은 건가요?" 박시니어 씨가 웃으며 답했습니다.

"제일 좋은 모델은 없어요. 데이터와 목적에 맞는 모델이 있을 뿐이죠. 그래서 항상 여러 모델을 실험해보고 비교해야 해요."

실전 팁

💡 - 처음에는 랜덤 포레스트로 베이스라인을 잡고, 그래디언트 부스팅으로 성능을 끌어올리세요

교차 검증의 표준편차도 확인하세요. 평균만 높고 분산이 크면 불안정한 모델입니다
실무에서는 XGBoost, LightGBM, CatBoost 중 하나를 기본으로 시작하는 경우가 많습니다

이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

#Python#Ensemble#RandomForest#GradientBoosting#MachineLearning#Machine Learning,Python

앙상블 학습 기초 완벽 가이드

# 앙상블 학습 기초 완벽 가이드 머신러닝에서 여러 모델을 조합하여 더 강력한 예측 성능을 만들어내는 앙상블 학습의 핵심 기법들을 알아봅니다. 랜덤 포레스트부터 그래디언트 부스팅까지 실무에서 바로 활용할 수 있는 기초 지식을 담았습니다. --- ## 목차 1. [앙상블_학습이란](#앙상블-학습이란) 2. [랜덤_포레스트_구현](#랜덤-포레스트-구현) 3. [Bagging과_Boosting_차이](#bagging과-boosting-차이) 4. [그래디언트_부스팅_기초](#그래디언트-부스팅-기초) 5. [Voting_Classifier_사용법](#voting-classifier-사용법) 6. [앙상블_모델_비교](#앙상블-모델-비교) --- ## 1. 앙상블_학습이란 김개발 씨는 머신러닝 프로젝트에서 정확도 85%를 달성했지만, 팀장님은 90% 이상을 요구했습니다. 모델을 아무리 튜닝해도 한계에 부딪힌 그때, 선배가 조용히 다가와 말했습니다. "혼자서 안 되면, 여럿이 힘을 합쳐보는 건 어때요?" **앙상블 학습**은 여러 개의 모델을 조합하여 하나의 강력한 예측기를 만드는 기법입니다. 마치 어려운 문제를 풀 때 혼자 고민하는 것보다 여러 전문가의 의견을 종합하는 것이 더 정확한 답을 얻는 것과 같습니다. 개별 모델의 약점을 서로 보완하여 더 안정적이고 정확한 예측이 가능해집니다. 다음 코드를 살펴봅시다. ```python from sklearn.ensemble import VotingClassifier from sklearn.tree import DecisionTreeClassifier from sklearn.linear_model import LogisticRegression from sklearn.svm import SVC # 세 명의 전문가(모델)를 모읍니다 tree_model = DecisionTreeClassifier(max_depth=5) logistic_model = LogisticRegression(max_iter=1000) svm_model = SVC(probability=True) # 앙상블: 세 모델의 의견을 종합합니다 ensemble = VotingClassifier( estimators=[('tree', tree_model), ('lr', logistic_model), ('svm', svm_model)], voting='soft' # 확률 기반 투표 ) ensemble.fit(X_train, y_train) accuracy = ensemble.score(X_test, y_test) ``` 김개발 씨는 입사 6개월 차 데이터 분석가입니다. 고객 이탈 예측 모델을 만들었는데, 정확도가 85%에서 도무지 올라가지 않았습니다. 로지스틱 회귀도 써보고, 의사결정나무도 시도해봤지만 결과는 비슷했습니다. 선배 박시니어 씨가 김개발 씨의 모니터를 보더니 빙그레 웃었습니다. "개발 씨, 혹시 **앙상블 학습**이라고 들어봤어요? 한 명의 천재보다 여러 명의 평범한 사람이 모이면 더 좋은 결과를 낼 수 있거든요." 앙상블 학습이란 정확히 무엇일까요? 쉽게 비유하자면, 앙상블은 마치 퀴즈 대회에서 팀전을 치르는 것과 같습니다. 역사에 강한 사람, 수학에 강한 사람, 과학에 강한 사람이 한 팀이 되면 어떤 문제가 나와도 누군가는 답을 알고 있습니다. 개인전에서는 한계가 있지만, 팀으로 뭉치면 서로의 약점을 보완할 수 있습니다. 머신러닝에서도 마찬가지입니다. 의사결정나무는 비선형 관계를 잘 잡아내지만 과적합되기 쉽습니다. 로지스틱 회귀는 안정적이지만 복잡한 패턴을 놓칩니다. SVM은 고차원에서 강하지만 해석이 어렵습니다. 이런 서로 다른 특성의 모델들을 조합하면 각자의 단점이 상쇄됩니다. 앙상블이 없던 시절에는 어땠을까요? 데이터 과학자들은 하나의 모델만으로 모든 것을 해결해야 했습니다. 모델 A가 틀리면 그대로 틀린 예측이 되었습니다. 특히 노이즈가 많은 실제 데이터에서는 단일 모델의 한계가 뚜렷했습니다. 바로 이런 문제를 해결하기 위해 앙상블 학습이 등장했습니다. 여러 모델이 각자 예측한 결과를 투표하거나 평균 내면, 한두 모델이 틀리더라도 다수의 올바른 예측이 최종 결과를 이끌어냅니다. 위의 코드를 살펴보겠습니다. 먼저 세 가지 서로 다른 모델을 생성합니다. DecisionTreeClassifier, LogisticRegression, SVC가 각각 다른 방식으로 데이터를 바라봅니다. 그다음 VotingClassifier로 이 세 모델을 하나로 묶습니다. **voting='soft'**는 각 모델이 예측한 확률을 평균 내서 최종 결정을 한다는 뜻입니다. 실제 현업에서 앙상블은 거의 필수입니다. 캐글 대회에서 상위권을 차지하는 솔루션 대부분이 앙상블 기법을 사용합니다. 금융권의 신용평가 모델, 의료 분야의 질병 예측 모델에서도 앙상블은 신뢰도를 높이는 핵심 기법입니다. 하지만 주의할 점도 있습니다. 비슷한 특성의 모델끼리 앙상블하면 효과가 떨어집니다. 마치 역사 전문가 세 명이 모여봤자 수학 문제는 못 푸는 것과 같습니다. **다양성**이 앙상블의 핵심입니다. 다시 김개발 씨 이야기로 돌아가 봅시다. 선배의 조언을 듣고 세 가지 모델을 앙상블한 결과, 정확도가 91%로 올랐습니다. 김개발 씨는 그제야 이해했습니다. 완벽한 모델 하나를 찾으려 애쓰기보다, 서로 다른 모델들의 힘을 합치는 것이 더 현명한 방법이라는 것을. **실전 팁** 💡 - 앙상블할 때는 서로 다른 특성의 모델을 조합해야 효과가 좋습니다 - soft voting은 확률 예측이 가능한 모델에만 사용할 수 있습니다 - 모델 수가 많다고 무조건 좋은 것은 아닙니다. 3~5개가 적당합니다 --- ## 2. 랜덤_포레스트_구현 박시니어 씨가 김개발 씨에게 물었습니다. "의사결정나무 하나로는 과적합이 심하다는 거 알죠? 그런데 나무를 백 그루, 천 그루 심으면 어떻게 될까요?" 김개발 씨는 고개를 갸웃했습니다. "나무가 많으면... 숲이 되겠네요?" **랜덤 포레스트**는 수많은 의사결정나무를 만들어 그 예측을 종합하는 앙상블 기법입니다. 각 나무는 전체 데이터의 일부만 보고, 일부 특성만 사용하여 학습합니다. 마치 숲의 나무들이 각자 다른 환경에서 자라나듯, 다양한 관점의 나무들이 모여 강건한 예측을 만들어냅니다. 다음 코드를 살펴봅시다. ```python from sklearn.ensemble import RandomForestClassifier from sklearn.datasets import make_classification from sklearn.model_selection import train_test_split # 샘플 데이터 생성 X, y = make_classification(n_samples=1000, n_features=20, random_state=42) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) # 랜덤 포레스트: 100그루의 나무로 숲을 만듭니다 forest = RandomForestClassifier( n_estimators=100, # 나무 100그루 max_depth=10, # 각 나무의 최대 깊이 min_samples_split=5, # 분할에 필요한 최소 샘플 수 random_state=42 ) forest.fit(X_train, y_train) print(f"정확도: {forest.score(X_test, y_test):.4f}") ``` 김개발 씨는 의사결정나무의 문제점을 잘 알고 있었습니다. 학습 데이터에는 거의 100%에 가까운 정확도를 보이다가, 새로운 데이터가 들어오면 성능이 뚝 떨어지곤 했습니다. 전형적인 **과적합** 문제였습니다. 박시니어 씨가 설명을 이어갔습니다. "나무 한 그루는 자기가 본 데이터에 너무 민감하게 반응해요. 그런데 나무 백 그루가 각자 조금씩 다른 데이터를 보고 판단하면 어떨까요?" 랜덤 포레스트의 핵심 아이디어는 **다양성**입니다. 첫째, **부트스트랩 샘플링**을 사용합니다. 전체 데이터에서 중복을 허용하여 무작위로 샘플을 추출합니다. 나무마다 서로 다른 데이터 셋으로 학습하게 됩니다. 둘째, **특성 무작위 선택**을 적용합니다. 각 분할 시점에서 전체 특성 중 일부만 후보로 고려합니다. 이렇게 하면 나무마다 다른 특성을 중요하게 여기게 됩니다. 이 두 가지 무작위성 덕분에 각 나무는 서로 다른 관점을 가지게 됩니다. 마치 같은 사건을 바라보는 백 명의 목격자처럼, 각자의 시각이 다르기 때문에 종합하면 더 객관적인 진실에 가까워집니다. 위 코드에서 **n_estimators=100**은 나무를 100그루 만들겠다는 의미입니다. 숫자가 클수록 성능이 안정되지만, 계산 시간도 늘어납니다. **max_depth=10**은 각 나무의 최대 깊이를 제한합니다. 너무 깊으면 과적합되고, 너무 얕으면 데이터의 패턴을 충분히 학습하지 못합니다. 실무에서 랜덤 포레스트가 인기 있는 이유가 있습니다. 하이퍼파라미터 튜닝 없이도 꽤 좋은 성능을 보여줍니다. 범주형 변수와 수치형 변수를 자연스럽게 함께 다룹니다. 특성 중요도를 쉽게 파악할 수 있어서 모델 해석에도 유용합니다. 김개발 씨가 궁금해했습니다. "그럼 나무를 많이 만들수록 무조건 좋은 건가요?" 박시니어 씨가 고개를 저었습니다. "어느 정도 이상이 되면 성능 향상이 거의 없어요. 보통 100~500그루면 충분합니다. 그 이상은 계산 비용만 늘어나고 효과는 미미하죠." 랜덤 포레스트의 또 다른 장점은 **oob_score**입니다. 각 나무가 학습에 사용하지 않은 데이터로 자체적으로 검증할 수 있습니다. 별도의 검증 세트를 나누지 않아도 모델 성능을 추정할 수 있다는 뜻입니다. **실전 팁** 💡 - n_estimators는 100~500 사이가 적당합니다. 더 늘려도 효과는 미미합니다 - feature_importances_ 속성으로 어떤 특성이 중요한지 확인하세요 - oob_score=True로 설정하면 별도 검증 세트 없이도 성능을 추정할 수 있습니다 --- ## 3. Bagging과_Boosting_차이 김개발 씨가 문서를 읽다가 고개를 갸웃했습니다. "Bagging이랑 Boosting이 뭔가요? 이름도 비슷한데..." 박시니어 씨가 화이트보드 앞으로 걸어갔습니다. "둘 다 앙상블이지만, 철학이 완전히 달라요. 하나는 민주주의고, 하나는 전문가 양성 시스템이에요." **Bagging**은 여러 모델을 독립적으로 학습시켜 결과를 평균 내는 방식입니다. **Boosting**은 이전 모델의 실수를 다음 모델이 집중적으로 보완하는 순차적 학습 방식입니다. Bagging은 분산을 줄이고, Boosting은 편향을 줄이는 데 효과적입니다. 다음 코드를 살펴봅시다. ```python from sklearn.ensemble import BaggingClassifier, AdaBoostClassifier from sklearn.tree import DecisionTreeClassifier # Bagging: 독립적인 모델들의 민주적 투표 bagging = BaggingClassifier( estimator=DecisionTreeClassifier(max_depth=5), n_estimators=50, max_samples=0.8, # 각 모델은 80%의 데이터만 사용 bootstrap=True, # 중복 추출 허용 random_state=42 ) # Boosting: 실수를 교정하며 순차적으로 학습 boosting = AdaBoostClassifier( estimator=DecisionTreeClassifier(max_depth=1), n_estimators=50, learning_rate=0.5, # 각 모델의 기여도 조절 random_state=42 ) bagging.fit(X_train, y_train) boosting.fit(X_train, y_train) ``` 박시니어 씨가 화이트보드에 두 개의 그림을 그렸습니다. "먼저 **Bagging**을 설명할게요. Bagging은 Bootstrap Aggregating의 줄임말이에요." Bagging은 마치 여러 명의 심사위원이 독립적으로 점수를 매기는 것과 같습니다. 각 심사위원은 서로 상의하지 않고 자기 기준으로 판단합니다. 최종 점수는 모든 심사위원의 점수를 평균 냅니다. 한두 명이 편향된 점수를 줘도 전체 평균에 미치는 영향은 작습니다. 기술적으로 보면, Bagging은 원본 데이터에서 **부트스트랩 샘플**을 여러 개 만듭니다. 각 샘플로 독립된 모델을 학습시킵니다. 예측할 때는 모든 모델의 결과를 종합합니다. 분류 문제에서는 다수결 투표, 회귀 문제에서는 평균을 사용합니다. "이제 **Boosting**을 볼게요. 이건 좀 다른 철학이에요." Boosting은 마치 학원 시스템과 같습니다. 첫 번째 선생님이 학생들을 가르칩니다. 그런데 어떤 학생들은 여전히 문제를 틀립니다. 두 번째 선생님은 그 학생들을 **집중적으로** 가르칩니다. 세 번째 선생님은 그래도 틀리는 학생들을 더 집중 케어합니다. 이런 식으로 약한 부분을 계속 보강해 나갑니다. Boosting에서는 이전 모델이 틀린 샘플에 더 높은 **가중치**를 부여합니다. 다음 모델은 그 어려운 샘플을 맞추려고 더 노력합니다. 순차적으로 학습하기 때문에 각 모델이 이전 모델의 실수를 보완합니다. 위 코드를 보면 차이가 명확합니다. BaggingClassifier에서 **bootstrap=True**는 중복 추출을 허용한다는 뜻입니다. 각 모델이 독립적입니다. 반면 AdaBoostClassifier의 **learning_rate**는 각 모델이 최종 예측에 얼마나 기여할지 조절합니다. 그렇다면 언제 무엇을 써야 할까요? **Bagging**은 과적합이 심한 모델에 효과적입니다. 의사결정나무처럼 분산이 큰 모델의 분산을 줄여줍니다. 랜덤 포레스트가 대표적인 Bagging 기법입니다. **Boosting**은 단순한 모델의 성능을 끌어올릴 때 좋습니다. 약한 학습기들을 조합하여 강한 학습기를 만듭니다. 하지만 노이즈가 많은 데이터에서는 과적합될 수 있습니다. 김개발 씨가 고개를 끄덕였습니다. "아, Bagging은 실수를 평균으로 희석시키고, Boosting은 실수를 집중 공략하는 거네요!" **실전 팁** 💡 - 과적합이 걱정되면 Bagging을, 성능을 최대한 끌어올리려면 Boosting을 선택하세요 - Boosting은 순차 학습이라 병렬화가 어렵습니다. 대용량 데이터에서는 느릴 수 있습니다 - 두 기법을 함께 사용하는 것도 가능합니다 --- ## 4. 그래디언트_부스팅_기초 김개발 씨가 캐글 리더보드를 보며 감탄했습니다. "XGBoost, LightGBM, CatBoost... 상위권은 전부 이런 거네요." 박시니어 씨가 웃으며 말했습니다. "그게 다 **그래디언트 부스팅** 계열이에요. Boosting의 진화형이라고 보면 돼요." **그래디언트 부스팅**은 이전 모델의 **잔차**(실제값과 예측값의 차이)를 다음 모델이 학습하는 방식입니다. 경사하강법의 아이디어를 Boosting에 적용하여, 손실 함수를 직접 최적화합니다. 현재 가장 강력한 머신러닝 알고리즘 중 하나로 꼽힙니다. 다음 코드를 살펴봅시다. ```python from sklearn.ensemble import GradientBoostingClassifier import numpy as np # 그래디언트 부스팅 분류기 gb_model = GradientBoostingClassifier( n_estimators=100, # 순차적으로 100개의 약한 학습기 learning_rate=0.1, # 각 단계의 기여도 (작을수록 안정적) max_depth=3, # 각 트리의 깊이 (얕게 유지) min_samples_split=4, subsample=0.8, # 각 트리가 사용할 데이터 비율 random_state=42 ) gb_model.fit(X_train, y_train) print(f"학습 정확도: {gb_model.score(X_train, y_train):.4f}") print(f"테스트 정확도: {gb_model.score(X_test, y_test):.4f}") # 학습 과정 시각화를 위한 단계별 점수 staged_scores = list(gb_model.staged_score(X_test, y_test)) ``` 박시니어 씨가 칠판에 수식을 하나 적었습니다. "AdaBoost는 틀린 샘플의 가중치를 높여서 다음 모델이 그걸 더 신경 쓰게 했죠. 그래디언트 부스팅은 조금 다른 접근을 해요." 그래디언트 부스팅의 핵심 아이디어는 **잔차 학습**입니다. 쉽게 비유하자면, 과녁 맞추기 게임과 같습니다. 첫 번째 선수가 화살을 쏩니다. 과녁 중심에서 3cm 왼쪽으로 빗나갔습니다. 두 번째 선수는 이 정보를 듣고 3cm 오른쪽을 노려 쏩니다. 세 번째 선수는 남은 오차를 또 보정합니다. 이렇게 각 선수가 이전까지의 **누적 오차**를 줄이는 방향으로 쏘면, 결국 과녁 중심에 가까워집니다. 수학적으로 설명하면 이렇습니다. 첫 번째 모델 F1이 예측합니다. 실제값 y와 예측값 F1(x)의 차이, 즉 잔차 r1 = y - F1(x)를 계산합니다. 두 번째 모델 h2는 이 잔차 r1을 타깃으로 학습합니다. 최종 예측은 F2(x) = F1(x) + h2(x)가 됩니다. 왜 **그래디언트**라는 이름이 붙었을까요? 손실 함수를 최소화하는 방향이 바로 잔차이기 때문입니다. 경사하강법에서 그래디언트(기울기)를 따라 내려가듯이, 그래디언트 부스팅도 손실 함수의 그래디언트를 따라 모델을 개선해 나갑니다. 위 코드에서 주목할 파라미터는 **learning_rate**입니다. 이 값이 작을수록 각 트리의 기여가 줄어듭니다. 0.1이면 각 트리가 잔차의 10%만 보정합니다. 작은 learning_rate은 더 많은 트리가 필요하지만 과적합을 방지합니다. **max_depth=3**도 중요합니다. 그래디언트 부스팅에서는 각 트리를 의도적으로 얕게 만듭니다. 깊은 트리 하나보다 얕은 트리 여러 개가 더 효과적입니다. 이런 얕은 트리를 **약한 학습기**(weak learner)라고 부릅니다. **subsample=0.8**은 각 트리가 전체 데이터의 80%만 사용한다는 뜻입니다. Bagging의 아이디어를 빌려온 것으로, 과적합을 줄이고 다양성을 높입니다. 실무에서 그래디언트 부스팅 계열 알고리즘은 정형 데이터의 왕으로 불립니다. XGBoost, LightGBM, CatBoost는 모두 그래디언트 부스팅을 더 빠르고 효율적으로 구현한 라이브러리입니다. 김개발 씨가 물었습니다. "그럼 sklearn의 GradientBoostingClassifier 말고 XGBoost를 쓰는 게 나을까요?" 박시니어 씨가 답했습니다. "대부분의 경우 그래요. XGBoost나 LightGBM이 더 빠르고 기능도 많아요. 하지만 sklearn 버전으로 개념을 이해하는 건 중요해요." **실전 팁** 💡 - learning_rate를 낮추면 n_estimators를 높여야 합니다. 둘은 트레이드오프 관계입니다 - 실무에서는 XGBoost나 LightGBM을 더 많이 사용합니다 - staged_score 메서드로 학습 과정을 모니터링하면 적절한 트리 개수를 찾을 수 있습니다 --- ## 5. Voting_Classifier_사용법 김개발 씨가 세 개의 모델을 각각 학습시켰습니다. 랜덤 포레스트는 88%, 그래디언트 부스팅은 89%, SVM은 87%의 정확도를 보였습니다. "이 셋을 합치면 더 좋아지지 않을까요?" 박시니어 씨가 고개를 끄덕였습니다. "바로 그게 **Voting Classifier**예요." **Voting Classifier**는 서로 다른 종류의 모델들을 하나로 묶어 투표하게 하는 앙상블 기법입니다. Hard Voting은 다수결로 최종 클래스를 정하고, Soft Voting은 확률을 평균 내어 더 정교한 결정을 내립니다. 이미 학습된 모델들을 간편하게 앙상블할 수 있습니다. 다음 코드를 살펴봅시다. ```python from sklearn.ensemble import VotingClassifier, RandomForestClassifier, GradientBoostingClassifier from sklearn.svm import SVC from sklearn.linear_model import LogisticRegression # 개별 모델 정의 rf = RandomForestClassifier(n_estimators=100, random_state=42) gb = GradientBoostingClassifier(n_estimators=100, random_state=42) svc = SVC(probability=True, random_state=42) # soft voting에는 probability 필요 lr = LogisticRegression(max_iter=1000, random_state=42) # Hard Voting: 다수결 투표 hard_voting = VotingClassifier( estimators=[('rf', rf), ('gb', gb), ('svc', svc), ('lr', lr)], voting='hard' ) # Soft Voting: 확률 평균 soft_voting = VotingClassifier( estimators=[('rf', rf), ('gb', gb), ('svc', svc), ('lr', lr)], voting='soft' ) soft_voting.fit(X_train, y_train) print(f"Soft Voting 정확도: {soft_voting.score(X_test, y_test):.4f}") ``` 김개발 씨는 고민에 빠졌습니다. 세 모델 모두 나름 좋은 성능을 보이는데, 어떤 모델을 최종적으로 선택해야 할까요? 박시니어 씨가 새로운 관점을 제시했습니다. "굳이 하나를 고를 필요 없어요. 세 모델 다 쓰면 되죠." **Voting Classifier**는 가장 직관적인 앙상블 방법입니다. 마치 위원회 투표와 같습니다. 중요한 결정을 내릴 때 한 사람의 의견보다 여러 전문가의 의견을 종합하는 것이 더 신뢰할 수 있습니다. 각 전문가는 자신만의 전문 분야와 관점이 있기 때문에, 종합하면 더 균형 잡힌 결론에 도달합니다. **Hard Voting**과 **Soft Voting**의 차이를 알아봅시다. Hard Voting은 단순 다수결입니다. 네 모델 중 세 모델이 클래스 A를 예측하고 하나가 클래스 B를 예측하면, 최종 결과는 A입니다. 각 모델의 확신 정도는 고려하지 않습니다. Soft Voting은 확률을 평균 냅니다. 모델 1이 A일 확률 70%, 모델 2가 A일 확률 60%, 모델 3이 A일 확률 80%라면 평균 70%입니다. 확신의 정도까지 반영하므로 보통 Soft Voting이 더 좋은 성능을 보입니다. 위 코드에서 주의할 점이 있습니다. Soft Voting을 사용하려면 모든 모델이 **확률을 출력**할 수 있어야 합니다. SVC는 기본적으로 확률을 출력하지 않으므로 **probability=True**를 설정해야 합니다. estimators 파라미터에는 튜플의 리스트를 전달합니다. 각 튜플은 (이름, 모델) 형식입니다. 이름은 나중에 특정 모델에 접근하거나 하이퍼파라미터 튜닝할 때 사용합니다. 실무에서 Voting Classifier는 특히 유용합니다. 이미 여러 모델을 실험해봤다면, 가장 좋은 모델 몇 개를 골라 Voting으로 묶으면 됩니다. 추가 학습 없이 기존 모델들을 재활용할 수 있습니다. 하지만 모든 모델을 무작정 넣는 것은 좋지 않습니다. 비슷한 특성의 모델끼리 묶으면 다양성이 떨어집니다. 또한 성능이 현저히 낮은 모델을 포함하면 전체 성능을 깎아먹습니다. 김개발 씨가 실험 결과를 확인했습니다. 개별 모델 중 최고가 89%였는데, Soft Voting 앙상블은 91%를 기록했습니다. "와, 정말 효과가 있네요!" **실전 팁** 💡 - Soft Voting이 대부분 Hard Voting보다 성능이 좋습니다 - 확률 출력이 가능한 모델만 Soft Voting에 사용할 수 있습니다 - weights 파라미터로 특정 모델에 더 높은 가중치를 줄 수 있습니다 --- ## 6. 앙상블_모델_비교 김개발 씨가 일주일간 배운 내용을 정리하려고 합니다. 랜덤 포레스트, AdaBoost, 그래디언트 부스팅, Voting... 각각 언제 써야 할까요? 박시니어 씨가 큰 표를 그리며 말했습니다. "상황에 따라 최적의 선택이 달라요. 정리해 볼게요." 앙상블 모델마다 특성이 다릅니다. **랜덤 포레스트**는 안정적이고 해석이 쉽습니다. **그래디언트 부스팅**은 성능이 뛰어나지만 튜닝이 필요합니다. **Voting**은 기존 모델을 조합할 때 유용합니다. 데이터 특성과 목적에 맞는 앙상블을 선택해야 합니다. 다음 코드를 살펴봅시다. ```python from sklearn.ensemble import ( RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier, VotingClassifier, BaggingClassifier ) from sklearn.model_selection import cross_val_score import numpy as np # 비교할 앙상블 모델들 models = { 'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42), 'Gradient Boosting': GradientBoostingClassifier(n_estimators=100, random_state=42), 'AdaBoost': AdaBoostClassifier(n_estimators=100, random_state=42), 'Bagging': BaggingClassifier(n_estimators=100, random_state=42) } # 교차 검증으로 성능 비교 print("=== 앙상블 모델 성능 비교 ===") for name, model in models.items(): scores = cross_val_score(model, X_train, y_train, cv=5, scoring='accuracy') print(f"{name}: {scores.mean():.4f} (+/- {scores.std()*2:.4f})") ``` 김개발 씨가 노트를 펼치고 정리를 시작했습니다. 박시니어 씨가 옆에서 도와주었습니다. "먼저 **랜덤 포레스트**의 특징을 볼게요." 랜덤 포레스트는 안정적인 모범생 같은 알고리즘입니다. 하이퍼파라미터 튜닝 없이도 괜찮은 성능을 보여줍니다. 병렬 처리가 가능해서 대용량 데이터에서도 빠릅니다. 특성 중요도를 쉽게 파악할 수 있어 모델 해석에 유리합니다. 단점이라면 극한의 성능을 뽑아내기는 어렵습니다. "다음은 **그래디언트 부스팅**이에요." 그래디언트 부스팅은 성능 면에서 최강자입니다. 정형 데이터에서 거의 항상 최고 수준의 정확도를 달성합니다. 하지만 순차 학습이라 병렬화가 어렵고, 하이퍼파라미터에 민감합니다. 제대로 튜닝하지 않으면 과적합되기 쉽습니다. "**AdaBoost**는 어떤가요?" AdaBoost는 그래디언트 부스팅의 선배 격입니다. 구현이 단순하고 이해하기 쉽습니다. 하지만 노이즈에 취약하고, 최신 Boosting 기법에 비해 성능이 떨어지는 편입니다. 교육용으로는 좋지만 실무에서는 그래디언트 부스팅을 더 많이 씁니다. "**Bagging**은요?" Bagging은 과적합을 줄이는 데 특화되어 있습니다. 분산이 큰 모델, 특히 의사결정나무와 궁합이 좋습니다. 랜덤 포레스트가 Bagging의 대표적인 응용입니다. 박시니어 씨가 정리했습니다. "결국 상황에 따라 선택이 달라져요." **빠른 프로토타이핑**이 필요하면 랜덤 포레스트가 좋습니다. 복잡한 튜닝 없이 바로 괜찮은 결과를 얻을 수 있습니다. **최고 성능**이 목표라면 XGBoost나 LightGBM 같은 그래디언트 부스팅 계열을 선택하세요. 캐글 대회에서 검증된 성능입니다. **모델 해석**이 중요하다면 랜덤 포레스트가 유리합니다. 특성 중요도를 쉽게 확인할 수 있고, 비즈니스 담당자에게 설명하기도 좋습니다. **기존 모델을 활용**하고 싶다면 Voting이 답입니다. 이미 만들어둔 좋은 모델들을 조합하면 됩니다. 위 코드는 교차 검증으로 여러 앙상블 모델의 성능을 비교합니다. **cross_val_score**는 데이터를 5등분하여 각각을 테스트 세트로 사용하고, 평균 성능과 표준편차를 계산합니다. 표준편차가 작을수록 모델이 안정적이라는 뜻입니다. 김개발 씨가 마지막으로 물었습니다. "결국 어떤 게 제일 좋은 건가요?" 박시니어 씨가 웃으며 답했습니다. "**제일 좋은 모델은 없어요.** 데이터와 목적에 맞는 모델이 있을 뿐이죠. 그래서 항상 여러 모델을 실험해보고 비교해야 해요." **실전 팁** 💡 - 처음에는 랜덤 포레스트로 베이스라인을 잡고, 그래디언트 부스팅으로 성능을 끌어올리세요 - 교차 검증의 표준편차도 확인하세요. 평균만 높고 분산이 크면 불안정한 모델입니다 - 실무에서는 XGBoost, LightGBM, CatBoost 중 하나를 기본으로 시작하는 경우가 많습니다 --- 이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

카테고리: Machine Learning,Python

언어: Python

태그: Python, Ensemble, RandomForest, GradientBoosting, MachineLearning, Machine Learning,Python

작성자: AI Generated

프리미엄 콘텐츠 - 3개월 무료 체험 가능

CodeDeck

앙상블 학습 기초 완벽 가이드

목차

1. 앙상블 학습이란

2. 랜덤 포레스트 구현

3. Bagging과 Boosting 차이

4. 그래디언트 부스팅 기초

5. Voting Classifier 사용법

6. 앙상블 모델 비교

이 카드뉴스가 포함된 코스

Scikit-learn 기초 완전 정복

댓글 (0)

함께 보면 좋은 카드 뉴스

프레임워크 선택 LangGraph vs CrewAI vs AutoGen 완벽 가이드

Day 6 학습 루프 이해하기

Day 5 Baseline 모델 만들기

Day 4 학습용 샘플 데이터 만들기

Day 2 PyTorch 기본기 정리