와인 품질 예측 모델 완벽 가이드

머신러닝을 활용하여 와인의 품질을 예측하는 모델을 구축하는 방법을 알아봅니다. 데이터 탐색부터 그래디언트 부스팅 적용, 모델 최적화까지 단계별로 학습합니다.

1. 와인 데이터셋 탐색

김개발 씨는 데이터 분석팀에 배치된 지 한 달이 된 주니어 개발자입니다. 어느 날 팀장님이 흥미로운 프로젝트를 맡겼습니다.

"와인 회사에서 품질 예측 시스템을 의뢰했어요. 먼저 데이터가 어떻게 생겼는지 파악해 볼래요?"

와인 데이터셋은 머신러닝 입문자들이 자주 사용하는 대표적인 데이터셋입니다. 마치 요리를 배울 때 기본 재료부터 파악하는 것처럼, 모델을 만들기 전에 데이터의 구조와 특성을 이해해야 합니다.

이 과정을 통해 어떤 변수가 와인 품질에 영향을 미치는지 감을 잡을 수 있습니다.

다음 코드를 살펴봅시다.

# 필요한 라이브러리 불러오기
from sklearn.datasets import load_wine
import pandas as pd

# 와인 데이터셋 로드
wine = load_wine()

# DataFrame으로 변환하여 탐색하기 쉽게 만들기
df = pd.DataFrame(wine.data, columns=wine.feature_names)
df['target'] = wine.target

# 데이터 기본 정보 확인
print(f"데이터 크기: {df.shape}")
print(f"클래스 종류: {wine.target_names}")
print(df.describe())

김개발 씨는 처음 받은 데이터 파일을 열어보며 당황했습니다. 숫자들이 빼곡히 적혀 있는데, 이게 대체 무엇을 의미하는 걸까요?

옆자리 박시니어 씨가 슬쩍 모니터를 들여다봅니다. "데이터 분석의 첫 단계는 항상 데이터를 눈으로 확인하는 거예요.

우리가 읽을 책의 목차를 먼저 훑어보는 것처럼요." 와인 데이터셋은 사이킷런에서 기본으로 제공하는 데이터셋입니다. 178개의 와인 샘플과 13개의 화학적 특성이 포함되어 있습니다.

각 와인은 세 가지 품종 중 하나로 분류되어 있습니다. 데이터를 불러오면 가장 먼저 해야 할 일이 있습니다.

바로 데이터의 shape를 확인하는 것입니다. 이것은 마치 퍼즐 상자를 열기 전에 몇 조각짜리 퍼즐인지 확인하는 것과 같습니다.

load_wine 함수를 호출하면 Bunch라는 특별한 객체가 반환됩니다. 이 객체 안에는 data, target, feature_names, target_names 등의 정보가 담겨 있습니다.

마치 도시락 통 안에 밥, 반찬, 젓가락이 정리되어 있는 것처럼요. 데이터를 pandas의 DataFrame으로 변환하면 훨씬 다루기 쉬워집니다.

엑셀처럼 행과 열로 정리되어 각 열에 이름을 붙일 수 있기 때문입니다. describe 메서드는 데이터의 요약 통계량을 한눈에 보여줍니다.

평균, 표준편차, 최솟값, 최댓값 등을 확인할 수 있습니다. 이 정보는 나중에 데이터 전처리 방향을 결정하는 데 중요한 단서가 됩니다.

김개발 씨가 출력 결과를 보며 물었습니다. "alcohol 열의 평균이 13인데, 이게 알코올 도수인가요?" 박시니어 씨가 고개를 끄덕였습니다.

"맞아요. 각 특성이 무엇을 의미하는지 파악하는 것도 중요한 탐색 과정이에요." 이처럼 데이터 탐색은 본격적인 분석에 앞서 데이터와 친해지는 시간입니다.

서두르지 말고 충분히 데이터를 살펴보세요.

실전 팁

💡 - info 메서드로 결측치 여부와 데이터 타입을 확인하세요

클래스별 샘플 수가 균형 잡혀 있는지 value_counts로 확인하세요

2. 특성 분포 시각화

김개발 씨가 데이터의 구조를 파악하고 나니 욕심이 생겼습니다. "숫자로만 보니까 감이 잘 안 와요.

그림으로 볼 수 있는 방법이 없을까요?" 박시니어 씨가 웃으며 대답했습니다. "데이터 시각화를 배울 때가 됐군요."

데이터 시각화는 숫자로 된 데이터를 그래프로 표현하는 기술입니다. 마치 지도를 보면 길을 찾기 쉬운 것처럼, 시각화를 하면 데이터의 패턴과 이상치를 한눈에 파악할 수 있습니다.

특히 각 특성의 분포를 확인하면 어떤 전처리가 필요한지 알 수 있습니다.

다음 코드를 살펴봅시다.

import matplotlib.pyplot as plt
import seaborn as sns

# 주요 특성들의 분포 시각화
fig, axes = plt.subplots(2, 3, figsize=(12, 8))
features = ['alcohol', 'malic_acid', 'flavanoids',
            'color_intensity', 'hue', 'proline']

for ax, feature in zip(axes.flat, features):
    # 클래스별로 다른 색상으로 히스토그램 그리기
    for target in range(3):
        subset = df[df['target'] == target]
        ax.hist(subset[feature], alpha=0.5, label=f'Class {target}')
    ax.set_title(feature)
    ax.legend()

plt.tight_layout()
plt.savefig('wine_distribution.png')

숫자만 나열된 표를 보고 있으면 눈이 아파옵니다. 김개발 씨도 마찬가지였습니다.

178개의 샘플, 13개의 특성. 머릿속이 복잡해집니다.

박시니어 씨가 조언했습니다. "사람의 뇌는 숫자보다 그림을 더 빨리 이해해요.

시각화는 데이터 분석가의 필수 도구입니다." matplotlib은 파이썬에서 가장 널리 사용되는 시각화 라이브러리입니다. 간단한 선 그래프부터 복잡한 3D 차트까지 다양한 그래프를 그릴 수 있습니다.

seaborn은 matplotlib 위에 구축된 라이브러리로, 더 예쁜 그래프를 더 쉽게 그릴 수 있게 해줍니다. 위 코드에서 subplots는 여러 개의 그래프를 한 화면에 배치하는 함수입니다.

2행 3열로 총 6개의 그래프 공간을 만들었습니다. 마치 사진첩에 여러 장의 사진을 정리하는 것과 같습니다.

히스토그램은 데이터의 분포를 보여주는 대표적인 그래프입니다. 가로축은 값의 범위를, 세로축은 해당 범위에 속하는 데이터의 개수를 나타냅니다.

산의 모양을 떠올리면 됩니다. alpha 값은 투명도를 의미합니다.

0.5로 설정하면 반투명해져서 겹치는 부분도 볼 수 있습니다. 세 가지 클래스를 같은 그래프에 그릴 때 유용합니다.

그래프를 그려보니 흥미로운 패턴이 보입니다. proline 특성을 보면 클래스 0은 값이 높고, 클래스 1과 2는 상대적으로 낮습니다.

이런 특성은 분류 모델에서 중요한 역할을 할 가능성이 높습니다. 반면 어떤 특성은 클래스 간 분포가 많이 겹칩니다.

이런 특성은 품종을 구분하는 데 덜 유용할 수 있습니다. 김개발 씨가 그래프를 보며 감탄했습니다.

"와, 이렇게 보니까 어떤 특성이 중요한지 대충 감이 오네요!" 시각화의 힘입니다.

실전 팁

💡 - 박스플롯으로 이상치를 확인하고, 산점도로 특성 간 관계를 파악하세요

히트맵으로 상관관계를 시각화하면 다중공선성 문제를 발견할 수 있습니다

3. 다중 클래스 분류 설정

시각화를 마친 김개발 씨가 본격적인 모델링을 시작하려고 합니다. 그런데 문득 의문이 생겼습니다.

"와인이 세 종류인데, 이건 어떻게 예측하죠? 제가 알기론 분류는 예/아니오로 나누는 건데..." 박시니어 씨가 설명을 시작했습니다.

다중 클래스 분류는 세 개 이상의 클래스 중 하나를 예측하는 문제입니다. 마치 가위바위보 게임에서 세 가지 선택지 중 상대방이 무엇을 낼지 예측하는 것과 같습니다.

데이터를 훈련 세트와 테스트 세트로 나누고, 적절한 평가 지표를 선택하는 것이 중요합니다.

다음 코드를 살펴봅시다.

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 특성과 레이블 분리
X = df.drop('target', axis=1)
y = df['target']

# 훈련 세트와 테스트 세트로 분할 (80:20)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# 특성 스케일링 (표준화)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"훈련 세트 크기: {X_train.shape[0]}")
print(f"테스트 세트 크기: {X_test.shape[0]}")

분류 문제는 크게 두 가지로 나뉩니다. 두 개의 클래스를 구분하는 이진 분류와 세 개 이상의 클래스를 구분하는 다중 클래스 분류입니다.

와인 데이터셋은 세 가지 품종을 구분해야 하므로 다중 클래스 분류 문제입니다. 다행히 사이킷런의 대부분의 분류 알고리즘은 다중 클래스 분류를 기본으로 지원합니다.

모델을 만들기 전에 반드시 해야 할 작업이 있습니다. 바로 데이터를 훈련 세트와 테스트 세트로 나누는 것입니다.

왜 그래야 할까요? 시험을 볼 때를 생각해 보세요.

시험 문제를 미리 알고 공부한 학생은 좋은 점수를 받겠지만, 그것이 진정한 실력이라고 할 수 있을까요? 마찬가지로 모델도 학습에 사용하지 않은 새로운 데이터로 평가해야 진짜 성능을 알 수 있습니다.

train_test_split 함수는 데이터를 무작위로 섞어서 나눠줍니다. test_size=0.2는 전체의 20%를 테스트용으로 사용한다는 의미입니다.

random_state를 설정하면 실행할 때마다 같은 결과를 얻을 수 있습니다. stratify 매개변수는 매우 중요합니다.

이 옵션을 설정하면 원본 데이터의 클래스 비율이 훈련 세트와 테스트 세트에 동일하게 유지됩니다. 만약 이 옵션 없이 분할하면, 운 나쁘게 특정 클래스가 한쪽에 몰릴 수 있습니다.

다음으로 StandardScaler를 사용한 표준화입니다. 각 특성의 평균을 0, 표준편차를 1로 만드는 작업입니다.

왜 필요할까요? 와인 데이터에서 alcohol은 11~~14 사이의 값을 가지고, proline은 300~~1600 사이의 값을 가집니다.

스케일이 너무 다르면 일부 알고리즘이 제대로 작동하지 않습니다. 주의할 점이 있습니다.

fit_transform은 훈련 세트에만 적용하고, 테스트 세트에는 transform만 적용해야 합니다. 테스트 세트의 정보가 학습에 새어 들어가는 것을 방지하기 위해서입니다.

실전 팁

💡 - random_state를 고정하면 실험 재현이 가능합니다

불균형 데이터에서는 SMOTE 같은 오버샘플링 기법을 고려하세요

4. 그래디언트 부스팅 적용

데이터 준비를 마친 김개발 씨가 드디어 모델을 만들 차례입니다. 박시니어 씨가 물었습니다.

"어떤 알고리즘을 써볼까요?" 김개발 씨는 고민에 빠졌습니다. 선택지가 너무 많았기 때문입니다.

그래디언트 부스팅은 여러 개의 약한 학습기를 순차적으로 결합하여 강력한 모델을 만드는 앙상블 기법입니다. 마치 릴레이 경주에서 각 주자가 이전 주자의 부족한 부분을 보완하며 달리는 것과 같습니다.

정형 데이터에서 뛰어난 성능을 보여 실무에서 널리 사용됩니다.

다음 코드를 살펴봅시다.

from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score, classification_report

# 그래디언트 부스팅 모델 생성 및 훈련
gb_model = GradientBoostingClassifier(
    n_estimators=100,      # 트리의 개수
    learning_rate=0.1,     # 학습률
    max_depth=3,           # 각 트리의 최대 깊이
    random_state=42
)

# 모델 훈련
gb_model.fit(X_train_scaled, y_train)

# 예측 및 평가
y_pred = gb_model.predict(X_test_scaled)
accuracy = accuracy_score(y_test, y_pred)
print(f"정확도: {accuracy:.4f}")
print(classification_report(y_test, y_pred, target_names=wine.target_names))

머신러닝 알고리즘은 정말 다양합니다. 로지스틱 회귀, 결정 트리, 랜덤 포레스트, SVM, 신경망...

어떤 것을 선택해야 할까요? 박시니어 씨가 말했습니다.

"정형 데이터에서는 그래디언트 부스팅이 거의 항상 좋은 성능을 보여요. 캐글 대회에서도 자주 우승하는 알고리즘이죠." 그래디언트 부스팅의 핵심 아이디어는 순차적 개선입니다.

첫 번째 모델이 틀린 부분에 집중하여 두 번째 모델을 만들고, 두 번째 모델이 틀린 부분에 집중하여 세 번째 모델을 만듭니다. 이런 식으로 계속 보완해 나갑니다.

비유를 들어보겠습니다. 학생이 수학 시험을 봤는데 80점을 받았습니다.

다음 시험에서는 틀린 20점짜리 문제에 집중해서 공부합니다. 그 결과 90점을 받았습니다.

이번에는 틀린 10점짜리 문제에 집중합니다. 이렇게 약점을 보완해 나가면 점수가 계속 오릅니다.

n_estimators는 몇 개의 트리를 만들지 결정합니다. 보통 100~500 사이의 값을 사용합니다.

너무 많으면 과적합의 위험이 있고, 너무 적으면 성능이 부족할 수 있습니다. learning_rate는 각 트리의 기여도를 조절합니다.

값이 작으면 천천히 학습하지만 더 정교한 모델을 만들 수 있습니다. 값이 크면 빨리 학습하지만 최적점을 지나칠 수 있습니다.

max_depth는 각 트리의 복잡도를 제한합니다. 그래디언트 부스팅에서는 보통 3~5 정도의 얕은 트리를 많이 사용합니다.

개별 트리는 약하지만 여러 개가 모이면 강해집니다. classification_report는 모델의 성능을 다양한 관점에서 보여줍니다.

정밀도는 모델이 A라고 예측한 것 중 실제로 A인 비율입니다. 재현율은 실제 A인 것 중 모델이 A라고 맞힌 비율입니다.

F1 점수는 이 둘의 조화평균입니다. 김개발 씨가 결과를 보며 놀랐습니다.

"우와, 정확도가 97%나 되네요!" 그래디언트 부스팅의 힘입니다.

실전 팁

💡 - learning_rate를 낮추면 n_estimators를 늘려야 합니다

XGBoost나 LightGBM을 사용하면 더 빠르고 좋은 성능을 얻을 수 있습니다

5. 특성 중요도 분석

모델이 잘 작동하는 것을 확인한 김개발 씨에게 팀장님이 질문했습니다. "모델이 왜 이런 예측을 하는지 설명할 수 있어요?

와인 회사 담당자가 이해할 수 있게요." 김개발 씨는 잠시 당황했습니다. 모델은 블랙박스가 아니었던가요?

특성 중요도는 모델이 예측을 할 때 각 특성이 얼마나 중요한 역할을 했는지 보여주는 지표입니다. 마치 요리사가 음식 맛에 어떤 재료가 가장 큰 영향을 미쳤는지 설명하는 것과 같습니다.

이를 통해 모델의 결정을 해석하고 비즈니스 인사이트를 얻을 수 있습니다.

다음 코드를 살펴봅시다.

import numpy as np

# 특성 중요도 추출
importances = gb_model.feature_importances_
feature_names = X.columns

# 중요도 순으로 정렬
indices = np.argsort(importances)[::-1]

# 시각화
plt.figure(figsize=(10, 6))
plt.title('특성 중요도 (Feature Importance)')
plt.bar(range(len(importances)), importances[indices])
plt.xticks(range(len(importances)),
           [feature_names[i] for i in indices], rotation=45)
plt.tight_layout()
plt.savefig('feature_importance.png')

# 상위 5개 특성 출력
for i in range(5):
    print(f"{feature_names[indices[i]]}: {importances[indices[i]]:.4f}")

머신러닝 모델은 종종 블랙박스로 여겨집니다. 데이터를 넣으면 결과가 나오는데, 왜 그런 결과가 나왔는지는 알 수 없다는 것이죠.

하지만 실무에서는 설명이 필요한 경우가 많습니다. 와인 회사 담당자가 물었습니다.

"우리 와인이 품종 A로 분류됐다고 하는데, 왜 그런 거죠?" 이런 질문에 "그냥 모델이 그렇게 예측했어요"라고 답할 수는 없습니다. 특성 중요도는 이 문제를 해결하는 한 가지 방법입니다.

트리 기반 모델은 각 특성이 예측에 얼마나 기여했는지 계산할 수 있습니다. 그래디언트 부스팅에서 특성 중요도는 각 특성이 트리 분할에 사용됐을 때 불순도가 얼마나 감소했는지를 기반으로 합니다.

불순도가 많이 감소한 특성일수록 분류에 중요한 역할을 한다고 볼 수 있습니다. feature_importances_ 속성을 사용하면 간단히 중요도를 얻을 수 있습니다.

이 값들의 합은 1이 됩니다. 각 특성의 상대적인 중요도를 비교할 수 있습니다.

막대 그래프로 시각화하면 한눈에 파악하기 쉽습니다. argsort로 정렬하고 **[::-1]**로 뒤집으면 중요도가 높은 순으로 정렬됩니다.

결과를 보니 proline과 flavanoids가 가장 중요한 특성으로 나타났습니다. 앞서 시각화에서 이 특성들의 분포가 클래스별로 확실히 다르게 나타났던 것을 기억하시나요?

모델도 그 차이를 잘 포착한 것입니다. 이제 와인 회사 담당자에게 설명할 수 있습니다.

"이 와인은 프롤린 함량이 높고 플라바노이드 수치가 특정 범위에 있어서 품종 A로 분류되었습니다." 이런 인사이트는 비즈니스적으로도 가치가 있습니다. 품질에 영향을 미치는 핵심 요소를 파악하면 생산 공정 개선에 활용할 수 있기 때문입니다.

실전 팁

💡 - SHAP 라이브러리를 사용하면 더 정교한 해석이 가능합니다

특성 중요도가 낮은 특성은 제거해도 성능에 큰 영향이 없을 수 있습니다

6. 모델 최적화

김개발 씨가 만든 모델의 정확도가 97%라고 해서 모두 만족했지만, 박시니어 씨가 한마디 했습니다. "이 정도면 훌륭하지만, 하이퍼파라미터 튜닝을 해보면 더 나아질 수도 있어요.

그리고 지금 결과가 우연은 아닌지 검증도 해봐야 해요."

하이퍼파라미터 튜닝은 모델의 설정값을 조정하여 최적의 성능을 찾는 과정입니다. 마치 오디오 믹서에서 각 채널의 볼륨을 조절하여 최고의 음질을 찾는 것과 같습니다.

교차 검증을 함께 사용하면 과적합을 방지하고 모델의 일반화 성능을 신뢰성 있게 평가할 수 있습니다.

다음 코드를 살펴봅시다.

from sklearn.model_selection import GridSearchCV, cross_val_score

# 탐색할 하이퍼파라미터 그리드 정의
param_grid = {
    'n_estimators': [50, 100, 200],
    'learning_rate': [0.05, 0.1, 0.2],
    'max_depth': [2, 3, 4]
}

# 그리드 서치 수행 (5-fold 교차 검증)
grid_search = GridSearchCV(
    GradientBoostingClassifier(random_state=42),
    param_grid,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)
grid_search.fit(X_train_scaled, y_train)

# 최적 파라미터와 성능 출력
print(f"최적 파라미터: {grid_search.best_params_}")
print(f"교차 검증 점수: {grid_search.best_score_:.4f}")

# 최적 모델로 테스트 세트 평가
best_model = grid_search.best_estimator_
print(f"테스트 정확도: {best_model.score(X_test_scaled, y_test):.4f}")

모델을 만들 때 우리는 여러 가지 설정값을 정해줘야 합니다. n_estimators, learning_rate, max_depth 같은 것들이죠.

이런 값들을 하이퍼파라미터라고 부릅니다. 문제는 어떤 값이 최적인지 미리 알 수 없다는 것입니다.

경험적으로 대략적인 범위는 알 수 있지만, 정확한 값은 데이터마다 다릅니다. GridSearchCV는 이 문제를 해결해 줍니다.

우리가 정한 후보값들의 모든 조합을 시도해 보고 가장 좋은 조합을 찾아줍니다. 위 코드에서 param_grid를 보면 n_estimators는 50, 100, 200 세 가지, learning_rate는 0.05, 0.1, 0.2 세 가지, max_depth는 2, 3, 4 세 가지를 시도합니다.

총 3 x 3 x 3 = 27가지 조합입니다. 그런데 각 조합을 한 번만 평가하면 운이 좋아서 좋은 결과가 나왔을 수도 있습니다.

이를 방지하기 위해 교차 검증을 사용합니다. 5-fold 교차 검증은 훈련 데이터를 5등분하여, 4개로 훈련하고 1개로 검증하는 것을 5번 반복합니다.

매번 다른 부분을 검증용으로 사용하므로, 5개의 성능 점수를 얻습니다. 이 평균이 해당 조합의 최종 점수가 됩니다.

cv=5는 5-fold 교차 검증을 의미합니다. n_jobs=-1은 모든 CPU 코어를 사용하여 병렬로 계산하라는 의미입니다.

조합이 많을 때 시간을 크게 단축할 수 있습니다. best_params_는 가장 좋은 성능을 보인 파라미터 조합을 알려줍니다.

best_estimator_는 그 파라미터로 훈련된 모델 자체입니다. 김개발 씨가 결과를 확인했습니다.

최적 파라미터로 학습한 모델의 테스트 정확도가 이전보다 조금 더 올랐습니다. 박시니어 씨가 말했습니다.

"이제 이 모델이 우연히 잘 나온 게 아니라는 확신을 가질 수 있어요." 하이퍼파라미터 튜닝은 시간이 오래 걸릴 수 있습니다. RandomizedSearchCV를 사용하면 모든 조합 대신 무작위로 일부만 탐색하여 시간을 줄일 수 있습니다.

실전 팁

💡 - 조합이 많으면 RandomizedSearchCV로 먼저 대략적인 범위를 찾고 GridSearchCV로 세부 튜닝하세요

Optuna나 Hyperopt 같은 라이브러리를 사용하면 더 효율적인 탐색이 가능합니다

이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

#Python#MachineLearning#GradientBoosting#Scikit-learn#DataScience#Machine Learning,Python

와인 품질 예측 모델 완벽 가이드

# 와인 품질 예측 모델 완벽 가이드 머신러닝을 활용하여 와인의 품질을 예측하는 모델을 구축하는 방법을 알아봅니다. 데이터 탐색부터 그래디언트 부스팅 적용, 모델 최적화까지 단계별로 학습합니다. --- ## 목차 1. [와인_데이터셋_탐색](#와인-데이터셋-탐색) 2. [특성_분포_시각화](#특성-분포-시각화) 3. [다중_클래스_분류_설정](#다중-클래스-분류-설정) 4. [그래디언트_부스팅_적용](#그래디언트-부스팅-적용) 5. [특성_중요도_분석](#특성-중요도-분석) 6. [모델_최적화](#모델-최적화) --- ## 1. 와인_데이터셋_탐색 김개발 씨는 데이터 분석팀에 배치된 지 한 달이 된 주니어 개발자입니다. 어느 날 팀장님이 흥미로운 프로젝트를 맡겼습니다. "와인 회사에서 품질 예측 시스템을 의뢰했어요. 먼저 데이터가 어떻게 생겼는지 파악해 볼래요?" **와인 데이터셋**은 머신러닝 입문자들이 자주 사용하는 대표적인 데이터셋입니다. 마치 요리를 배울 때 기본 재료부터 파악하는 것처럼, 모델을 만들기 전에 데이터의 구조와 특성을 이해해야 합니다. 이 과정을 통해 어떤 변수가 와인 품질에 영향을 미치는지 감을 잡을 수 있습니다. 다음 코드를 살펴봅시다. ```python # 필요한 라이브러리 불러오기 from sklearn.datasets import load_wine import pandas as pd # 와인 데이터셋 로드 wine = load_wine() # DataFrame으로 변환하여 탐색하기 쉽게 만들기 df = pd.DataFrame(wine.data, columns=wine.feature_names) df['target'] = wine.target # 데이터 기본 정보 확인 print(f"데이터 크기: {df.shape}") print(f"클래스 종류: {wine.target_names}") print(df.describe()) ``` 김개발 씨는 처음 받은 데이터 파일을 열어보며 당황했습니다. 숫자들이 빼곡히 적혀 있는데, 이게 대체 무엇을 의미하는 걸까요? 옆자리 박시니어 씨가 슬쩍 모니터를 들여다봅니다. "데이터 분석의 첫 단계는 항상 데이터를 눈으로 확인하는 거예요. 우리가 읽을 책의 목차를 먼저 훑어보는 것처럼요." **와인 데이터셋**은 사이킷런에서 기본으로 제공하는 데이터셋입니다. 178개의 와인 샘플과 13개의 화학적 특성이 포함되어 있습니다. 각 와인은 세 가지 품종 중 하나로 분류되어 있습니다. 데이터를 불러오면 가장 먼저 해야 할 일이 있습니다. 바로 데이터의 **shape**를 확인하는 것입니다. 이것은 마치 퍼즐 상자를 열기 전에 몇 조각짜리 퍼즐인지 확인하는 것과 같습니다. **load_wine** 함수를 호출하면 Bunch라는 특별한 객체가 반환됩니다. 이 객체 안에는 data, target, feature_names, target_names 등의 정보가 담겨 있습니다. 마치 도시락 통 안에 밥, 반찬, 젓가락이 정리되어 있는 것처럼요. 데이터를 pandas의 **DataFrame**으로 변환하면 훨씬 다루기 쉬워집니다. 엑셀처럼 행과 열로 정리되어 각 열에 이름을 붙일 수 있기 때문입니다. **describe** 메서드는 데이터의 요약 통계량을 한눈에 보여줍니다. 평균, 표준편차, 최솟값, 최댓값 등을 확인할 수 있습니다. 이 정보는 나중에 데이터 전처리 방향을 결정하는 데 중요한 단서가 됩니다. 김개발 씨가 출력 결과를 보며 물었습니다. "alcohol 열의 평균이 13인데, 이게 알코올 도수인가요?" 박시니어 씨가 고개를 끄덕였습니다. "맞아요. 각 특성이 무엇을 의미하는지 파악하는 것도 중요한 탐색 과정이에요." 이처럼 데이터 탐색은 본격적인 분석에 앞서 데이터와 친해지는 시간입니다. 서두르지 말고 충분히 데이터를 살펴보세요. **실전 팁** 💡 - info 메서드로 결측치 여부와 데이터 타입을 확인하세요 - 클래스별 샘플 수가 균형 잡혀 있는지 value_counts로 확인하세요 --- ## 2. 특성_분포_시각화 김개발 씨가 데이터의 구조를 파악하고 나니 욕심이 생겼습니다. "숫자로만 보니까 감이 잘 안 와요. 그림으로 볼 수 있는 방법이 없을까요?" 박시니어 씨가 웃으며 대답했습니다. "데이터 시각화를 배울 때가 됐군요." **데이터 시각화**는 숫자로 된 데이터를 그래프로 표현하는 기술입니다. 마치 지도를 보면 길을 찾기 쉬운 것처럼, 시각화를 하면 데이터의 패턴과 이상치를 한눈에 파악할 수 있습니다. 특히 각 특성의 분포를 확인하면 어떤 전처리가 필요한지 알 수 있습니다. 다음 코드를 살펴봅시다. ```python import matplotlib.pyplot as plt import seaborn as sns # 주요 특성들의 분포 시각화 fig, axes = plt.subplots(2, 3, figsize=(12, 8)) features = ['alcohol', 'malic_acid', 'flavanoids', 'color_intensity', 'hue', 'proline'] for ax, feature in zip(axes.flat, features): # 클래스별로 다른 색상으로 히스토그램 그리기 for target in range(3): subset = df[df['target'] == target] ax.hist(subset[feature], alpha=0.5, label=f'Class {target}') ax.set_title(feature) ax.legend() plt.tight_layout() plt.savefig('wine_distribution.png') ``` 숫자만 나열된 표를 보고 있으면 눈이 아파옵니다. 김개발 씨도 마찬가지였습니다. 178개의 샘플, 13개의 특성. 머릿속이 복잡해집니다. 박시니어 씨가 조언했습니다. "사람의 뇌는 숫자보다 그림을 더 빨리 이해해요. **시각화**는 데이터 분석가의 필수 도구입니다." **matplotlib**은 파이썬에서 가장 널리 사용되는 시각화 라이브러리입니다. 간단한 선 그래프부터 복잡한 3D 차트까지 다양한 그래프를 그릴 수 있습니다. **seaborn**은 matplotlib 위에 구축된 라이브러리로, 더 예쁜 그래프를 더 쉽게 그릴 수 있게 해줍니다. 위 코드에서 **subplots**는 여러 개의 그래프를 한 화면에 배치하는 함수입니다. 2행 3열로 총 6개의 그래프 공간을 만들었습니다. 마치 사진첩에 여러 장의 사진을 정리하는 것과 같습니다. **히스토그램**은 데이터의 분포를 보여주는 대표적인 그래프입니다. 가로축은 값의 범위를, 세로축은 해당 범위에 속하는 데이터의 개수를 나타냅니다. 산의 모양을 떠올리면 됩니다. alpha 값은 투명도를 의미합니다. 0.5로 설정하면 반투명해져서 겹치는 부분도 볼 수 있습니다. 세 가지 클래스를 같은 그래프에 그릴 때 유용합니다. 그래프를 그려보니 흥미로운 패턴이 보입니다. **proline** 특성을 보면 클래스 0은 값이 높고, 클래스 1과 2는 상대적으로 낮습니다. 이런 특성은 분류 모델에서 중요한 역할을 할 가능성이 높습니다. 반면 어떤 특성은 클래스 간 분포가 많이 겹칩니다. 이런 특성은 품종을 구분하는 데 덜 유용할 수 있습니다. 김개발 씨가 그래프를 보며 감탄했습니다. "와, 이렇게 보니까 어떤 특성이 중요한지 대충 감이 오네요!" 시각화의 힘입니다. **실전 팁** 💡 - 박스플롯으로 이상치를 확인하고, 산점도로 특성 간 관계를 파악하세요 - 히트맵으로 상관관계를 시각화하면 다중공선성 문제를 발견할 수 있습니다 --- ## 3. 다중_클래스_분류_설정 시각화를 마친 김개발 씨가 본격적인 모델링을 시작하려고 합니다. 그런데 문득 의문이 생겼습니다. "와인이 세 종류인데, 이건 어떻게 예측하죠? 제가 알기론 분류는 예/아니오로 나누는 건데..." 박시니어 씨가 설명을 시작했습니다. **다중 클래스 분류**는 세 개 이상의 클래스 중 하나를 예측하는 문제입니다. 마치 가위바위보 게임에서 세 가지 선택지 중 상대방이 무엇을 낼지 예측하는 것과 같습니다. 데이터를 훈련 세트와 테스트 세트로 나누고, 적절한 평가 지표를 선택하는 것이 중요합니다. 다음 코드를 살펴봅시다. ```python from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler # 특성과 레이블 분리 X = df.drop('target', axis=1) y = df['target'] # 훈련 세트와 테스트 세트로 분할 (80:20) X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y ) # 특성 스케일링 (표준화) scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) print(f"훈련 세트 크기: {X_train.shape[0]}") print(f"테스트 세트 크기: {X_test.shape[0]}") ``` 분류 문제는 크게 두 가지로 나뉩니다. 두 개의 클래스를 구분하는 **이진 분류**와 세 개 이상의 클래스를 구분하는 **다중 클래스 분류**입니다. 와인 데이터셋은 세 가지 품종을 구분해야 하므로 다중 클래스 분류 문제입니다. 다행히 사이킷런의 대부분의 분류 알고리즘은 다중 클래스 분류를 기본으로 지원합니다. 모델을 만들기 전에 반드시 해야 할 작업이 있습니다. 바로 데이터를 **훈련 세트**와 **테스트 세트**로 나누는 것입니다. 왜 그래야 할까요? 시험을 볼 때를 생각해 보세요. 시험 문제를 미리 알고 공부한 학생은 좋은 점수를 받겠지만, 그것이 진정한 실력이라고 할 수 있을까요? 마찬가지로 모델도 학습에 사용하지 않은 새로운 데이터로 평가해야 진짜 성능을 알 수 있습니다. **train_test_split** 함수는 데이터를 무작위로 섞어서 나눠줍니다. test_size=0.2는 전체의 20%를 테스트용으로 사용한다는 의미입니다. random_state를 설정하면 실행할 때마다 같은 결과를 얻을 수 있습니다. **stratify** 매개변수는 매우 중요합니다. 이 옵션을 설정하면 원본 데이터의 클래스 비율이 훈련 세트와 테스트 세트에 동일하게 유지됩니다. 만약 이 옵션 없이 분할하면, 운 나쁘게 특정 클래스가 한쪽에 몰릴 수 있습니다. 다음으로 **StandardScaler**를 사용한 표준화입니다. 각 특성의 평균을 0, 표준편차를 1로 만드는 작업입니다. 왜 필요할까요? 와인 데이터에서 alcohol은 11~14 사이의 값을 가지고, proline은 300~1600 사이의 값을 가집니다. 스케일이 너무 다르면 일부 알고리즘이 제대로 작동하지 않습니다. 주의할 점이 있습니다. **fit_transform**은 훈련 세트에만 적용하고, 테스트 세트에는 **transform**만 적용해야 합니다. 테스트 세트의 정보가 학습에 새어 들어가는 것을 방지하기 위해서입니다. **실전 팁** 💡 - random_state를 고정하면 실험 재현이 가능합니다 - 불균형 데이터에서는 SMOTE 같은 오버샘플링 기법을 고려하세요 --- ## 4. 그래디언트_부스팅_적용 데이터 준비를 마친 김개발 씨가 드디어 모델을 만들 차례입니다. 박시니어 씨가 물었습니다. "어떤 알고리즘을 써볼까요?" 김개발 씨는 고민에 빠졌습니다. 선택지가 너무 많았기 때문입니다. **그래디언트 부스팅**은 여러 개의 약한 학습기를 순차적으로 결합하여 강력한 모델을 만드는 앙상블 기법입니다. 마치 릴레이 경주에서 각 주자가 이전 주자의 부족한 부분을 보완하며 달리는 것과 같습니다. 정형 데이터에서 뛰어난 성능을 보여 실무에서 널리 사용됩니다. 다음 코드를 살펴봅시다. ```python from sklearn.ensemble import GradientBoostingClassifier from sklearn.metrics import accuracy_score, classification_report # 그래디언트 부스팅 모델 생성 및 훈련 gb_model = GradientBoostingClassifier( n_estimators=100, # 트리의 개수 learning_rate=0.1, # 학습률 max_depth=3, # 각 트리의 최대 깊이 random_state=42 ) # 모델 훈련 gb_model.fit(X_train_scaled, y_train) # 예측 및 평가 y_pred = gb_model.predict(X_test_scaled) accuracy = accuracy_score(y_test, y_pred) print(f"정확도: {accuracy:.4f}") print(classification_report(y_test, y_pred, target_names=wine.target_names)) ``` 머신러닝 알고리즘은 정말 다양합니다. 로지스틱 회귀, 결정 트리, 랜덤 포레스트, SVM, 신경망... 어떤 것을 선택해야 할까요? 박시니어 씨가 말했습니다. "정형 데이터에서는 **그래디언트 부스팅**이 거의 항상 좋은 성능을 보여요. 캐글 대회에서도 자주 우승하는 알고리즘이죠." 그래디언트 부스팅의 핵심 아이디어는 **순차적 개선**입니다. 첫 번째 모델이 틀린 부분에 집중하여 두 번째 모델을 만들고, 두 번째 모델이 틀린 부분에 집중하여 세 번째 모델을 만듭니다. 이런 식으로 계속 보완해 나갑니다. 비유를 들어보겠습니다. 학생이 수학 시험을 봤는데 80점을 받았습니다. 다음 시험에서는 틀린 20점짜리 문제에 집중해서 공부합니다. 그 결과 90점을 받았습니다. 이번에는 틀린 10점짜리 문제에 집중합니다. 이렇게 약점을 보완해 나가면 점수가 계속 오릅니다. **n_estimators**는 몇 개의 트리를 만들지 결정합니다. 보통 100~500 사이의 값을 사용합니다. 너무 많으면 과적합의 위험이 있고, 너무 적으면 성능이 부족할 수 있습니다. **learning_rate**는 각 트리의 기여도를 조절합니다. 값이 작으면 천천히 학습하지만 더 정교한 모델을 만들 수 있습니다. 값이 크면 빨리 학습하지만 최적점을 지나칠 수 있습니다. **max_depth**는 각 트리의 복잡도를 제한합니다. 그래디언트 부스팅에서는 보통 3~5 정도의 얕은 트리를 많이 사용합니다. 개별 트리는 약하지만 여러 개가 모이면 강해집니다. **classification_report**는 모델의 성능을 다양한 관점에서 보여줍니다. 정밀도는 모델이 A라고 예측한 것 중 실제로 A인 비율입니다. 재현율은 실제 A인 것 중 모델이 A라고 맞힌 비율입니다. F1 점수는 이 둘의 조화평균입니다. 김개발 씨가 결과를 보며 놀랐습니다. "우와, 정확도가 97%나 되네요!" 그래디언트 부스팅의 힘입니다. **실전 팁** 💡 - learning_rate를 낮추면 n_estimators를 늘려야 합니다 - XGBoost나 LightGBM을 사용하면 더 빠르고 좋은 성능을 얻을 수 있습니다 --- ## 5. 특성_중요도_분석 모델이 잘 작동하는 것을 확인한 김개발 씨에게 팀장님이 질문했습니다. "모델이 왜 이런 예측을 하는지 설명할 수 있어요? 와인 회사 담당자가 이해할 수 있게요." 김개발 씨는 잠시 당황했습니다. 모델은 블랙박스가 아니었던가요? **특성 중요도**는 모델이 예측을 할 때 각 특성이 얼마나 중요한 역할을 했는지 보여주는 지표입니다. 마치 요리사가 음식 맛에 어떤 재료가 가장 큰 영향을 미쳤는지 설명하는 것과 같습니다. 이를 통해 모델의 결정을 해석하고 비즈니스 인사이트를 얻을 수 있습니다. 다음 코드를 살펴봅시다. ```python import numpy as np # 특성 중요도 추출 importances = gb_model.feature_importances_ feature_names = X.columns # 중요도 순으로 정렬 indices = np.argsort(importances)[::-1] # 시각화 plt.figure(figsize=(10, 6)) plt.title('특성 중요도 (Feature Importance)') plt.bar(range(len(importances)), importances[indices]) plt.xticks(range(len(importances)), [feature_names[i] for i in indices], rotation=45) plt.tight_layout() plt.savefig('feature_importance.png') # 상위 5개 특성 출력 for i in range(5): print(f"{feature_names[indices[i]]}: {importances[indices[i]]:.4f}") ``` 머신러닝 모델은 종종 블랙박스로 여겨집니다. 데이터를 넣으면 결과가 나오는데, 왜 그런 결과가 나왔는지는 알 수 없다는 것이죠. 하지만 실무에서는 설명이 필요한 경우가 많습니다. 와인 회사 담당자가 물었습니다. "우리 와인이 품종 A로 분류됐다고 하는데, 왜 그런 거죠?" 이런 질문에 "그냥 모델이 그렇게 예측했어요"라고 답할 수는 없습니다. **특성 중요도**는 이 문제를 해결하는 한 가지 방법입니다. 트리 기반 모델은 각 특성이 예측에 얼마나 기여했는지 계산할 수 있습니다. 그래디언트 부스팅에서 특성 중요도는 각 특성이 트리 분할에 사용됐을 때 불순도가 얼마나 감소했는지를 기반으로 합니다. 불순도가 많이 감소한 특성일수록 분류에 중요한 역할을 한다고 볼 수 있습니다. **feature_importances_** 속성을 사용하면 간단히 중요도를 얻을 수 있습니다. 이 값들의 합은 1이 됩니다. 각 특성의 상대적인 중요도를 비교할 수 있습니다. 막대 그래프로 시각화하면 한눈에 파악하기 쉽습니다. **argsort**로 정렬하고 **[::-1]**로 뒤집으면 중요도가 높은 순으로 정렬됩니다. 결과를 보니 **proline**과 **flavanoids**가 가장 중요한 특성으로 나타났습니다. 앞서 시각화에서 이 특성들의 분포가 클래스별로 확실히 다르게 나타났던 것을 기억하시나요? 모델도 그 차이를 잘 포착한 것입니다. 이제 와인 회사 담당자에게 설명할 수 있습니다. "이 와인은 프롤린 함량이 높고 플라바노이드 수치가 특정 범위에 있어서 품종 A로 분류되었습니다." 이런 인사이트는 비즈니스적으로도 가치가 있습니다. 품질에 영향을 미치는 핵심 요소를 파악하면 생산 공정 개선에 활용할 수 있기 때문입니다. **실전 팁** 💡 - SHAP 라이브러리를 사용하면 더 정교한 해석이 가능합니다 - 특성 중요도가 낮은 특성은 제거해도 성능에 큰 영향이 없을 수 있습니다 --- ## 6. 모델_최적화 김개발 씨가 만든 모델의 정확도가 97%라고 해서 모두 만족했지만, 박시니어 씨가 한마디 했습니다. "이 정도면 훌륭하지만, 하이퍼파라미터 튜닝을 해보면 더 나아질 수도 있어요. 그리고 지금 결과가 우연은 아닌지 검증도 해봐야 해요." **하이퍼파라미터 튜닝**은 모델의 설정값을 조정하여 최적의 성능을 찾는 과정입니다. 마치 오디오 믹서에서 각 채널의 볼륨을 조절하여 최고의 음질을 찾는 것과 같습니다. **교차 검증**을 함께 사용하면 과적합을 방지하고 모델의 일반화 성능을 신뢰성 있게 평가할 수 있습니다. 다음 코드를 살펴봅시다. ```python from sklearn.model_selection import GridSearchCV, cross_val_score # 탐색할 하이퍼파라미터 그리드 정의 param_grid = { 'n_estimators': [50, 100, 200], 'learning_rate': [0.05, 0.1, 0.2], 'max_depth': [2, 3, 4] } # 그리드 서치 수행 (5-fold 교차 검증) grid_search = GridSearchCV( GradientBoostingClassifier(random_state=42), param_grid, cv=5, scoring='accuracy', n_jobs=-1 ) grid_search.fit(X_train_scaled, y_train) # 최적 파라미터와 성능 출력 print(f"최적 파라미터: {grid_search.best_params_}") print(f"교차 검증 점수: {grid_search.best_score_:.4f}") # 최적 모델로 테스트 세트 평가 best_model = grid_search.best_estimator_ print(f"테스트 정확도: {best_model.score(X_test_scaled, y_test):.4f}") ``` 모델을 만들 때 우리는 여러 가지 설정값을 정해줘야 합니다. n_estimators, learning_rate, max_depth 같은 것들이죠. 이런 값들을 **하이퍼파라미터**라고 부릅니다. 문제는 어떤 값이 최적인지 미리 알 수 없다는 것입니다. 경험적으로 대략적인 범위는 알 수 있지만, 정확한 값은 데이터마다 다릅니다. **GridSearchCV**는 이 문제를 해결해 줍니다. 우리가 정한 후보값들의 모든 조합을 시도해 보고 가장 좋은 조합을 찾아줍니다. 위 코드에서 param_grid를 보면 n_estimators는 50, 100, 200 세 가지, learning_rate는 0.05, 0.1, 0.2 세 가지, max_depth는 2, 3, 4 세 가지를 시도합니다. 총 3 x 3 x 3 = 27가지 조합입니다. 그런데 각 조합을 한 번만 평가하면 운이 좋아서 좋은 결과가 나왔을 수도 있습니다. 이를 방지하기 위해 **교차 검증**을 사용합니다. 5-fold 교차 검증은 훈련 데이터를 5등분하여, 4개로 훈련하고 1개로 검증하는 것을 5번 반복합니다. 매번 다른 부분을 검증용으로 사용하므로, 5개의 성능 점수를 얻습니다. 이 평균이 해당 조합의 최종 점수가 됩니다. **cv=5**는 5-fold 교차 검증을 의미합니다. **n_jobs=-1**은 모든 CPU 코어를 사용하여 병렬로 계산하라는 의미입니다. 조합이 많을 때 시간을 크게 단축할 수 있습니다. **best_params_**는 가장 좋은 성능을 보인 파라미터 조합을 알려줍니다. **best_estimator_**는 그 파라미터로 훈련된 모델 자체입니다. 김개발 씨가 결과를 확인했습니다. 최적 파라미터로 학습한 모델의 테스트 정확도가 이전보다 조금 더 올랐습니다. 박시니어 씨가 말했습니다. "이제 이 모델이 우연히 잘 나온 게 아니라는 확신을 가질 수 있어요." 하이퍼파라미터 튜닝은 시간이 오래 걸릴 수 있습니다. **RandomizedSearchCV**를 사용하면 모든 조합 대신 무작위로 일부만 탐색하여 시간을 줄일 수 있습니다. **실전 팁** 💡 - 조합이 많으면 RandomizedSearchCV로 먼저 대략적인 범위를 찾고 GridSearchCV로 세부 튜닝하세요 - Optuna나 Hyperopt 같은 라이브러리를 사용하면 더 효율적인 탐색이 가능합니다 --- 이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

카테고리: Machine Learning,Python

언어: Python

태그: Python, MachineLearning, GradientBoosting, Scikit-learn, DataScience, Machine Learning,Python

작성자: AI Generated

프리미엄 콘텐츠 - 3개월 무료 체험 가능

CodeDeck

와인 품질 예측 모델 완벽 가이드

목차

1. 와인 데이터셋 탐색

2. 특성 분포 시각화

3. 다중 클래스 분류 설정

4. 그래디언트 부스팅 적용

5. 특성 중요도 분석

6. 모델 최적화

이 카드뉴스가 포함된 코스

Scikit-learn 실무 예제 완전 정복

댓글 (0)

함께 보면 좋은 카드 뉴스

vLLM 통합 완벽 가이드

Web UI Demo 구축 완벽 가이드

Sandboxing & Execution Control 완벽 가이드

Voice Design then Clone 워크플로우 완벽 가이드

Tool Use 완벽 가이드 - Shell, Browser, DB 실전 활용