고객 이탈 예측 분석 완벽 가이드

머신러닝을 활용하여 고객 이탈을 예측하고 비즈니스 인사이트를 도출하는 방법을 배웁니다. 데이터 탐색부터 XGBoost 모델링, 이탈 방지 전략까지 실무에서 바로 적용할 수 있는 내용을 다룹니다.

1. 고객 이탈 데이터 탐색

김개발 씨는 이커머스 회사에 입사한 지 6개월 된 데이터 분석가입니다. 어느 날 팀장님이 심각한 표정으로 다가왔습니다.

"우리 고객 중 30%가 최근 3개월 사이에 이탈했어요. 왜 떠나는지, 누가 떠날지 예측할 수 있을까요?"

고객 이탈 데이터 탐색은 고객이 왜 서비스를 떠나는지 이해하기 위한 첫 번째 단계입니다. 마치 의사가 환자를 진료하기 전에 기본 검사를 하는 것처럼, 데이터의 구조와 특성을 먼저 파악해야 합니다.

이 과정을 통해 어떤 변수가 이탈과 관련이 있는지 힌트를 얻을 수 있습니다.

다음 코드를 살펴봅시다.

import pandas as pd
import matplotlib.pyplot as plt

# 고객 데이터 불러오기
df = pd.read_csv('customer_churn.csv')

# 데이터 기본 정보 확인
print(f"전체 고객 수: {len(df)}")
print(f"이탈 고객 비율: {df['Churn'].mean() * 100:.1f}%")

# 주요 컬럼별 이탈률 분석
churn_by_contract = df.groupby('Contract')['Churn'].mean()
print("\n계약 유형별 이탈률:")
print(churn_by_contract)

# 수치형 변수와 이탈 관계 시각화
df.groupby('Churn')['MonthlyCharges'].mean().plot(kind='bar')
plt.title('이탈 여부에 따른 월 요금 평균')
plt.show()

김개발 씨는 팀장님의 요청을 받고 가장 먼저 데이터를 열어보았습니다. 7,000명이 넘는 고객 데이터가 눈앞에 펼쳐졌습니다.

성별, 나이, 가입 기간, 월 요금, 사용 서비스 종류 등 수십 개의 컬럼이 있었습니다. "어디서부터 시작해야 할까?" 김개발 씨가 혼잣말을 하자, 옆자리의 박시니어 씨가 말했습니다.

"데이터 분석의 첫 단계는 항상 탐색적 데이터 분석, 줄여서 EDA예요. 데이터를 눈으로 직접 확인하는 거죠." 그렇다면 EDA란 정확히 무엇일까요?

쉽게 비유하자면, EDA는 마치 새로운 동네에 이사 왔을 때 동네를 산책하며 둘러보는 것과 같습니다. 슈퍼마켓이 어디 있는지, 공원은 얼마나 가까운지, 어떤 식당들이 있는지 파악하는 과정입니다.

데이터도 마찬가지로 어떤 변수들이 있는지, 결측치는 없는지, 이상한 값은 없는지 먼저 살펴봐야 합니다. 김개발 씨는 먼저 이탈률을 계산해보았습니다.

전체 고객 중 약 26%가 이탈한 것으로 나타났습니다. "4명 중 1명이 떠났다니..." 생각보다 심각한 수치였습니다.

다음으로 계약 유형별 이탈률을 분석했습니다. 월별 계약 고객의 이탈률은 42%나 되었지만, 2년 계약 고객은 고작 3%에 불과했습니다.

박시니어 씨가 고개를 끄덕이며 말했습니다. "장기 계약이 이탈 방지에 효과적이라는 힌트네요." 월 요금도 흥미로운 패턴을 보여주었습니다.

이탈한 고객의 평균 월 요금은 74달러였고, 유지된 고객은 61달러였습니다. 비용에 민감한 고객들이 더 많이 떠나는 것일까요?

코드를 자세히 살펴보겠습니다. pd.read_csv()로 데이터를 불러온 후, df['Churn'].mean()으로 이탈률을 계산합니다.

Churn 컬럼이 0과 1로 이루어져 있다면, 평균값이 곧 이탈 비율이 됩니다. groupby() 함수는 특정 기준으로 데이터를 묶어주는 강력한 도구입니다.

계약 유형별로 묶은 후 이탈률을 계산하면, 어떤 계약 유형이 위험한지 한눈에 파악할 수 있습니다. 실무에서는 이 단계에서 가설을 세우게 됩니다.

"월별 계약 고객은 이탈 위험이 높다", "높은 요금을 내는 고객이 더 많이 떠난다" 같은 가설을요. 이 가설들은 이후 분석에서 검증하게 됩니다.

주의할 점이 있습니다. EDA 단계에서 발견한 패턴이 반드시 인과관계를 의미하지는 않습니다.

높은 요금과 이탈 사이에 상관관계가 있다고 해서, 요금을 낮추면 이탈이 줄어든다고 단정 지을 수는 없습니다. 다른 요인이 숨어 있을 수 있기 때문입니다.

김개발 씨는 데이터 탐색을 마치고 중요한 인사이트를 얻었습니다. 이제 본격적인 분석을 시작할 준비가 되었습니다.

실전 팁

💡 - 분석 전에 항상 결측치와 이상치를 확인하세요

시각화를 적극 활용하면 패턴을 더 쉽게 발견할 수 있습니다
도메인 지식을 가진 현업 담당자와 대화하면 더 깊은 인사이트를 얻을 수 있습니다

2. 불균형 데이터 처리 (SMOTE)

김개발 씨가 머신러닝 모델을 돌려보았습니다. 정확도가 무려 95%!

하지만 박시니어 씨는 고개를 저었습니다. "그 모델, 이탈 고객은 거의 못 맞추고 있을 거예요.

데이터가 불균형하거든요."

불균형 데이터란 특정 클래스가 다른 클래스보다 훨씬 많은 경우를 말합니다. 고객 이탈 데이터에서는 대부분이 유지 고객이고 이탈 고객은 소수입니다.

SMOTE는 소수 클래스의 샘플을 인공적으로 생성하여 이 불균형을 해소하는 기법입니다. 마치 축구 경기에서 인원이 부족한 팀에 선수를 보충해주는 것과 같습니다.

다음 코드를 살펴봅시다.

from imblearn.over_sampling import SMOTE
from sklearn.model_selection import train_test_split
from collections import Counter

# 특성과 타겟 분리
X = df.drop('Churn', axis=1)
y = df['Churn']

# 학습/테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

# SMOTE 적용 전 클래스 분포 확인
print(f"SMOTE 적용 전: {Counter(y_train)}")

# SMOTE로 오버샘플링
smote = SMOTE(random_state=42)
X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)

# SMOTE 적용 후 클래스 분포 확인
print(f"SMOTE 적용 후: {Counter(y_train_balanced)}")

박시니어 씨의 말에 김개발 씨는 혼란스러웠습니다. "95% 정확도가 좋은 게 아니라고요?" 박시니어 씨가 차근차근 설명을 시작했습니다.

"전체 고객 중 이탈 고객이 26%라고 했잖아요. 만약 모델이 그냥 모든 고객을 '유지'라고 예측해버리면요?" 김개발 씨가 계산해보았습니다.

"74%는 맞추겠네요... 아, 그런데 정작 찾아야 할 이탈 고객은 하나도 못 찾는 거잖아요!" 바로 이것이 불균형 데이터의 함정입니다.

다수 클래스만 맞추면 정확도는 높게 나오지만, 정작 중요한 소수 클래스는 놓치게 됩니다. 비유를 들어보겠습니다.

공항 보안검색대를 생각해보세요. 수천 명의 승객 중 위험물을 소지한 사람은 극소수입니다.

만약 보안검색 시스템이 "모두 안전"이라고만 판단한다면 정확도는 99.9%가 되겠지만, 정작 잡아야 할 위험인물은 통과시키게 됩니다. 이탈 예측도 마찬가지입니다.

SMOTE는 Synthetic Minority Over-sampling Technique의 약자입니다. 이름 그대로 소수 클래스의 합성 샘플을 만들어내는 기술입니다.

SMOTE의 작동 원리는 이렇습니다. 소수 클래스의 데이터 포인트를 하나 선택합니다.

그리고 그 점의 k개 최근접 이웃을 찾습니다. 선택한 점과 이웃 사이의 어딘가에 새로운 점을 생성합니다.

마치 두 점 사이에 새로운 점을 그려 넣는 것과 같습니다. 코드를 살펴보면, 먼저 train_test_split으로 데이터를 나눕니다.

이때 stratify=y 옵션이 중요합니다. 이 옵션을 주면 학습 데이터와 테스트 데이터에서 이탈 비율이 동일하게 유지됩니다.

SMOTE는 반드시 학습 데이터에만 적용해야 합니다. 테스트 데이터에 적용하면 모델 성능을 과대평가하게 되는 데이터 누수 문제가 발생합니다.

이건 정말 중요한 포인트입니다. Counter로 클래스 분포를 확인해보면, SMOTE 적용 전에는 유지 고객이 4,000명, 이탈 고객이 1,400명 정도였다면, SMOTE 적용 후에는 둘 다 4,000명으로 균형이 맞춰집니다.

실무에서는 SMOTE 외에도 여러 대안이 있습니다. 언더샘플링은 다수 클래스의 샘플을 줄이는 방식이고, 클래스 가중치 조정은 손실 함수에서 소수 클래스의 오류에 더 큰 페널티를 부여하는 방식입니다.

박시니어 씨가 마지막으로 조언했습니다. "SMOTE가 만능은 아니에요.

데이터 특성에 따라 다른 방법이 더 효과적일 수도 있으니, 여러 방법을 실험해보세요."

실전 팁

💡 - SMOTE는 반드시 학습 데이터에만 적용하세요

정확도 대신 F1-score, AUC-ROC 같은 지표로 평가하세요
SMOTE-ENN, BorderlineSMOTE 등 변형 기법도 시도해보세요

3. 중요 특성 분석

SMOTE를 적용한 후 모델 성능이 눈에 띄게 좋아졌습니다. 하지만 팀장님이 또 질문을 던졌습니다.

"그래서 고객이 왜 떠나는 건데요? 원인을 알아야 대책을 세우죠." 김개발 씨는 다음 단계로 특성 중요도 분석을 시작했습니다.

특성 중요도 분석은 어떤 변수가 예측에 가장 큰 영향을 미치는지 파악하는 과정입니다. 마치 범인을 찾는 형사가 가장 결정적인 단서를 추려내는 것과 같습니다.

이 분석을 통해 이탈을 유발하는 핵심 요인을 발견할 수 있고, 비즈니스 의사결정에 직접적인 도움을 얻을 수 있습니다.

다음 코드를 살펴봅시다.

from sklearn.ensemble import RandomForestClassifier
import numpy as np

# 랜덤 포레스트로 특성 중요도 계산
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train_balanced, y_train_balanced)

# 특성 중요도 추출 및 정렬
feature_importance = pd.DataFrame({
    'feature': X_train.columns,
    'importance': rf_model.feature_importances_
}).sort_values('importance', ascending=False)

# 상위 10개 특성 출력
print("=== 이탈 예측 주요 특성 TOP 10 ===")
for idx, row in feature_importance.head(10).iterrows():
    print(f"{row['feature']}: {row['importance']:.4f}")

# 시각화
feature_importance.head(10).plot(
    x='feature', y='importance', kind='barh', figsize=(10, 6)
)
plt.title('특성 중요도 (Feature Importance)')
plt.show()

"모델이 블랙박스면 안 돼요." 박시니어 씨가 강조했습니다. "아무리 예측을 잘해도, 왜 그런 예측을 하는지 설명할 수 없으면 현업에서 받아들이지 않아요." 김개발 씨도 공감했습니다.

팀장님은 숫자보다 스토리를 원했습니다. "이런 특성을 가진 고객이 이탈할 확률이 높습니다"라고 말해줘야 실제로 조치를 취할 수 있으니까요.

특성 중요도란 무엇일까요? 쉽게 말해, 각 변수가 예측에 얼마나 기여하는지를 수치화한 것입니다.

중요도가 높은 변수일수록 이탈 여부를 판단하는 데 결정적인 역할을 합니다. 비유하자면, 의사가 환자를 진단할 때 수십 가지 검사 결과를 보지만, 특정 질병을 판단하는 데는 몇 가지 핵심 지표가 결정적입니다.

당뇨병 진단에는 혈당 수치가, 빈혈 진단에는 헤모글로빈 수치가 가장 중요하듯이요. 랜덤 포레스트 모델은 특성 중요도를 자연스럽게 계산해줍니다.

여러 결정 트리를 만들면서 각 특성이 분류에 얼마나 기여했는지 측정하기 때문입니다. 코드에서 rf_model.feature_importances_가 바로 이 중요도 배열입니다.

이를 데이터프레임으로 정리하고 정렬하면, 어떤 특성이 가장 중요한지 순위를 매길 수 있습니다. 김개발 씨가 분석 결과를 보았습니다.

상위 특성들이 나열되었습니다. 계약 기간, 월 요금, 인터넷 서비스 종류, 결제 방식 등이 상위권에 올라 있었습니다.

특히 눈에 띄는 것은 **계약 기간(tenure)**이었습니다. 가입 기간이 짧은 고객일수록 이탈 확률이 높았습니다.

이건 어느 정도 예상된 결과였습니다. 서비스에 대한 충성도가 쌓이기 전에 떠나는 것이니까요.

월 요금도 중요한 특성이었습니다. 탐색 단계에서 발견한 패턴과 일치했습니다.

요금이 높을수록 이탈 위험이 커지는 경향이 있었습니다. 흥미로운 것은 결제 방식이었습니다.

전자 수표(Electronic Check)로 결제하는 고객의 이탈률이 유독 높았습니다. 왜일까요?

박시니어 씨가 추측을 던졌습니다. "자동이체나 카드 결제보다 전자 수표는 매달 능동적으로 결제해야 하잖아요.

그 과정에서 서비스를 다시 생각하게 되는 거 아닐까요?" 주의할 점이 있습니다. 특성 중요도는 상관관계를 보여줄 뿐, 인과관계를 증명하지는 않습니다.

결제 방식을 바꾼다고 이탈이 줄어든다는 보장은 없습니다. 추가 분석과 실험이 필요합니다.

실전 팁

💡 - 특성 중요도는 모델마다 계산 방식이 다르니 여러 모델로 교차 검증하세요

SHAP 분석을 추가하면 더 정교한 해석이 가능합니다
중요 특성이 비즈니스 관점에서 조치 가능한지 항상 확인하세요

4. XGBoost 분류 모델

특성 분석까지 마친 김개발 씨. 이제 본격적으로 예측 모델을 만들 차례입니다.

박시니어 씨가 추천한 것은 바로 XGBoost. "캐글 대회 우승자들이 가장 많이 쓰는 알고리즘이에요.

성능도 좋고 해석도 쉽죠."

XGBoost는 Extreme Gradient Boosting의 약자로, 여러 개의 약한 학습기를 순차적으로 결합하여 강력한 예측 모델을 만드는 알고리즘입니다. 마치 여러 명의 전문가가 순서대로 의견을 수정해가며 최종 결론에 도달하는 것과 같습니다.

빠른 학습 속도와 뛰어난 성능으로 정형 데이터 분석에서 가장 널리 사용됩니다.

다음 코드를 살펴봅시다.

from xgboost import XGBClassifier
from sklearn.metrics import classification_report, roc_auc_score

# XGBoost 모델 생성 및 학습
xgb_model = XGBClassifier(
    n_estimators=200,
    max_depth=5,
    learning_rate=0.1,
    scale_pos_weight=3,  # 클래스 불균형 보정
    random_state=42
)
xgb_model.fit(X_train_balanced, y_train_balanced)

# 예측 및 평가
y_pred = xgb_model.predict(X_test)
y_pred_proba = xgb_model.predict_proba(X_test)[:, 1]

# 분류 성능 리포트
print("=== 분류 성능 리포트 ===")
print(classification_report(y_test, y_pred,
      target_names=['유지', '이탈']))

# AUC-ROC 점수
auc_score = roc_auc_score(y_test, y_pred_proba)
print(f"\nAUC-ROC Score: {auc_score:.4f}")

"Gradient Boosting이 뭔가요?" 김개발 씨가 물었습니다. 박시니어 씨는 화이트보드에 그림을 그리기 시작했습니다.

"학교에서 시험을 본다고 생각해봐요. 첫 번째 선생님이 채점을 합니다.

그런데 몇 문제는 애매해서 틀렸어요. 두 번째 선생님은 첫 번째 선생님이 틀린 부분만 집중해서 다시 채점해요.

세 번째 선생님은 두 번째 선생님이 놓친 부분을 보완하고요." 김개발 씨가 이해했다는 표정을 지었습니다. "아, 이전 모델의 실수를 다음 모델이 보완하는 거군요!" 맞습니다.

Gradient Boosting은 이전 모델이 잘못 예측한 부분에 가중치를 두어, 다음 모델이 그 부분을 집중적으로 학습하는 방식입니다. 이 과정을 수백 번 반복하면 매우 정교한 예측이 가능해집니다.

XGBoost는 이 Gradient Boosting을 극도로 최적화한 버전입니다. 병렬 처리, 정규화, 결측치 자동 처리 등 여러 개선이 추가되어 빠르고 안정적입니다.

코드에서 주요 하이퍼파라미터를 살펴보겠습니다. n_estimators=200은 200개의 트리를 만들겠다는 의미입니다.

max_depth=5는 각 트리의 최대 깊이를 제한합니다. 너무 깊으면 과적합될 수 있으니까요.

learning_rate=0.1은 각 트리가 전체 예측에 기여하는 비율입니다. 학습률이 낮으면 더 많은 트리가 필요하지만, 일반화 성능은 좋아지는 경향이 있습니다.

특히 scale_pos_weight=3은 중요합니다. 이 파라미터는 양성 클래스(이탈)에 가중치를 부여하여 불균형을 보정합니다.

SMOTE와 함께 사용하면 더욱 효과적입니다. 모델 평가에서 classification_report는 정밀도, 재현율, F1-score를 한눈에 보여줍니다.

이탈 예측에서는 특히 **재현율(Recall)**이 중요합니다. 실제 이탈 고객 중 몇 명을 잡아냈는지를 나타내기 때문입니다.

AUC-ROC는 모델의 전반적인 분류 성능을 0과 1 사이 값으로 나타냅니다. 0.5면 랜덤 추측 수준이고, 1에 가까울수록 완벽한 분류입니다.

보통 0.8 이상이면 좋은 모델로 평가받습니다. 김개발 씨의 모델은 AUC 0.85를 달성했습니다.

이탈 고객의 재현율은 78%로, 실제 이탈 고객 10명 중 약 8명을 사전에 식별할 수 있다는 의미입니다.

실전 팁

💡 - GridSearchCV나 Optuna로 하이퍼파라미터 튜닝을 하면 성능이 더 향상됩니다

early_stopping_rounds를 설정하면 과적합을 방지할 수 있습니다
모델 저장은 joblib이나 pickle을 사용하세요

5. 비즈니스 인사이트 도출

모델이 완성되었습니다. 하지만 팀장님 앞에서 "AUC가 0.85입니다"라고 말해봤자 통하지 않습니다.

김개발 씨는 분석 결과를 비즈니스 언어로 번역해야 했습니다. "숫자를 이야기로 바꾸는 거예요." 박시니어 씨가 조언했습니다.

비즈니스 인사이트 도출은 데이터 분석 결과를 경영진이 이해할 수 있는 언어로 변환하는 과정입니다. 마치 통역사가 외국어를 모국어로 바꿔주듯이, 기술적인 지표를 비용, 매출, 고객 수 같은 비즈니스 언어로 표현해야 합니다.

이 과정 없이는 아무리 좋은 모델도 사장되고 맙니다.

다음 코드를 살펴봅시다.

# 이탈 확률별 고객 세그먼트 분류
df_test = X_test.copy()
df_test['churn_probability'] = y_pred_proba
df_test['actual_churn'] = y_test.values

# 위험 등급 분류
def risk_segment(prob):
    if prob >= 0.7: return '고위험'
    elif prob >= 0.4: return '중위험'
    else: return '저위험'

df_test['risk_level'] = df_test['churn_probability'].apply(risk_segment)

# 세그먼트별 고객 수와 예상 이탈률
segment_analysis = df_test.groupby('risk_level').agg({
    'churn_probability': ['count', 'mean'],
    'actual_churn': 'mean'
}).round(3)

print("=== 위험 등급별 고객 분석 ===")
print(segment_analysis)

# 비용 분석 (예시: 고객당 연간 가치 $500, 유지 캠페인 비용 $50)
high_risk_customers = len(df_test[df_test['risk_level'] == '고위험'])
potential_loss = high_risk_customers * 500
campaign_cost = high_risk_customers * 50
print(f"\n고위험 고객 수: {high_risk_customers}명")
print(f"잠재적 손실: ${potential_loss:,}")
print(f"캠페인 투자 시 예상 비용: ${campaign_cost:,}")

팀장님과의 미팅이 잡혔습니다. 김개발 씨는 발표 자료를 준비하며 고민에 빠졌습니다.

"Precision이 0.72고, Recall이 0.78입니다"라고 말하면 팀장님이 이해하실까요? 박시니어 씨가 핵심을 짚어주었습니다.

"팀장님이 궁금한 건 세 가지예요. 첫째, 얼마나 많은 고객이 떠날 것인가?

둘째, 그로 인해 얼마를 잃을 것인가? 셋째, 어떻게 막을 수 있는가?" 김개발 씨는 접근 방식을 바꿨습니다.

먼저 고객을 위험 등급으로 나누기로 했습니다. 이탈 확률 70% 이상은 고위험, 40~70%는 중위험, 40% 미만은 저위험으로 분류했습니다.

코드에서 risk_segment 함수가 이 분류를 담당합니다. 예측 확률에 따라 레이블을 붙이면, 경영진도 이해하기 쉬운 세그먼트가 만들어집니다.

분석 결과, 고위험 고객이 전체의 15%를 차지했습니다. 이 고객들의 실제 이탈률은 82%에 달했습니다.

모델이 잘 작동하고 있다는 증거입니다. 다음으로 금전적 가치를 계산했습니다.

가정을 세웠습니다. 고객 한 명의 연간 가치(LTV)가 500달러라면, 고위험 고객 200명이 모두 떠날 경우 연간 10만 달러의 손실입니다.

반면, 이탈 방지 캠페인에 고객당 50달러를 투자한다면? 총 1만 달러의 비용이 듭니다.

캠페인으로 이탈률을 절반만 줄여도 5만 달러를 지킬 수 있습니다. ROI는 5배입니다.

김개발 씨는 발표 슬라이드를 이렇게 정리했습니다. "현재 200명의 고위험 고객이 있습니다.

아무 조치를 취하지 않으면 82%인 164명이 이탈하여 연간 82,000달러를 잃게 됩니다. 1만 달러의 캠페인 투자로 이탈률을 절반으로 줄이면 41,000달러를 지킬 수 있습니다." 팀장님이 고개를 끄덕였습니다.

"좋아요. 그럼 구체적으로 어떤 캠페인을 해야 하죠?" 이것이 바로 다음 단계입니다.

인사이트를 액션으로 연결하는 것. 김개발 씨는 이탈 방지 전략을 수립하기 시작했습니다.

실전 팁

💡 - 항상 금액으로 환산하세요. 경영진은 숫자보다 돈을 이해합니다

최악의 시나리오와 최선의 시나리오를 함께 제시하세요
비교 대상(baseline)을 명확히 하세요. "개선"이 아닌 "얼마나 개선"인지가 중요합니다

6. 이탈 방지 전략 제안

분석은 끝났고, 이제 행동할 차례입니다. 김개발 씨는 마케팅팀, 고객서비스팀과 함께 이탈 방지 전략을 수립하기 위한 회의에 참석했습니다.

데이터가 알려준 인사이트를 실제 비즈니스 액션으로 연결하는 가장 중요한 단계입니다.

이탈 방지 전략은 분석 결과를 바탕으로 고객이 떠나지 않도록 유도하는 구체적인 액션 플랜입니다. 마치 의사가 진단 결과를 바탕으로 치료 계획을 세우는 것과 같습니다.

데이터 분석의 최종 목표는 예측 그 자체가 아니라, 예측을 통해 비즈니스 성과를 개선하는 것입니다.

다음 코드를 살펴봅시다.

# 고위험 고객 대상 개인화 전략 수립
def create_retention_strategy(customer_data):
    strategies = []

    # 계약 유형별 전략
    if customer_data['Contract'] == 'Month-to-month':
        strategies.append({
            'action': '장기계약 전환 제안',
            'offer': '12개월 계약 시 2개월 무료',
            'priority': 'high'
        })

    # 결제 방식별 전략
    if customer_data['PaymentMethod'] == 'Electronic check':
        strategies.append({
            'action': '자동결제 전환 유도',
            'offer': '자동결제 전환 시 월 5% 할인',
            'priority': 'medium'
        })

    # 서비스 이용 패턴별 전략
    if customer_data['TechSupport'] == 'No':
        strategies.append({
            'action': '기술지원 서비스 제공',
            'offer': '3개월 무료 기술지원',
            'priority': 'medium'
        })

    return strategies

# 고위험 고객에게 전략 적용
high_risk_df = df_test[df_test['risk_level'] == '고위험']
print(f"=== 고위험 고객 {len(high_risk_df)}명 대상 전략 ===")

# 전략별 대상 고객 수 집계
print("\n[권장 액션 요약]")
print(f"장기계약 전환 대상: 월별 계약 고객 수")
print(f"자동결제 전환 대상: 전자수표 결제 고객 수")
print(f"기술지원 제공 대상: 미이용 고객 수")

회의실에 마케팅팀 이과장, 고객서비스팀 최대리가 함께했습니다. 김개발 씨가 분석 결과를 공유하자, 이과장이 물었습니다.

"그래서 우리가 뭘 하면 되죠?" 김개발 씨는 세 가지 핵심 전략을 제안했습니다. 첫 번째, 장기 계약 전환 유도입니다.

분석 결과, 월별 계약 고객의 이탈률이 42%로 압도적으로 높았습니다. 반면 2년 계약 고객은 3%에 불과했습니다.

월별 계약 고객에게 "12개월 계약 시 2개월 무료" 같은 인센티브를 제공하면 효과적일 것입니다. 최대리가 고개를 끄덕였습니다.

"고객센터에 전화가 많이 오는 고객 중 장기 계약 제안을 해볼 수 있겠네요." 두 번째, 결제 방식 개선입니다. 전자 수표 결제 고객의 이탈률이 높은 것으로 나타났습니다.

매달 능동적으로 결제해야 하는 번거로움이 이탈을 유발하는 것으로 추정됩니다. 자동결제로 전환하면 5% 할인을 제공하는 프로모션을 진행할 수 있습니다.

세 번째, 부가 서비스 번들링입니다. 기술지원 서비스를 이용하지 않는 고객의 이탈률이 높았습니다.

이들에게 3개월 무료 기술지원을 제공하면 서비스 만족도를 높이고 이탈을 줄일 수 있습니다. 코드에서 create_retention_strategy 함수는 각 고객의 특성에 따라 맞춤형 전략을 추천합니다.

이렇게 하면 모든 고객에게 동일한 메시지를 보내는 것이 아니라, 개인화된 접근이 가능합니다. 이과장이 제안했습니다.

"고위험 고객 리스트를 매주 받아서, CRM 시스템에 연동하면 좋겠어요. 자동으로 담당자에게 알림이 가도록요." 바로 그것입니다.

모델을 **운영화(Productionization)**하는 것입니다. 일회성 분석이 아니라, 지속적으로 예측하고 대응하는 시스템을 구축해야 합니다.

박시니어 씨가 마지막으로 조언했습니다. "그리고 반드시 성과 측정을 해야 해요.

전략을 실행한 후 실제로 이탈률이 줄어들었는지 추적하고, 모델도 주기적으로 재학습시켜야 합니다." 김개발 씨는 뿌듯했습니다. 처음에는 그저 데이터 분석이었지만, 이제는 회사의 비즈니스에 실질적인 기여를 하게 되었습니다.

이것이 바로 데이터 사이언스의 가치입니다.

실전 팁

💡 - A/B 테스트로 전략의 효과를 검증하세요

모델을 주기적으로 재학습시켜 성능 저하를 방지하세요
현업 담당자와 긴밀히 협업하여 실행 가능한 전략을 수립하세요

이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

#Python#XGBoost#SMOTE#CustomerChurn#DataAnalysis#Machine Learning,Python

고객 이탈 예측 분석 완벽 가이드

# 고객 이탈 예측 분석 완벽 가이드 머신러닝을 활용하여 고객 이탈을 예측하고 비즈니스 인사이트를 도출하는 방법을 배웁니다. 데이터 탐색부터 XGBoost 모델링, 이탈 방지 전략까지 실무에서 바로 적용할 수 있는 내용을 다룹니다. --- ## 목차 1. [고객 이탈 데이터 탐색](#고객-이탈-데이터-탐색) 2. [불균형 데이터 처리 (SMOTE)](#불균형-데이터-처리-(smote)) 3. [중요 특성 분석](#중요-특성-분석) 4. [XGBoost 분류 모델](#xgboost-분류-모델) 5. [비즈니스 인사이트 도출](#비즈니스-인사이트-도출) 6. [이탈 방지 전략 제안](#이탈-방지-전략-제안) --- ## 1. 고객 이탈 데이터 탐색 김개발 씨는 이커머스 회사에 입사한 지 6개월 된 데이터 분석가입니다. 어느 날 팀장님이 심각한 표정으로 다가왔습니다. "우리 고객 중 30%가 최근 3개월 사이에 이탈했어요. 왜 떠나는지, 누가 떠날지 예측할 수 있을까요?" **고객 이탈 데이터 탐색**은 고객이 왜 서비스를 떠나는지 이해하기 위한 첫 번째 단계입니다. 마치 의사가 환자를 진료하기 전에 기본 검사를 하는 것처럼, 데이터의 구조와 특성을 먼저 파악해야 합니다. 이 과정을 통해 어떤 변수가 이탈과 관련이 있는지 힌트를 얻을 수 있습니다. 다음 코드를 살펴봅시다. ```python import pandas as pd import matplotlib.pyplot as plt # 고객 데이터 불러오기 df = pd.read_csv('customer_churn.csv') # 데이터 기본 정보 확인 print(f"전체 고객 수: {len(df)}") print(f"이탈 고객 비율: {df['Churn'].mean() * 100:.1f}%") # 주요 컬럼별 이탈률 분석 churn_by_contract = df.groupby('Contract')['Churn'].mean() print("\n계약 유형별 이탈률:") print(churn_by_contract) # 수치형 변수와 이탈 관계 시각화 df.groupby('Churn')['MonthlyCharges'].mean().plot(kind='bar') plt.title('이탈 여부에 따른 월 요금 평균') plt.show() ``` 김개발 씨는 팀장님의 요청을 받고 가장 먼저 데이터를 열어보았습니다. 7,000명이 넘는 고객 데이터가 눈앞에 펼쳐졌습니다. 성별, 나이, 가입 기간, 월 요금, 사용 서비스 종류 등 수십 개의 컬럼이 있었습니다. "어디서부터 시작해야 할까?" 김개발 씨가 혼잣말을 하자, 옆자리의 박시니어 씨가 말했습니다. "데이터 분석의 첫 단계는 항상 **탐색적 데이터 분석**, 줄여서 **EDA**예요. 데이터를 눈으로 직접 확인하는 거죠." 그렇다면 EDA란 정확히 무엇일까요? 쉽게 비유하자면, EDA는 마치 새로운 동네에 이사 왔을 때 동네를 산책하며 둘러보는 것과 같습니다. 슈퍼마켓이 어디 있는지, 공원은 얼마나 가까운지, 어떤 식당들이 있는지 파악하는 과정입니다. 데이터도 마찬가지로 어떤 변수들이 있는지, 결측치는 없는지, 이상한 값은 없는지 먼저 살펴봐야 합니다. 김개발 씨는 먼저 **이탈률**을 계산해보았습니다. 전체 고객 중 약 26%가 이탈한 것으로 나타났습니다. "4명 중 1명이 떠났다니..." 생각보다 심각한 수치였습니다. 다음으로 **계약 유형별 이탈률**을 분석했습니다. 월별 계약 고객의 이탈률은 42%나 되었지만, 2년 계약 고객은 고작 3%에 불과했습니다. 박시니어 씨가 고개를 끄덕이며 말했습니다. "장기 계약이 이탈 방지에 효과적이라는 힌트네요." **월 요금**도 흥미로운 패턴을 보여주었습니다. 이탈한 고객의 평균 월 요금은 74달러였고, 유지된 고객은 61달러였습니다. 비용에 민감한 고객들이 더 많이 떠나는 것일까요? 코드를 자세히 살펴보겠습니다. `pd.read_csv()`로 데이터를 불러온 후, `df['Churn'].mean()`으로 이탈률을 계산합니다. Churn 컬럼이 0과 1로 이루어져 있다면, 평균값이 곧 이탈 비율이 됩니다. `groupby()` 함수는 특정 기준으로 데이터를 묶어주는 강력한 도구입니다. 계약 유형별로 묶은 후 이탈률을 계산하면, 어떤 계약 유형이 위험한지 한눈에 파악할 수 있습니다. 실무에서는 이 단계에서 **가설**을 세우게 됩니다. "월별 계약 고객은 이탈 위험이 높다", "높은 요금을 내는 고객이 더 많이 떠난다" 같은 가설을요. 이 가설들은 이후 분석에서 검증하게 됩니다. 주의할 점이 있습니다. EDA 단계에서 발견한 패턴이 반드시 **인과관계**를 의미하지는 않습니다. 높은 요금과 이탈 사이에 상관관계가 있다고 해서, 요금을 낮추면 이탈이 줄어든다고 단정 지을 수는 없습니다. 다른 요인이 숨어 있을 수 있기 때문입니다. 김개발 씨는 데이터 탐색을 마치고 중요한 인사이트를 얻었습니다. 이제 본격적인 분석을 시작할 준비가 되었습니다. **실전 팁** 💡 - 분석 전에 항상 결측치와 이상치를 확인하세요 - 시각화를 적극 활용하면 패턴을 더 쉽게 발견할 수 있습니다 - 도메인 지식을 가진 현업 담당자와 대화하면 더 깊은 인사이트를 얻을 수 있습니다 --- ## 2. 불균형 데이터 처리 (SMOTE) 김개발 씨가 머신러닝 모델을 돌려보았습니다. 정확도가 무려 95%! 하지만 박시니어 씨는 고개를 저었습니다. "그 모델, 이탈 고객은 거의 못 맞추고 있을 거예요. 데이터가 불균형하거든요." **불균형 데이터**란 특정 클래스가 다른 클래스보다 훨씬 많은 경우를 말합니다. 고객 이탈 데이터에서는 대부분이 유지 고객이고 이탈 고객은 소수입니다. **SMOTE**는 소수 클래스의 샘플을 인공적으로 생성하여 이 불균형을 해소하는 기법입니다. 마치 축구 경기에서 인원이 부족한 팀에 선수를 보충해주는 것과 같습니다. 다음 코드를 살펴봅시다. ```python from imblearn.over_sampling import SMOTE from sklearn.model_selection import train_test_split from collections import Counter # 특성과 타겟 분리 X = df.drop('Churn', axis=1) y = df['Churn'] # 학습/테스트 데이터 분리 X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=42, stratify=y ) # SMOTE 적용 전 클래스 분포 확인 print(f"SMOTE 적용 전: {Counter(y_train)}") # SMOTE로 오버샘플링 smote = SMOTE(random_state=42) X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train) # SMOTE 적용 후 클래스 분포 확인 print(f"SMOTE 적용 후: {Counter(y_train_balanced)}") ``` 박시니어 씨의 말에 김개발 씨는 혼란스러웠습니다. "95% 정확도가 좋은 게 아니라고요?" 박시니어 씨가 차근차근 설명을 시작했습니다. "전체 고객 중 이탈 고객이 26%라고 했잖아요. 만약 모델이 그냥 모든 고객을 '유지'라고 예측해버리면요?" 김개발 씨가 계산해보았습니다. "74%는 맞추겠네요... 아, 그런데 정작 찾아야 할 이탈 고객은 하나도 못 찾는 거잖아요!" 바로 이것이 **불균형 데이터의 함정**입니다. 다수 클래스만 맞추면 정확도는 높게 나오지만, 정작 중요한 소수 클래스는 놓치게 됩니다. 비유를 들어보겠습니다. 공항 보안검색대를 생각해보세요. 수천 명의 승객 중 위험물을 소지한 사람은 극소수입니다. 만약 보안검색 시스템이 "모두 안전"이라고만 판단한다면 정확도는 99.9%가 되겠지만, 정작 잡아야 할 위험인물은 통과시키게 됩니다. 이탈 예측도 마찬가지입니다. **SMOTE**는 Synthetic Minority Over-sampling Technique의 약자입니다. 이름 그대로 소수 클래스의 합성 샘플을 만들어내는 기술입니다. SMOTE의 작동 원리는 이렇습니다. 소수 클래스의 데이터 포인트를 하나 선택합니다. 그리고 그 점의 **k개 최근접 이웃**을 찾습니다. 선택한 점과 이웃 사이의 어딘가에 새로운 점을 생성합니다. 마치 두 점 사이에 새로운 점을 그려 넣는 것과 같습니다. 코드를 살펴보면, 먼저 `train_test_split`으로 데이터를 나눕니다. 이때 `stratify=y` 옵션이 중요합니다. 이 옵션을 주면 학습 데이터와 테스트 데이터에서 이탈 비율이 동일하게 유지됩니다. SMOTE는 반드시 **학습 데이터에만** 적용해야 합니다. 테스트 데이터에 적용하면 모델 성능을 과대평가하게 되는 **데이터 누수** 문제가 발생합니다. 이건 정말 중요한 포인트입니다. `Counter`로 클래스 분포를 확인해보면, SMOTE 적용 전에는 유지 고객이 4,000명, 이탈 고객이 1,400명 정도였다면, SMOTE 적용 후에는 둘 다 4,000명으로 균형이 맞춰집니다. 실무에서는 SMOTE 외에도 여러 대안이 있습니다. **언더샘플링**은 다수 클래스의 샘플을 줄이는 방식이고, **클래스 가중치** 조정은 손실 함수에서 소수 클래스의 오류에 더 큰 페널티를 부여하는 방식입니다. 박시니어 씨가 마지막으로 조언했습니다. "SMOTE가 만능은 아니에요. 데이터 특성에 따라 다른 방법이 더 효과적일 수도 있으니, 여러 방법을 실험해보세요." **실전 팁** 💡 - SMOTE는 반드시 학습 데이터에만 적용하세요 - 정확도 대신 F1-score, AUC-ROC 같은 지표로 평가하세요 - SMOTE-ENN, BorderlineSMOTE 등 변형 기법도 시도해보세요 --- ## 3. 중요 특성 분석 SMOTE를 적용한 후 모델 성능이 눈에 띄게 좋아졌습니다. 하지만 팀장님이 또 질문을 던졌습니다. "그래서 고객이 왜 떠나는 건데요? 원인을 알아야 대책을 세우죠." 김개발 씨는 다음 단계로 **특성 중요도 분석**을 시작했습니다. **특성 중요도 분석**은 어떤 변수가 예측에 가장 큰 영향을 미치는지 파악하는 과정입니다. 마치 범인을 찾는 형사가 가장 결정적인 단서를 추려내는 것과 같습니다. 이 분석을 통해 이탈을 유발하는 핵심 요인을 발견할 수 있고, 비즈니스 의사결정에 직접적인 도움을 얻을 수 있습니다. 다음 코드를 살펴봅시다. ```python from sklearn.ensemble import RandomForestClassifier import numpy as np # 랜덤 포레스트로 특성 중요도 계산 rf_model = RandomForestClassifier(n_estimators=100, random_state=42) rf_model.fit(X_train_balanced, y_train_balanced) # 특성 중요도 추출 및 정렬 feature_importance = pd.DataFrame({ 'feature': X_train.columns, 'importance': rf_model.feature_importances_ }).sort_values('importance', ascending=False) # 상위 10개 특성 출력 print("=== 이탈 예측 주요 특성 TOP 10 ===") for idx, row in feature_importance.head(10).iterrows(): print(f"{row['feature']}: {row['importance']:.4f}") # 시각화 feature_importance.head(10).plot( x='feature', y='importance', kind='barh', figsize=(10, 6) ) plt.title('특성 중요도 (Feature Importance)') plt.show() ``` "모델이 블랙박스면 안 돼요." 박시니어 씨가 강조했습니다. "아무리 예측을 잘해도, 왜 그런 예측을 하는지 설명할 수 없으면 현업에서 받아들이지 않아요." 김개발 씨도 공감했습니다. 팀장님은 숫자보다 **스토리**를 원했습니다. "이런 특성을 가진 고객이 이탈할 확률이 높습니다"라고 말해줘야 실제로 조치를 취할 수 있으니까요. **특성 중요도**란 무엇일까요? 쉽게 말해, 각 변수가 예측에 얼마나 기여하는지를 수치화한 것입니다. 중요도가 높은 변수일수록 이탈 여부를 판단하는 데 결정적인 역할을 합니다. 비유하자면, 의사가 환자를 진단할 때 수십 가지 검사 결과를 보지만, 특정 질병을 판단하는 데는 몇 가지 핵심 지표가 결정적입니다. 당뇨병 진단에는 혈당 수치가, 빈혈 진단에는 헤모글로빈 수치가 가장 중요하듯이요. 랜덤 포레스트 모델은 특성 중요도를 자연스럽게 계산해줍니다. 여러 결정 트리를 만들면서 각 특성이 분류에 얼마나 기여했는지 측정하기 때문입니다. 코드에서 `rf_model.feature_importances_`가 바로 이 중요도 배열입니다. 이를 데이터프레임으로 정리하고 정렬하면, 어떤 특성이 가장 중요한지 순위를 매길 수 있습니다. 김개발 씨가 분석 결과를 보았습니다. 상위 특성들이 나열되었습니다. **계약 기간**, **월 요금**, **인터넷 서비스 종류**, **결제 방식** 등이 상위권에 올라 있었습니다. 특히 눈에 띄는 것은 **계약 기간(tenure)**이었습니다. 가입 기간이 짧은 고객일수록 이탈 확률이 높았습니다. 이건 어느 정도 예상된 결과였습니다. 서비스에 대한 충성도가 쌓이기 전에 떠나는 것이니까요. **월 요금**도 중요한 특성이었습니다. 탐색 단계에서 발견한 패턴과 일치했습니다. 요금이 높을수록 이탈 위험이 커지는 경향이 있었습니다. 흥미로운 것은 **결제 방식**이었습니다. 전자 수표(Electronic Check)로 결제하는 고객의 이탈률이 유독 높았습니다. 왜일까요? 박시니어 씨가 추측을 던졌습니다. "자동이체나 카드 결제보다 전자 수표는 매달 능동적으로 결제해야 하잖아요. 그 과정에서 서비스를 다시 생각하게 되는 거 아닐까요?" 주의할 점이 있습니다. 특성 중요도는 **상관관계**를 보여줄 뿐, **인과관계**를 증명하지는 않습니다. 결제 방식을 바꾼다고 이탈이 줄어든다는 보장은 없습니다. 추가 분석과 실험이 필요합니다. **실전 팁** 💡 - 특성 중요도는 모델마다 계산 방식이 다르니 여러 모델로 교차 검증하세요 - SHAP 분석을 추가하면 더 정교한 해석이 가능합니다 - 중요 특성이 비즈니스 관점에서 조치 가능한지 항상 확인하세요 --- ## 4. XGBoost 분류 모델 특성 분석까지 마친 김개발 씨. 이제 본격적으로 예측 모델을 만들 차례입니다. 박시니어 씨가 추천한 것은 바로 **XGBoost**. "캐글 대회 우승자들이 가장 많이 쓰는 알고리즘이에요. 성능도 좋고 해석도 쉽죠." **XGBoost**는 Extreme Gradient Boosting의 약자로, 여러 개의 약한 학습기를 순차적으로 결합하여 강력한 예측 모델을 만드는 알고리즘입니다. 마치 여러 명의 전문가가 순서대로 의견을 수정해가며 최종 결론에 도달하는 것과 같습니다. 빠른 학습 속도와 뛰어난 성능으로 정형 데이터 분석에서 가장 널리 사용됩니다. 다음 코드를 살펴봅시다. ```python from xgboost import XGBClassifier from sklearn.metrics import classification_report, roc_auc_score # XGBoost 모델 생성 및 학습 xgb_model = XGBClassifier( n_estimators=200, max_depth=5, learning_rate=0.1, scale_pos_weight=3, # 클래스 불균형 보정 random_state=42 ) xgb_model.fit(X_train_balanced, y_train_balanced) # 예측 및 평가 y_pred = xgb_model.predict(X_test) y_pred_proba = xgb_model.predict_proba(X_test)[:, 1] # 분류 성능 리포트 print("=== 분류 성능 리포트 ===") print(classification_report(y_test, y_pred, target_names=['유지', '이탈'])) # AUC-ROC 점수 auc_score = roc_auc_score(y_test, y_pred_proba) print(f"\nAUC-ROC Score: {auc_score:.4f}") ``` "Gradient Boosting이 뭔가요?" 김개발 씨가 물었습니다. 박시니어 씨는 화이트보드에 그림을 그리기 시작했습니다. "학교에서 시험을 본다고 생각해봐요. 첫 번째 선생님이 채점을 합니다. 그런데 몇 문제는 애매해서 틀렸어요. 두 번째 선생님은 첫 번째 선생님이 틀린 부분만 집중해서 다시 채점해요. 세 번째 선생님은 두 번째 선생님이 놓친 부분을 보완하고요." 김개발 씨가 이해했다는 표정을 지었습니다. "아, 이전 모델의 실수를 다음 모델이 보완하는 거군요!" 맞습니다. **Gradient Boosting**은 이전 모델이 잘못 예측한 부분에 가중치를 두어, 다음 모델이 그 부분을 집중적으로 학습하는 방식입니다. 이 과정을 수백 번 반복하면 매우 정교한 예측이 가능해집니다. **XGBoost**는 이 Gradient Boosting을 극도로 최적화한 버전입니다. 병렬 처리, 정규화, 결측치 자동 처리 등 여러 개선이 추가되어 빠르고 안정적입니다. 코드에서 주요 하이퍼파라미터를 살펴보겠습니다. `n_estimators=200`은 200개의 트리를 만들겠다는 의미입니다. `max_depth=5`는 각 트리의 최대 깊이를 제한합니다. 너무 깊으면 과적합될 수 있으니까요. `learning_rate=0.1`은 각 트리가 전체 예측에 기여하는 비율입니다. 학습률이 낮으면 더 많은 트리가 필요하지만, 일반화 성능은 좋아지는 경향이 있습니다. 특히 `scale_pos_weight=3`은 중요합니다. 이 파라미터는 양성 클래스(이탈)에 가중치를 부여하여 불균형을 보정합니다. SMOTE와 함께 사용하면 더욱 효과적입니다. 모델 평가에서 **classification_report**는 정밀도, 재현율, F1-score를 한눈에 보여줍니다. 이탈 예측에서는 특히 **재현율(Recall)**이 중요합니다. 실제 이탈 고객 중 몇 명을 잡아냈는지를 나타내기 때문입니다. **AUC-ROC**는 모델의 전반적인 분류 성능을 0과 1 사이 값으로 나타냅니다. 0.5면 랜덤 추측 수준이고, 1에 가까울수록 완벽한 분류입니다. 보통 0.8 이상이면 좋은 모델로 평가받습니다. 김개발 씨의 모델은 AUC 0.85를 달성했습니다. 이탈 고객의 재현율은 78%로, 실제 이탈 고객 10명 중 약 8명을 사전에 식별할 수 있다는 의미입니다. **실전 팁** 💡 - GridSearchCV나 Optuna로 하이퍼파라미터 튜닝을 하면 성능이 더 향상됩니다 - early_stopping_rounds를 설정하면 과적합을 방지할 수 있습니다 - 모델 저장은 joblib이나 pickle을 사용하세요 --- ## 5. 비즈니스 인사이트 도출 모델이 완성되었습니다. 하지만 팀장님 앞에서 "AUC가 0.85입니다"라고 말해봤자 통하지 않습니다. 김개발 씨는 분석 결과를 **비즈니스 언어**로 번역해야 했습니다. "숫자를 이야기로 바꾸는 거예요." 박시니어 씨가 조언했습니다. **비즈니스 인사이트 도출**은 데이터 분석 결과를 경영진이 이해할 수 있는 언어로 변환하는 과정입니다. 마치 통역사가 외국어를 모국어로 바꿔주듯이, 기술적인 지표를 비용, 매출, 고객 수 같은 비즈니스 언어로 표현해야 합니다. 이 과정 없이는 아무리 좋은 모델도 사장되고 맙니다. 다음 코드를 살펴봅시다. ```python # 이탈 확률별 고객 세그먼트 분류 df_test = X_test.copy() df_test['churn_probability'] = y_pred_proba df_test['actual_churn'] = y_test.values # 위험 등급 분류 def risk_segment(prob): if prob >= 0.7: return '고위험' elif prob >= 0.4: return '중위험' else: return '저위험' df_test['risk_level'] = df_test['churn_probability'].apply(risk_segment) # 세그먼트별 고객 수와 예상 이탈률 segment_analysis = df_test.groupby('risk_level').agg({ 'churn_probability': ['count', 'mean'], 'actual_churn': 'mean' }).round(3) print("=== 위험 등급별 고객 분석 ===") print(segment_analysis) # 비용 분석 (예시: 고객당 연간 가치 $500, 유지 캠페인 비용 $50) high_risk_customers = len(df_test[df_test['risk_level'] == '고위험']) potential_loss = high_risk_customers * 500 campaign_cost = high_risk_customers * 50 print(f"\n고위험 고객 수: {high_risk_customers}명") print(f"잠재적 손실: ${potential_loss:,}") print(f"캠페인 투자 시 예상 비용: ${campaign_cost:,}") ``` 팀장님과의 미팅이 잡혔습니다. 김개발 씨는 발표 자료를 준비하며 고민에 빠졌습니다. "Precision이 0.72고, Recall이 0.78입니다"라고 말하면 팀장님이 이해하실까요? 박시니어 씨가 핵심을 짚어주었습니다. "팀장님이 궁금한 건 세 가지예요. 첫째, 얼마나 많은 고객이 떠날 것인가? 둘째, 그로 인해 얼마를 잃을 것인가? 셋째, 어떻게 막을 수 있는가?" 김개발 씨는 접근 방식을 바꿨습니다. 먼저 고객을 **위험 등급**으로 나누기로 했습니다. 이탈 확률 70% 이상은 고위험, 40~70%는 중위험, 40% 미만은 저위험으로 분류했습니다. 코드에서 `risk_segment` 함수가 이 분류를 담당합니다. 예측 확률에 따라 레이블을 붙이면, 경영진도 이해하기 쉬운 세그먼트가 만들어집니다. 분석 결과, 고위험 고객이 전체의 15%를 차지했습니다. 이 고객들의 실제 이탈률은 82%에 달했습니다. 모델이 잘 작동하고 있다는 증거입니다. 다음으로 **금전적 가치**를 계산했습니다. 가정을 세웠습니다. 고객 한 명의 연간 가치(LTV)가 500달러라면, 고위험 고객 200명이 모두 떠날 경우 연간 10만 달러의 손실입니다. 반면, 이탈 방지 캠페인에 고객당 50달러를 투자한다면? 총 1만 달러의 비용이 듭니다. 캠페인으로 이탈률을 절반만 줄여도 5만 달러를 지킬 수 있습니다. **ROI**는 5배입니다. 김개발 씨는 발표 슬라이드를 이렇게 정리했습니다. "현재 200명의 고위험 고객이 있습니다. 아무 조치를 취하지 않으면 82%인 164명이 이탈하여 연간 82,000달러를 잃게 됩니다. 1만 달러의 캠페인 투자로 이탈률을 절반으로 줄이면 41,000달러를 지킬 수 있습니다." 팀장님이 고개를 끄덕였습니다. "좋아요. 그럼 구체적으로 어떤 캠페인을 해야 하죠?" 이것이 바로 다음 단계입니다. 인사이트를 **액션**으로 연결하는 것. 김개발 씨는 이탈 방지 전략을 수립하기 시작했습니다. **실전 팁** 💡 - 항상 금액으로 환산하세요. 경영진은 숫자보다 돈을 이해합니다 - 최악의 시나리오와 최선의 시나리오를 함께 제시하세요 - 비교 대상(baseline)을 명확히 하세요. "개선"이 아닌 "얼마나 개선"인지가 중요합니다 --- ## 6. 이탈 방지 전략 제안 분석은 끝났고, 이제 **행동**할 차례입니다. 김개발 씨는 마케팅팀, 고객서비스팀과 함께 이탈 방지 전략을 수립하기 위한 회의에 참석했습니다. 데이터가 알려준 인사이트를 실제 비즈니스 액션으로 연결하는 가장 중요한 단계입니다. **이탈 방지 전략**은 분석 결과를 바탕으로 고객이 떠나지 않도록 유도하는 구체적인 액션 플랜입니다. 마치 의사가 진단 결과를 바탕으로 치료 계획을 세우는 것과 같습니다. 데이터 분석의 최종 목표는 예측 그 자체가 아니라, 예측을 통해 비즈니스 성과를 개선하는 것입니다. 다음 코드를 살펴봅시다. ```python # 고위험 고객 대상 개인화 전략 수립 def create_retention_strategy(customer_data): strategies = [] # 계약 유형별 전략 if customer_data['Contract'] == 'Month-to-month': strategies.append({ 'action': '장기계약 전환 제안', 'offer': '12개월 계약 시 2개월 무료', 'priority': 'high' }) # 결제 방식별 전략 if customer_data['PaymentMethod'] == 'Electronic check': strategies.append({ 'action': '자동결제 전환 유도', 'offer': '자동결제 전환 시 월 5% 할인', 'priority': 'medium' }) # 서비스 이용 패턴별 전략 if customer_data['TechSupport'] == 'No': strategies.append({ 'action': '기술지원 서비스 제공', 'offer': '3개월 무료 기술지원', 'priority': 'medium' }) return strategies # 고위험 고객에게 전략 적용 high_risk_df = df_test[df_test['risk_level'] == '고위험'] print(f"=== 고위험 고객 {len(high_risk_df)}명 대상 전략 ===") # 전략별 대상 고객 수 집계 print("\n[권장 액션 요약]") print(f"장기계약 전환 대상: 월별 계약 고객 수") print(f"자동결제 전환 대상: 전자수표 결제 고객 수") print(f"기술지원 제공 대상: 미이용 고객 수") ``` 회의실에 마케팅팀 이과장, 고객서비스팀 최대리가 함께했습니다. 김개발 씨가 분석 결과를 공유하자, 이과장이 물었습니다. "그래서 우리가 뭘 하면 되죠?" 김개발 씨는 세 가지 핵심 전략을 제안했습니다. 첫 번째, **장기 계약 전환 유도**입니다. 분석 결과, 월별 계약 고객의 이탈률이 42%로 압도적으로 높았습니다. 반면 2년 계약 고객은 3%에 불과했습니다. 월별 계약 고객에게 "12개월 계약 시 2개월 무료" 같은 인센티브를 제공하면 효과적일 것입니다. 최대리가 고개를 끄덕였습니다. "고객센터에 전화가 많이 오는 고객 중 장기 계약 제안을 해볼 수 있겠네요." 두 번째, **결제 방식 개선**입니다. 전자 수표 결제 고객의 이탈률이 높은 것으로 나타났습니다. 매달 능동적으로 결제해야 하는 번거로움이 이탈을 유발하는 것으로 추정됩니다. 자동결제로 전환하면 5% 할인을 제공하는 프로모션을 진행할 수 있습니다. 세 번째, **부가 서비스 번들링**입니다. 기술지원 서비스를 이용하지 않는 고객의 이탈률이 높았습니다. 이들에게 3개월 무료 기술지원을 제공하면 서비스 만족도를 높이고 이탈을 줄일 수 있습니다. 코드에서 `create_retention_strategy` 함수는 각 고객의 특성에 따라 맞춤형 전략을 추천합니다. 이렇게 하면 모든 고객에게 동일한 메시지를 보내는 것이 아니라, 개인화된 접근이 가능합니다. 이과장이 제안했습니다. "고위험 고객 리스트를 매주 받아서, CRM 시스템에 연동하면 좋겠어요. 자동으로 담당자에게 알림이 가도록요." 바로 그것입니다. 모델을 **운영화(Productionization)**하는 것입니다. 일회성 분석이 아니라, 지속적으로 예측하고 대응하는 시스템을 구축해야 합니다. 박시니어 씨가 마지막으로 조언했습니다. "그리고 반드시 **성과 측정**을 해야 해요. 전략을 실행한 후 실제로 이탈률이 줄어들었는지 추적하고, 모델도 주기적으로 재학습시켜야 합니다." 김개발 씨는 뿌듯했습니다. 처음에는 그저 데이터 분석이었지만, 이제는 회사의 비즈니스에 실질적인 기여를 하게 되었습니다. 이것이 바로 데이터 사이언스의 가치입니다. **실전 팁** 💡 - A/B 테스트로 전략의 효과를 검증하세요 - 모델을 주기적으로 재학습시켜 성능 저하를 방지하세요 - 현업 담당자와 긴밀히 협업하여 실행 가능한 전략을 수립하세요 --- 이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

카테고리: Machine Learning,Python

언어: Python

태그: Python, XGBoost, SMOTE, CustomerChurn, DataAnalysis, Machine Learning,Python

작성자: AI Generated

프리미엄 콘텐츠 - 3개월 무료 체험 가능

CodeDeck

고객 이탈 예측 분석 완벽 가이드

목차

1. 고객 이탈 데이터 탐색

2. 불균형 데이터 처리 (SMOTE)

3. 중요 특성 분석

4. XGBoost 분류 모델

5. 비즈니스 인사이트 도출

6. 이탈 방지 전략 제안

이 카드뉴스가 포함된 코스

Scikit-learn 실무 예제 완전 정복

댓글 (0)

함께 보면 좋은 카드 뉴스

vLLM 통합 완벽 가이드

Web UI Demo 구축 완벽 가이드

Sandboxing & Execution Control 완벽 가이드

Voice Design then Clone 워크플로우 완벽 가이드

Tool Use 완벽 가이드 - Shell, Browser, DB 실전 활용