쇼핑몰 고객 세분화 분석 완벽 가이드

쇼핑몰의 고객 데이터를 K-Means 클러스터링으로 분석하여 의미있는 고객 그룹을 찾아내는 과정을 배웁니다. 데이터 전처리부터 마케팅 전략 수립까지 실무에서 바로 활용할 수 있는 완벽한 프로젝트입니다.

1. 고객 데이터셋 소개

어느 날 데이터 분석팀에 배치된 신입 분석가 김데이터 씨는 팀장님으로부터 첫 미션을 받았습니다. "우리 쇼핑몰 고객들을 몇 개 그룹으로 나눠서 각 그룹별로 맞춤 마케팅을 하고 싶은데, 데이터 분석으로 가능할까요?" 막막했지만, 선배 분석가 박머신 씨가 "고객 세분화 분석을 해보면 되요"라고 알려줬습니다.

고객 세분화 분석은 수많은 고객들을 구매 패턴이나 특성에 따라 몇 개의 의미있는 그룹으로 나누는 작업입니다. 마치 도서관 사서가 수천 권의 책을 장르별로 분류하는 것처럼, 고객들을 비슷한 특성끼리 묶어내는 것입니다.

이를 통해 각 그룹에 최적화된 마케팅 전략을 수립할 수 있습니다.

다음 코드를 살펴봅시다.

import pandas as pd
import numpy as np

# 쇼핑몰 고객 데이터 로드
# CustomerID: 고객 ID
# Annual_Income: 연간 수입 (천 달러)
# Spending_Score: 지출 점수 (1-100)
df = pd.read_csv('mall_customers.csv')

# 데이터 기본 정보 확인
print(df.head())
print(df.info())
print(df.describe())

# 결측치 확인 - 분석 전 필수 단계
print(df.isnull().sum())

김데이터 씨는 회사 데이터베이스에서 받은 고객 데이터 파일을 열어봤습니다. 엑셀 파일에는 200명의 고객 정보가 빽빽하게 들어있었습니다.

이름, 나이, 성별은 물론이고 연간 수입과 지출 점수라는 항목도 보였습니다. "이 데이터로 정말 고객을 분류할 수 있을까?" 의구심이 들었지만, 박머신 선배는 자신 있게 말했습니다.

"충분해요. 오히려 너무 많은 정보는 분석을 복잡하게 만들죠." 고객 세분화 분석이란 무엇일까요?

쉽게 비유하자면, 마치 과일 가게 주인이 과일을 분류하는 것과 같습니다. 사과는 사과끼리, 바나나는 바나나끼리 모으듯이, 비슷한 특성을 가진 고객들을 하나의 그룹으로 묶는 작업입니다.

다만 과일은 눈으로 쉽게 구분할 수 있지만, 고객의 특성은 숫자 데이터 속에 숨어있어서 머신러닝 알고리즘의 도움이 필요합니다. 왜 이런 분석이 필요할까요?

현대 쇼핑몰은 수천, 수만 명의 고객을 보유하고 있습니다. 모든 고객에게 똑같은 마케팅 메시지를 보내는 것은 비효율적입니다.

고소득층 고객에게 할인 쿠폰을 보내거나, 저지출 고객에게 프리미엄 상품을 광고하는 것은 돈과 시간 낭비입니다. 더 심각한 문제는 고객 이탈입니다.

자신과 맞지 않는 광고를 계속 받는 고객은 결국 서비스를 떠나게 됩니다. 이커머스 시장이 포화 상태인 지금, 신규 고객을 확보하는 비용은 기존 고객을 유지하는 비용의 5배나 됩니다.

바로 이런 문제를 해결하기 위해 데이터 기반 고객 세분화가 필요합니다. 고객 세분화를 하면 각 그룹의 특성을 명확히 파악할 수 있습니다.

예를 들어 "고소득 고지출 그룹"에게는 프리미엄 신상품을, "저소득 고지출 그룹"에게는 가성비 상품을 추천할 수 있습니다. 또한 "고소득 저지출 그룹"은 구매 잠재력이 높은 타겟이므로 특별한 관심이 필요합니다.

오늘 분석할 데이터셋을 살펴보겠습니다. CustomerID는 각 고객을 구분하는 고유 번호입니다.

1번부터 200번까지 할당되어 있습니다. Annual_Income은 고객의 연간 수입을 천 달러 단위로 나타낸 것입니다.

15부터 137까지 다양한 분포를 보입니다. Spending_Score는 쇼핑몰에서 자체적으로 부여한 지출 점수로, 1점부터 100점까지의 범위를 가집니다.

지출 점수는 어떻게 계산될까요? 일반적으로 구매 빈도, 구매 금액, 최근 구매 이력 등을 종합하여 산출합니다.

점수가 높을수록 쇼핑몰에서 많이 소비하는 우수 고객을 의미합니다. 데이터 분석의 첫 단계는 항상 데이터 탐색입니다.

먼저 df.head()로 처음 5행을 출력해서 데이터가 어떻게 생겼는지 확인합니다. 다음으로 df.info()로 각 컬럼의 데이터 타입과 결측치 여부를 파악합니다.

df.describe()는 숫자형 컬럼의 평균, 표준편차, 최솟값, 최댓값 등 기초 통계량을 보여줍니다. 가장 중요한 것은 결측치 확인입니다.

df.isnull().sum()을 실행하면 각 컬럼별로 몇 개의 결측치가 있는지 알 수 있습니다. 결측치가 있으면 분석 결과가 왜곡될 수 있으므로 반드시 처리해야 합니다.

김데이터 씨는 코드를 실행해봤습니다. 다행히 결측치는 하나도 없었습니다.

"깔끔한 데이터네요!" 박머신 선배가 웃으며 말했습니다. "실무에서는 이렇게 깔끔한 데이터는 드물어요.

보통은 전처리에 전체 작업 시간의 70%를 쓴답니다." 이제 데이터의 전체적인 모습을 파악했으니, 본격적으로 클러스터링을 위한 전처리 작업을 시작할 차례입니다. 좋은 분석 결과를 얻으려면 좋은 데이터 준비가 필수입니다.

실전 팁

💡 - 데이터 분석은 항상 탐색적 데이터 분석(EDA)부터 시작합니다

결측치, 이상치, 데이터 타입 오류를 먼저 확인하고 처리해야 합니다
describe()로 나온 통계량을 보고 데이터의 분포와 범위를 파악하세요

2. 데이터 전처리 및 스케일링

박머신 선배가 김데이터 씨의 화면을 들여다보더니 말했습니다. "데이터를 그냥 분석에 넣으면 안 돼요.

수입은 15부터 137까지인데 지출 점수는 1부터 100까지잖아요. 스케일이 다르면 분석 결과가 왜곡됩니다." 김데이터 씨는 고개를 갸우뚱했습니다.

"숫자는 숫자 아닌가요?"

데이터 스케일링은 서로 다른 범위를 가진 변수들을 동일한 척도로 변환하는 작업입니다. 마치 키는 cm로, 몸무게는 kg로 측정하듯 단위가 다른 값들을 비교 가능하게 만드는 것입니다.

특히 거리 기반 알고리즘인 K-Means에서는 스케일링이 필수적입니다.

다음 코드를 살펴봅시다.

from sklearn.preprocessing import StandardScaler

# 분석에 사용할 특성 선택
# CustomerID는 단순 식별자이므로 제외
X = df[['Annual_Income', 'Spending_Score']].values

# StandardScaler로 표준화
# 각 특성의 평균을 0, 표준편차를 1로 변환
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 스케일링 전후 비교
print("원본 데이터 평균:", X.mean(axis=0))
print("스케일링 후 평균:", X_scaled.mean(axis=0))
print("원본 데이터 표준편차:", X.std(axis=0))
print("스케일링 후 표준편차:", X_scaled.std(axis=0))

김데이터 씨는 선배의 말이 이해되지 않았습니다. "숫자가 크든 작든 상관없지 않나요?" 박머신 선배가 종이에 그림을 그리기 시작했습니다.

"예를 들어볼게요. A 고객은 수입이 100, 지출 점수가 50이고, B 고객은 수입이 101, 지출 점수가 70이라고 해봅시다.

두 고객의 유사도를 계산할 때 수입 차이는 1, 지출 점수 차이는 20이죠. 그런데 알고리즘은 이 차이를 단순히 숫자로만 봐요.

수입 차이 1과 지출 점수 차이 20을 동등하게 취급하는 거예요." 김데이터 씨의 눈이 커졌습니다. "아, 그럼 지출 점수의 영향력이 훨씬 크게 작용하겠네요!" 스케일링이란 정확히 무엇일까요?

쉽게 비유하자면, 마치 시험 점수를 백분위로 환산하는 것과 같습니다. 국어 시험은 100점 만점이고 수학 시험은 50점 만점일 때, 단순히 점수를 더하면 국어의 영향이 2배가 됩니다.

그래서 모든 과목을 100점 만점으로 환산한 뒤 평균을 내는 것처럼, 데이터의 척도를 통일하는 것이 스케일링입니다. 왜 스케일링이 필요할까요?

K-Means 클러스터링은 거리 기반 알고리즘입니다. 각 데이터 포인트가 어느 클러스터에 속할지 결정할 때 중심점까지의 유클리드 거리를 계산합니다.

만약 한 변수의 값이 다른 변수보다 훨씬 크다면, 거리 계산에서 그 변수가 지배적인 영향을 미치게 됩니다. 우리 데이터의 경우 연간 수입은 15에서 137 범위를 가지지만, 지출 점수는 1에서 100 범위를 가집니다.

언뜻 비슷해 보이지만 평균과 분산이 다르기 때문에 영향력이 다릅니다. 스케일링 없이 분석하면 연간 수입의 영향이 과도하게 커질 수 있습니다.

StandardScaler는 어떻게 작동할까요? StandardScaler는 각 특성을 표준화합니다.

표준화란 평균을 0, 표준편차를 1로 만드는 변환입니다. 공식은 간단합니다: (원본값 - 평균) / 표준편차.

이렇게 변환하면 모든 특성이 동일한 척도를 갖게 됩니다. 코드를 단계별로 살펴보겠습니다.

먼저 분석에 사용할 특성을 선택합니다. CustomerID는 단순히 고객을 구분하는 번호일 뿐이므로 제외합니다.

Annual_Income과 Spending_Score만 선택하여 numpy 배열로 변환합니다. 다음으로 StandardScaler 객체를 생성합니다.

fit_transform() 메서드는 두 가지 작업을 한 번에 수행합니다. 먼저 데이터로부터 평균과 표준편차를 학습(fit)하고, 그 값을 이용해 데이터를 변환(transform)합니다.

결과를 확인해보면 흥미로운 점을 발견할 수 있습니다. 스케일링 전 데이터의 평균은 각 변수마다 달랐지만, 스케일링 후에는 모두 0에 가까운 값이 됩니다.

표준편차도 모두 1에 가까워집니다. 실제 현업에서는 어떻게 활용할까요?

대부분의 머신러닝 프로젝트에서 스케일링은 필수 단계입니다. 특히 신경망, SVM, K-Means처럼 거리나 기울기를 계산하는 알고리즘에서는 반드시 필요합니다.

반면 의사결정나무 기반 알고리즘(Random Forest, XGBoost)은 스케일링이 필요 없습니다. 주의할 점도 있습니다.

초보 분석가들이 흔히 하는 실수는 테스트 데이터를 따로 스케일링하는 것입니다. 올바른 방법은 훈련 데이터로 scaler를 학습한 뒤, 같은 scaler로 테스트 데이터를 변환하는 것입니다.

그래야 데이터 유출(data leakage)을 방지할 수 있습니다. 김데이터 씨는 코드를 실행하고 결과를 확인했습니다.

평균이 0, 표준편차가 1에 가까운 값이 출력됐습니다. "이제 공정한 경쟁이 가능하겠네요!" 박머신 선배가 엄지를 치켜세웠습니다.

이제 데이터 준비가 완료됐으니, 본격적으로 최적의 클러스터 개수를 찾아볼 차례입니다.

실전 팁

💡 - StandardScaler 외에도 MinMaxScaler(0-1 범위로 변환), RobustScaler(이상치에 강건) 등이 있습니다

fit_transform은 훈련 데이터에만, transform은 테스트 데이터에 사용하세요
스케일링은 원본 데이터를 변경하지 않고 새로운 배열을 반환합니다

3. 최적 클러스터 수 탐색

"자, 이제 고객을 몇 개 그룹으로 나눌까요?" 박머신 선배가 물었습니다. 김데이터 씨는 잠시 고민하다가 "3개요?

고소득, 중소득, 저소득으로요"라고 답했습니다. 선배가 고개를 저었습니다.

"감으로 정하면 안 됩니다. 데이터가 말하게 해야죠.

엘보우 방법을 써봅시다."

엘보우 방법은 K-Means 클러스터링에서 최적의 클러스터 개수를 찾는 대표적인 기법입니다. 마치 팔꿈치처럼 꺾이는 지점을 찾아내는 것으로, 여러 K값에 대해 **관성(inertia)**을 계산하고 그래프가 급격히 완만해지는 지점을 선택합니다.

이 지점이 바로 최적의 클러스터 개수입니다.

다음 코드를 살펴봅시다.

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 다양한 클러스터 개수에 대해 관성 계산
inertias = []
K_range = range(1, 11)

for k in K_range:
    # k개의 클러스터로 K-Means 수행
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans.fit(X_scaled)
    # 관성(클러스터 내 거리 제곱합) 저장
    inertias.append(kmeans.inertia_)

# 엘보우 그래프 그리기
plt.figure(figsize=(10, 6))
plt.plot(K_range, inertias, 'bo-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('Inertia')
plt.title('Elbow Method')
plt.grid(True)
plt.show()

김데이터 씨는 의아했습니다. "클러스터 개수를 직접 정하면 안 되나요?" 박머신 선배가 화이트보드에 그래프를 그리기 시작했습니다.

"만약 고객을 1개 그룹으로 나누면 어떻게 될까요? 모든 고객이 한 덩어리가 되겠죠.

반대로 200개 그룹으로 나누면? 각 고객이 하나의 그룹이 돼요.

둘 다 의미 없는 분류입니다. 우리가 원하는 건 적당히 의미 있는 개수의 그룹이에요." 엘보우 방법이란 무엇일까요?

쉽게 비유하자면, 마치 옷을 살 때 가성비를 따지는 것과 같습니다. 가격이 오를수록 품질도 좋아지지만, 어느 시점부터는 가격 대비 품질 향상폭이 급격히 줄어듭니다.

그 지점이 바로 최적의 구매 포인트입니다. 클러스터링도 마찬가지로, 클러스터 개수를 늘릴수록 성능은 좋아지지만 어느 시점부터는 개선폭이 미미해집니다.

왜 이런 방법이 필요할까요? K-Means 알고리즘은 클러스터 개수 K를 미리 지정해야 합니다.

하지만 실제 데이터에서 최적의 K값을 알기는 어렵습니다. 너무 적으면 서로 다른 그룹을 하나로 뭉개고, 너무 많으면 비슷한 그룹을 불필요하게 쪼개게 됩니다.

과거에는 분석가의 직관이나 도메인 지식에 의존했습니다. 하지만 데이터가 복잡해지면서 객관적인 기준이 필요해졌습니다.

특히 고차원 데이터는 시각화가 어려워 감으로 판단하기 힘듭니다. **관성(inertia)**이란 무엇일까요?

관성은 각 데이터 포인트와 그것이 속한 클러스터 중심점 사이의 거리 제곱의 합입니다. 쉽게 말해, 클러스터 내부의 응집도를 나타냅니다.

관성이 작을수록 각 클러스터가 잘 뭉쳐있다는 의미입니다. 클러스터 개수를 늘리면 관성은 항상 감소합니다.

극단적으로 데이터 포인트 개수만큼 클러스터를 만들면 관성은 0이 됩니다. 하지만 이는 과적합으로, 실용적이지 않습니다.

코드를 단계별로 살펴보겠습니다. 먼저 빈 리스트 inertias를 만들어 각 K값에 대한 관성을 저장할 준비를 합니다.

range(1, 11)로 1부터 10까지의 클러스터 개수를 테스트합니다. 반복문 안에서 각 K값에 대해 KMeans 객체를 생성합니다.

random_state=42는 재현성을 위한 난수 시드입니다. n_init=10은 서로 다른 초기 중심점으로 10번 실행하여 가장 좋은 결과를 선택한다는 의미입니다.

fit() 메서드로 클러스터링을 수행한 뒤, kmeans.inertia_ 속성에서 관성 값을 가져와 리스트에 추가합니다. 이 과정을 10번 반복하면 10개의 관성 값이 저장됩니다.

마지막으로 matplotlib으로 그래프를 그립니다. X축은 클러스터 개수, Y축은 관성입니다.

'bo-'는 파란색 원 마커와 선을 의미합니다. 그래프를 보면 어떤 패턴이 나타날까요?

처음에는 K가 증가할수록 관성이 급격히 감소합니다. 하지만 어느 지점부터는 감소폭이 완만해집니다.

이 꺾이는 지점이 바로 엘보우 포인트입니다. 팔꿈치(elbow) 모양을 닮았다고 해서 이런 이름이 붙었습니다.

실무에서는 어떻게 활용할까요? 엘보우 방법은 가장 널리 쓰이는 K 선택 기법이지만, 항상 명확한 꺾임점이 나타나는 것은 아닙니다.

데이터에 따라 그래프가 완만하게 감소하여 판단이 애매할 수 있습니다. 이럴 때는 실루엣 분석이나 갭 통계량 같은 다른 기법을 함께 사용합니다.

주의할 점도 있습니다. 엘보우 방법은 참고 자료일 뿐 절대적인 답은 아닙니다.

비즈니스 목적에 따라 K를 조정할 수 있습니다. 예를 들어 마케팅 팀이 3개 세그먼트만 관리 가능하다면, 엘보우 포인트가 5라도 3을 선택할 수 있습니다.

김데이터 씨는 코드를 실행하고 그래프를 확인했습니다. K가 4일 때 그래프가 급격히 꺾이는 것처럼 보였습니다.

하지만 K가 5일 때도 괜찮아 보였습니다. "둘 다 시도해봐야겠어요." 박머신 선배가 고개를 끄덕였습니다.

"바로 그겁니다. 데이터 분석은 여러 시도를 해보는 거예요." 이제 최적의 K값 후보를 찾았으니, 실제로 클러스터링을 수행해볼 시간입니다.

실전 팁

💡 - 엘보우 포인트가 불명확하면 실루엣 스코어를 함께 확인하세요

비즈니스 목적과 데이터 특성을 모두 고려하여 K를 결정하세요
random_state를 고정하면 같은 결과를 재현할 수 있습니다

4. K-Means 클러스터링 수행

드디어 본격적인 클러스터링을 할 시간입니다. 김데이터 씨는 엘보우 그래프를 보고 K=5를 선택했습니다.

"이제 버튼만 누르면 되는 건가요?" 박머신 선배가 웃었습니다. "K-Means는 의외로 단순한 알고리즘이에요.

하지만 그 안에서 어떤 일이 벌어지는지 이해하는 게 중요합니다."

K-Means 클러스터링은 데이터를 K개의 그룹으로 나누는 비지도 학습 알고리즘입니다. 무작위로 K개의 중심점을 선택한 뒤, 각 데이터를 가장 가까운 중심점에 할당하고 중심점을 다시 계산하는 과정을 반복합니다.

마치 자석처럼 데이터들이 중심점 주변으로 모이는 방식입니다.

다음 코드를 살펴봅시다.

from sklearn.cluster import KMeans

# K=5로 K-Means 클러스터링 수행
optimal_k = 5
kmeans = KMeans(
    n_clusters=optimal_k,
    random_state=42,
    n_init=10,
    max_iter=300
)

# 클러스터링 학습 및 예측
cluster_labels = kmeans.fit_predict(X_scaled)

# 결과를 원본 데이터프레임에 추가
df['Cluster'] = cluster_labels

# 클러스터별 데이터 개수 확인
print(df['Cluster'].value_counts().sort_index())

# 클러스터 중심점 확인 (원래 스케일로 역변환)
cluster_centers = scaler.inverse_transform(kmeans.cluster_centers_)
print("클러스터 중심점:\n", cluster_centers)

김데이터 씨는 K-Means가 어떻게 작동하는지 궁금했습니다. 박머신 선배가 화이트보드에 점들을 그리기 시작했습니다.

"K-Means는 반복적 알고리즘입니다. 첫 번째 단계에서 K개의 점을 무작위로 선택해 초기 중심점으로 삼습니다.

두 번째 단계에서 모든 데이터를 가장 가까운 중심점에 할당합니다. 세 번째 단계에서 각 그룹의 평균을 계산해 새로운 중심점을 만듭니다.

이 과정을 중심점이 더 이상 움직이지 않을 때까지 반복하는 거예요." K-Means 알고리즘은 어떻게 작동할까요? 쉽게 비유하자면, 마치 축구 선수들이 포지션을 잡는 것과 같습니다.

코치가 "골키퍼는 여기, 수비수는 여기" 하고 위치를 지정하면, 선수들은 가장 가까운 포지션으로 이동합니다. 그러면 각 포지션의 평균 위치가 조금씩 바뀌고, 코치는 다시 "이제 여기로 와" 하고 조정합니다.

이렇게 반복하다 보면 최적의 포메이션이 완성됩니다. K-Means의 핵심 아이디어는 거리 최소화입니다.

각 데이터 포인트는 가장 가까운 중심점에 속해야 하고, 각 중심점은 자기 그룹 데이터들의 평균 위치에 있어야 합니다. 이 두 조건을 만족할 때까지 반복적으로 업데이트합니다.

왜 K-Means를 사용할까요? K-Means는 간단하면서도 효과적입니다.

수백만 개의 데이터도 빠르게 처리할 수 있고, 결과도 직관적으로 이해하기 쉽습니다. 더 복잡한 알고리즘(DBSCAN, Hierarchical Clustering)도 있지만, 대부분의 경우 K-Means로 충분합니다.

특히 고객 세분화처럼 명확한 그룹을 찾고자 할 때 K-Means는 탁월한 선택입니다. 각 고객이 어느 세그먼트에 속하는지 명확히 알 수 있고, 새로운 고객이 들어와도 쉽게 분류할 수 있습니다.

코드를 단계별로 살펴보겠습니다. 먼저 최적 클러스터 개수를 5로 설정합니다.

KMeans 객체를 생성할 때 여러 파라미터를 지정합니다. n_clusters=5는 5개 그룹으로 나눈다는 의미입니다.

random_state=42는 재현성을 보장합니다. n_init=10은 서로 다른 초기값으로 10번 실행한다는 뜻입니다.

max_iter=300은 최대 300번까지 반복한다는 의미입니다. fit_predict() 메서드는 두 가지 작업을 한 번에 수행합니다.

먼저 데이터로 모델을 학습(fit)하고, 각 데이터의 클러스터 레이블을 예측(predict)합니다. 반환값은 0부터 4까지의 정수 배열로, 각 고객이 속한 클러스터 번호입니다.

결과를 원본 데이터프레임에 'Cluster'라는 새 컬럼으로 추가합니다. 이제 각 고객의 수입, 지출 점수와 함께 클러스터 정보를 볼 수 있습니다.

value_counts()로 각 클러스터에 몇 명의 고객이 속했는지 확인합니다. 이상적으로는 클러스터 크기가 비슷해야 하지만, 데이터 특성에 따라 불균형할 수 있습니다.

예를 들어 VIP 고객 그룹은 작을 수밖에 없습니다. kmeans.cluster_centers_로 각 클러스터의 중심점 좌표를 확인할 수 있습니다.

다만 이 값은 스케일링된 값이므로, scaler.inverse_transform()으로 원래 스케일로 되돌립니다. 그러면 "클러스터 0은 평균 수입 60, 평균 지출 점수 40"처럼 해석 가능한 값이 나옵니다.

실제 현업에서는 어떻게 활용할까요? 클러스터링 결과를 데이터베이스에 저장하여 고객 프로필에 추가합니다.

이후 마케팅 캠페인을 진행할 때 "클러스터 2에 속한 고객에게만 이메일 발송"처럼 타겟팅할 수 있습니다. 또한 대시보드에서 클러스터별 매출, 구매 빈도 등을 모니터링합니다.

주의할 점도 있습니다. K-Means는 초기 중심점에 민감합니다.

운이 나쁘면 지역 최적해에 빠질 수 있습니다. 그래서 n_init=10으로 여러 번 실행하여 가장 좋은 결과를 선택하는 것입니다.

또한 K-Means는 구형(spherical) 클러스터를 가정하므로, 복잡한 모양의 클러스터는 잘 찾지 못합니다. 김데이터 씨는 코드를 실행하고 결과를 확인했습니다.

200명의 고객이 5개 그룹으로 잘 나뉘었습니다. "이제 각 그룹이 어떤 특성을 가졌는지 분석하면 되겠네요!" 박머신 선배가 만족스러운 표정을 지었습니다.

"바로 그겁니다. 클러스터링은 수단이지 목적이 아니에요.

진짜 중요한 건 다음 단계입니다." 이제 각 클러스터의 특성을 자세히 분석하여 의미를 부여할 차례입니다.

실전 팁

💡 - n_init을 크게 설정하면 더 안정적인 결과를 얻지만 계산 시간이 늘어납니다

fit_predict() 대신 fit() 후 predict()를 분리하면 새 데이터 분류 시 유용합니다
클러스터 중심점을 원래 스케일로 변환해야 해석이 가능합니다

5. 클러스터별 특성 분석

클러스터링이 끝났지만 김데이터 씨는 혼란스러웠습니다. "클러스터 0, 1, 2, 3, 4...

이게 무슨 의미인가요?" 박머신 선배가 말했습니다. "지금은 그냥 숫자일 뿐이에요.

우리가 의미를 부여해야 합니다. 각 그룹의 특성을 분석해서 '이 그룹은 고소득 VIP 고객' 같은 이름을 붙이는 거죠."

클러스터 프로파일링은 각 클러스터의 통계적 특성을 분석하여 그룹의 의미를 파악하는 작업입니다. 마치 범죄자 프로파일링처럼 각 그룹의 평균, 중앙값, 분포 등을 살펴봅니다.

이를 통해 단순한 숫자 레이블을 "고소득 고지출 그룹" 같은 의미있는 세그먼트로 변환합니다.

다음 코드를 살펴봅시다.

import seaborn as sns

# 클러스터별 평균 특성 계산
cluster_profile = df.groupby('Cluster').agg({
    'Annual_Income': ['mean', 'std', 'min', 'max'],
    'Spending_Score': ['mean', 'std', 'min', 'max']
}).round(2)

print("클러스터별 프로필:\n", cluster_profile)

# 클러스터별 고객 수
print("\n클러스터별 고객 수:")
print(df['Cluster'].value_counts().sort_index())

# 시각화: 클러스터 분포
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
sns.scatterplot(data=df, x='Annual_Income', y='Spending_Score',
                hue='Cluster', palette='Set2', s=100)
plt.title('Customer Segments')
plt.xlabel('Annual Income (k$)')
plt.ylabel('Spending Score (1-100)')

plt.subplot(1, 2, 2)
df['Cluster'].value_counts().sort_index().plot(kind='bar')
plt.title('Customers per Cluster')
plt.xlabel('Cluster')
plt.ylabel('Count')
plt.tight_layout()
plt.show()

김데이터 씨는 화면에 나타난 숫자들을 보며 막막함을 느꼈습니다. 0부터 4까지의 레이블만으로는 아무것도 알 수 없었습니다.

박머신 선배가 옆자리로 와서 설명을 시작했습니다. "클러스터링은 데이터를 나누는 것일 뿐이에요.

진짜 중요한 건 각 그룹이 어떤 특성을 가졌는지 이해하는 겁니다. 이걸 클러스터 프로파일링이라고 해요." 클러스터 프로파일링이란 무엇일까요?

쉽게 비유하자면, 마치 처음 만난 사람을 파악하는 것과 같습니다. "A라는 사람이에요"라고만 하면 아무 정보가 없습니다.

하지만 "30대 남성, 엔지니어, 독서를 좋아하고 조용한 성격"이라고 설명하면 그 사람을 이해할 수 있습니다. 클러스터도 마찬가지로 통계량과 특성으로 프로필을 만들어야 합니다.

왜 이 단계가 중요할까요? 머신러닝 알고리즘은 패턴을 찾을 뿐, 의미를 부여하지는 않습니다.

클러스터 0이 왜 중요한지, 어떤 마케팅 전략을 써야 하는지는 알고리즘이 알려주지 않습니다. 도메인 지식을 가진 분석가가 데이터를 해석하고 비즈니스 의미를 발견해야 합니다.

특히 고객 세분화에서는 각 세그먼트의 특성을 명확히 이해해야 맞춤형 전략을 수립할 수 있습니다. "클러스터 2는 고소득이지만 저지출이네?

이들의 구매를 촉진할 방법은 뭘까?" 같은 인사이트가 프로파일링에서 나옵니다. 코드를 단계별로 살펴보겠습니다.

먼저 groupby('Cluster')로 클러스터별로 데이터를 그룹화합니다. 그 다음 agg() 함수로 각 그룹의 통계량을 계산합니다.

Annual_Income과 Spending_Score에 대해 평균, 표준편차, 최솟값, 최댓값을 구합니다. 예를 들어 클러스터 0의 평균 수입이 25, 평균 지출 점수가 20이라면 "저소득 저지출 그룹"으로 해석할 수 있습니다.

표준편차가 크면 그룹 내 편차가 크다는 의미이므로 클러스터링 품질이 좋지 않을 수 있습니다. 시각화는 데이터를 이해하는 가장 좋은 방법입니다.

첫 번째 그래프는 산점도로, X축에 연간 수입, Y축에 지출 점수를 놓고 각 점을 클러스터별로 색칠합니다. 이 그래프를 보면 각 클러스터가 공간 상에서 어떻게 분포하는지 한눈에 알 수 있습니다.

예를 들어 오른쪽 위 모서리에 있는 그룹은 고소득 고지출, 왼쪽 아래는 저소득 저지출입니다. 오른쪽 아래에 있다면 고소득이지만 저지출이므로 잠재력이 높은 타겟입니다.

두 번째 그래프는 막대 그래프로, 각 클러스터에 속한 고객 수를 보여줍니다. 클러스터 크기가 너무 불균형하면 문제가 될 수 있습니다.

예를 들어 클러스터 하나에 180명, 나머지 네 개에 각 5명씩 있다면 클러스터링이 제대로 안 된 것입니다. 실무에서는 이렇게 활용합니다.

각 클러스터의 프로필을 Excel이나 PPT로 정리하여 마케팅 팀에 공유합니다. "클러스터 2는 25-35세 여성, 평균 수입 70K, 온라인 구매 선호, 패션/뷰티 관심사"처럼 상세하게 기술합니다.

이를 바탕으로 각 세그먼트에 맞는 메시지, 채널, 상품을 기획합니다. 또한 시간이 지나면서 클러스터 분포가 어떻게 변하는지 모니터링합니다.

VIP 그룹이 줄어든다면 고객 이탈 위험 신호이고, 잠재 고객 그룹이 늘어난다면 마케팅 기회입니다. 주의할 점도 있습니다.

통계량만으로는 전체 그림을 보기 어렵습니다. 평균이 같아도 분포가 다를 수 있으므로, 히스토그램이나 박스플롯으로 분포를 확인해야 합니다.

또한 이상치(outlier)가 평균을 왜곡할 수 있으므로 중앙값도 함께 봐야 합니다. 김데이터 씨는 산점도를 보며 감탄했습니다.

"와, 정말 5개 그룹으로 깔끔하게 나뉘네요!" 박머신 선배가 웃으며 말했습니다. "이제 각 그룹에 이름을 붙여봅시다.

그래야 마케팅 팀도 이해할 수 있어요." 이제 클러스터의 특성을 파악했으니, 비즈니스 관점에서 의미있는 이름을 부여할 차례입니다.

실전 팁

💡 - 평균만 보지 말고 표준편차, 중앙값, 분포도 함께 확인하세요

시각화는 여러 각도로 해보세요 (산점도, 박스플롯, 히스토그램 등)
도메인 전문가와 함께 프로필을 해석하면 더 정확한 인사이트를 얻을 수 있습니다

6. 고객 세그먼트 정의

박머신 선배가 화이트보드에 5개의 원을 그렸습니다. "자, 이제 각 그룹에 이름을 붙여봅시다.

클러스터 0은 평균 수입 55, 평균 지출 50이네요. 중산층 고객이라고 할 수 있겠죠?" 김데이터 씨도 흥미를 느끼며 다른 클러스터들을 분석하기 시작했습니다.

고객 세그먼트 정의는 통계적 클러스터에 비즈니스 의미를 부여하는 작업입니다. 마치 별자리에 이름을 붙이듯, 각 그룹의 특성을 분석하여 "VIP 고객", "잠재 고객", "가성비 추구 고객" 같은 실무에서 사용할 수 있는 레이블을 만듭니다.

이를 통해 데이터 분석 결과를 실제 마케팅 전략으로 연결합니다.

다음 코드를 살펴봅시다.

# 클러스터별 평균값 확인
cluster_means = df.groupby('Cluster')[['Annual_Income', 'Spending_Score']].mean()
print("클러스터별 평균:\n", cluster_means)

# 세그먼트 정의 함수
def define_segment(cluster_id, income, score):
    """클러스터 특성에 따라 세그먼트 이름 부여"""
    if income > 70 and score > 60:
        return 'VIP 고객'
    elif income > 70 and score < 40:
        return '잠재 고객'
    elif income < 40 and score > 60:
        return '충성 고객'
    elif income < 40 and score < 40:
        return '신규 타겟'
    else:
        return '일반 고객'

# 각 클러스터에 세그먼트 이름 부여
segment_names = {}
for cluster_id, row in cluster_means.iterrows():
    segment_names[cluster_id] = define_segment(
        cluster_id, row['Annual_Income'], row['Spending_Score']
    )

# 데이터프레임에 세그먼트 이름 추가
df['Segment'] = df['Cluster'].map(segment_names)
print("\n세그먼트별 고객 수:")
print(df['Segment'].value_counts())

김데이터 씨는 각 클러스터의 평균값을 노트에 적어가며 패턴을 찾기 시작했습니다. "클러스터 1은 수입도 높고 지출도 많네요.

이게 VIP 고객 아닐까요?" 박머신 선배가 고개를 끄덕였습니다. "정확해요.

하지만 VIP라는 이름을 붙이기 전에 여러 각도에서 검증해봐야 합니다. 혹시 이 그룹에 이상치가 섞여있지 않은지, 그룹 내 편차가 너무 크지 않은지 확인해야 해요." 세그먼트 정의란 무엇일까요?

쉽게 비유하자면, 마치 사람들을 성격 유형으로 분류하는 것과 같습니다. MBTI처럼 "INTJ", "ENFP" 같은 레이블을 붙이면 각 유형의 특성을 쉽게 이해하고 기억할 수 있습니다.

고객 세그먼트도 "클러스터 0"보다는 "가성비 추구 고객"이라는 이름이 훨씬 직관적입니다. 세그먼트 이름은 두 가지 목적을 가집니다.

첫째는 커뮤니케이션입니다. 분석 결과를 마케팅 팀, 경영진과 공유할 때 "클러스터 3"보다 "충성 고객"이 훨씬 이해하기 쉽습니다.

둘째는 액션입니다. "VIP 고객에게는 프리미엄 서비스", "잠재 고객에게는 구매 유도 캠페인"처럼 구체적인 전략으로 이어집니다.

왜 이 단계가 중요할까요? 데이터 분석의 궁극적 목표는 비즈니스 가치 창출입니다.

아무리 완벽한 클러스터링을 해도 실무에서 활용되지 않으면 무용지물입니다. 마케팅 담당자가 "클러스터 2에게 이메일 보내세요"보다 "잠재 고객에게 이메일 보내세요"가 훨씬 자연스럽습니다.

또한 세그먼트 이름은 조직 전체가 공유하는 공통 언어가 됩니다. 영업팀, 마케팅팀, 제품팀이 모두 "VIP 고객"이라는 용어를 같은 의미로 사용하면 협업이 원활해집니다.

코드를 단계별로 살펴보겠습니다. 먼저 groupby('Cluster').mean()으로 각 클러스터의 평균 수입과 평균 지출 점수를 계산합니다.

이 값이 세그먼트를 정의하는 기준이 됩니다. define_segment() 함수는 수입과 지출 점수를 입력받아 적절한 세그먼트 이름을 반환합니다.

예를 들어 수입이 70 이상이고 지출 점수가 60 이상이면 'VIP 고객', 수입은 높지만 지출이 낮으면 '잠재 고객'으로 분류합니다. 이 기준은 도메인 지식과 비즈니스 목표에 따라 달라집니다.

예를 들어 명품 브랜드라면 수입 기준을 더 높게 설정할 수 있고, 대중 브랜드라면 낮게 설정할 수 있습니다. 반복문으로 각 클러스터를 순회하며 세그먼트 이름을 결정합니다.

map() 함수로 각 고객의 클러스터 번호를 세그먼트 이름으로 변환하여 새 컬럼을 만듭니다. 이제 데이터프레임에 'Cluster'와 'Segment' 두 개의 컬럼이 생겼습니다.

실무에서는 어떻게 활용할까요? 세그먼트 정의는 일회성 작업이 아닙니다.

시간이 지나면서 시장 상황, 고객 행동, 비즈니스 전략이 변하므로 주기적으로 재평가해야 합니다. 분기별로 클러스터링을 다시 수행하고 세그먼트 정의를 업데이트하는 것이 좋습니다.

또한 세그먼트는 다차원적일 수 있습니다. 이 프로젝트에서는 수입과 지출만 봤지만, 실무에서는 연령, 지역, 구매 카테고리, 방문 빈도 등 수십 개 변수를 고려합니다.

이럴 때는 페르소나를 만들어 각 세그먼트를 구체적으로 묘사합니다. 예를 들어 "VIP 고객: 40대 여성, 서울 거주, 월 3회 이상 구매, 패션/뷰티 선호, 모바일 앱 사용"처럼 상세하게 기술합니다.

심지어 가상의 인물 사진과 이름을 붙이기도 합니다. 주의할 점도 있습니다.

세그먼트 이름은 중립적이어야 합니다. "저가 고객", "돈 안 쓰는 고객" 같은 부정적 표현은 피해야 합니다.

"가성비 추구 고객", "신규 타겟 고객"처럼 긍정적이거나 중립적인 용어를 사용하세요. 또한 세그먼트는 상호 배타적이어야 합니다.

한 고객이 여러 세그먼트에 동시에 속하면 혼란스럽습니다. K-Means는 자동으로 이를 보장하지만, 수동으로 규칙을 만들 때는 주의해야 합니다.

김데이터 씨는 결과를 보며 뿌듯해했습니다. "VIP 고객 38명, 잠재 고객 42명...

이제 각 그룹별로 어떤 마케팅을 할지 제안할 수 있겠어요!" 박머신 선배가 어깨를 두드렸습니다. "마지막 단계예요.

실제 마케팅 전략을 수립해봅시다." 이제 세그먼트를 정의했으니, 각 그룹에 맞는 구체적인 마케팅 전략을 제안할 차례입니다.

실전 팁

💡 - 세그먼트 이름은 마케팅 팀과 협의하여 정하면 더 실용적입니다

페르소나를 만들면 세그먼트를 더 생생하게 이해할 수 있습니다
세그먼트 정의는 주기적으로 재평가하고 업데이트하세요

7. 마케팅 전략 제안

김데이터 씨는 마침내 분석 보고서의 마지막 장을 작성하고 있었습니다. 팀장님이 가장 궁금해하실 부분, 바로 "그래서 우리가 뭘 해야 하는가?"였습니다.

박머신 선배가 조언했습니다. "데이터 분석은 인사이트를 찾는 것만으로는 부족해요.

실행 가능한 액션 플랜까지 제시해야 합니다."

세그먼트별 마케팅 전략은 각 고객 그룹의 특성에 맞는 맞춤형 접근 방법을 수립하는 것입니다. 마치 의사가 환자별로 다른 처방을 내리듯, 각 세그먼트의 니즈와 행동 패턴을 고려하여 메시지, 채널, 상품, 프로모션을 최적화합니다.

이를 통해 마케팅 ROI를 극대화하고 고객 만족도를 높입니다.

다음 코드를 살펴봅시다.

# 세그먼트별 마케팅 전략 정의
marketing_strategies = {
    'VIP 고객': {
        'strategy': '프리미엄 경험 제공',
        'tactics': [
            '전용 VIP 라운지 및 개인 쇼퍼 서비스',
            '신상품 우선 공개 및 초대 이벤트',
            '포인트 2배 적립 및 무료 배송'
        ],
        'channel': '개인화된 이메일, SMS, 전화 상담',
        'budget_allocation': '30%'
    },
    '잠재 고객': {
        'strategy': '구매 전환 유도',
        'tactics': [
            '첫 구매 20% 할인 쿠폰',
            '관심 상품 추천 및 리뷰 강조',
            '한정 시간 플래시 세일'
        ],
        'channel': '타겟 광고, 리타겟팅 캠페인',
        'budget_allocation': '25%'
    },
    '충성 고객': {
        'strategy': '관계 강화 및 유지',
        'tactics': [
            '멤버십 프로그램 및 생일 쿠폰',
            '추천 시 양측 혜택 프로그램',
            '고객 감사 이벤트'
        ],
        'channel': '앱 푸시, 이메일 뉴스레터',
        'budget_allocation': '20%'
    }
}

# 전략 요약 출력
for segment, strategy in marketing_strategies.items():
    print(f"\n=== {segment} ===")
    print(f"전략: {strategy['strategy']}")
    print(f"채널: {strategy['channel']}")
    print(f"예산 배분: {strategy['budget_allocation']}")

김데이터 씨는 각 세그먼트를 바라보며 고민에 빠졌습니다. "VIP 고객에게는 뭘 해줘야 할까요?

이미 많이 사는 분들인데요." 박머신 선배가 웃으며 답했습니다. "바로 그게 함정이에요.

VIP 고객은 이미 충분하다고 생각하면 안 됩니다. 경쟁사로 떠나는 순간 큰 손실이에요.

오히려 더 특별하게 대우해서 충성도를 높여야 합니다." 마케팅 전략 수립이란 무엇일까요? 쉽게 비유하자면, 마치 레스토랑이 손님 유형별로 다른 서비스를 제공하는 것과 같습니다.

단골 손님에게는 특별 메뉴를 추천하고, 처음 온 손님에게는 인기 메뉴를 소개하고, 자주 오지만 적게 주문하는 손님에게는 세트 메뉴를 권하는 식입니다. 각 세그먼트의 니즈와 행동에 맞춰 최적화된 접근이 필요합니다.

왜 세그먼트별 전략이 필요할까요? 전통적 마케팅은 일괄 발송 방식이었습니다.

모든 고객에게 같은 이메일, 같은 광고를 보냈습니다. 하지만 이는 엄청난 낭비입니다.

이미 충분히 구매하는 VIP 고객에게 할인 쿠폰을 보내는 것은 마진만 깎는 것이고, 돈은 많지만 구매 의향이 낮은 고객에게 프리미엄 상품을 광고하는 것은 효과가 없습니다. 세그먼트 마케팅은 각 그룹에 맞는 메시지와 오퍼를 제공하여 효율성을 극대화합니다.

같은 예산으로 훨씬 높은 전환율과 ROI를 달성할 수 있습니다. 아마존, 넷플릭스 같은 기업들이 성공한 비결이 바로 고도화된 세그먼트 마케팅입니다.

VIP 고객 전략을 살펴보겠습니다. VIP 고객은 이미 높은 수입과 높은 지출을 보이는 최상위 세그먼트입니다.

이들의 목표는 유지와 확대입니다. 이탈을 방지하고, 가능하다면 지출을 더 늘리는 것입니다.

전략은 프리미엄 경험 제공입니다. 단순한 할인이 아니라 특별한 대우를 해야 합니다.

VIP 라운지, 개인 쇼퍼, 신상품 우선 공개처럼 돈으로 살 수 없는 가치를 제공합니다. 채널은 개인화된 이메일이나 전화 상담처럼 일대일 커뮤니케이션이 효과적입니다.

잠재 고객 전략을 살펴보겠습니다. 잠재 고객은 높은 수입을 가졌지만 지출이 낮은 그룹입니다.

구매력은 있지만 아직 활성화되지 않은 세그먼트입니다. 이들의 목표는 전환과 활성화입니다.

전략은 구매 전환 유도입니다. 첫 구매 할인, 무료 배송, 한정 시간 세일로 구매 장벽을 낮춥니다.

또한 상품 추천과 리뷰를 강조하여 신뢰를 구축합니다. 채널은 타겟 광고와 리타겟팅이 효과적입니다.

한 번 사이트를 방문한 사람에게 계속 광고를 노출하는 방식입니다. 충성 고객 전략을 살펴보겠습니다.

충성 고객은 수입은 낮지만 지출이 높은 그룹입니다. 가진 건 적지만 우리 쇼핑몰을 사랑하는 귀중한 세그먼트입니다.

이들의 목표는 관계 유지와 입소문입니다. 전략은 관계 강화입니다.

멤버십 프로그램, 생일 쿠폰, 적립 포인트로 충성도를 보상합니다. 또한 추천 프로그램을 통해 이들이 브랜드 홍보대사가 되도록 유도합니다.

채널은 앱 푸시나 이메일 뉴스레터가 적합합니다. 예산 배분은 어떻게 할까요?

VIP 고객에게 30%를 배분하는 이유는 이들의 **생애 가치(LTV)**가 가장 크기 때문입니다. 잠재 고객에게 25%를 배분하는 이유는 전환 시 큰 수익 증가가 기대되기 때문입니다.

충성 고객은 이미 충분히 구매하므로 20%로 유지 관리에 집중합니다. 실무에서는 이렇게 활용합니다.

이 전략을 마케팅 자동화 도구(HubSpot, Marketo 등)에 설정합니다. 고객이 VIP 세그먼트에 들어가면 자동으로 VIP 전용 이메일 시퀀스가 발송되고, 잠재 고객이 되면 전환 유도 캠페인이 시작됩니다.

또한 A/B 테스트로 전략을 지속적으로 개선합니다. "VIP 고객에게 할인 vs 무료 배송 중 어느 것이 더 효과적인가?" 같은 실험을 반복하며 최적화합니다.

주의할 점도 있습니다. 세그먼트는 고정된 것이 아닙니다.

고객은 세그먼트 간 이동합니다. 잠재 고객이 구매를 시작하면 VIP로 올라가고, VIP 고객이 구매를 멈추면 이탈 위험 고객이 됩니다.

따라서 고객의 세그먼트를 주기적으로 재계산하고 전략을 조정해야 합니다. 또한 모든 세그먼트를 동시에 공략하려면 리소스가 부족할 수 있습니다.

초기에는 가장 임팩트가 큰 1-2개 세그먼트에 집중하는 것이 현명합니다. 김데이터 씨는 보고서를 완성하고 팀장님께 발표했습니다.

"5개 세그먼트를 발견했고 각각에 맞는 전략을 제안합니다." 팀장님이 만족스러운 표情으로 고개를 끄덕였습니다. "훌륭해요.

다음 분기부터 이 전략을 실행해봅시다." 박머신 선배가 김데이터 씨를 축하했습니다. "첫 프로젝트 치고 아주 잘했어요.

데이터 분석은 숫자 놀음이 아니라 비즈니스 문제를 푸는 거라는 걸 기억하세요." 김데이터 씨는 뿌듯함을 느끼며 다음 프로젝트를 기다렸습니다. 이제 머신러닝이 단순히 어려운 기술이 아니라, 실제 문제를 해결하는 강력한 도구라는 것을 깨달았습니다.

실전 팁

💡 - 세그먼트별 전략은 마케팅 팀과 긴밀히 협업하여 수립하세요

A/B 테스트로 전략의 효과를 검증하고 지속적으로 개선하세요
고객은 세그먼트 간 이동하므로 주기적으로 재분류하고 전략을 조정하세요

이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

#Python#Clustering#KMeans#DataAnalysis#MachineLearning

쇼핑몰 고객 세분화 분석 완벽 가이드

# 쇼핑몰 고객 세분화 분석 완벽 가이드 쇼핑몰의 고객 데이터를 K-Means 클러스터링으로 분석하여 의미있는 고객 그룹을 찾아내는 과정을 배웁니다. 데이터 전처리부터 마케팅 전략 수립까지 실무에서 바로 활용할 수 있는 완벽한 프로젝트입니다. --- ## 목차 1. [고객 데이터셋 소개](#고객-데이터셋-소개) 2. [데이터 전처리 및 스케일링](#데이터-전처리-및-스케일링) 3. [최적 클러스터 수 탐색](#최적-클러스터-수-탐색) 4. [K-Means 클러스터링 수행](#k-means-클러스터링-수행) 5. [클러스터별 특성 분석](#클러스터별-특성-분석) 6. [고객 세그먼트 정의](#고객-세그먼트-정의) 7. [마케팅 전략 제안](#마케팅-전략-제안) --- ## 1. 고객 데이터셋 소개 어느 날 데이터 분석팀에 배치된 신입 분석가 김데이터 씨는 팀장님으로부터 첫 미션을 받았습니다. "우리 쇼핑몰 고객들을 몇 개 그룹으로 나눠서 각 그룹별로 맞춤 마케팅을 하고 싶은데, 데이터 분석으로 가능할까요?" 막막했지만, 선배 분석가 박머신 씨가 "고객 세분화 분석을 해보면 되요"라고 알려줬습니다. **고객 세분화 분석**은 수많은 고객들을 구매 패턴이나 특성에 따라 몇 개의 의미있는 그룹으로 나누는 작업입니다. 마치 도서관 사서가 수천 권의 책을 장르별로 분류하는 것처럼, 고객들을 비슷한 특성끼리 묶어내는 것입니다. 이를 통해 각 그룹에 최적화된 마케팅 전략을 수립할 수 있습니다. 다음 코드를 살펴봅시다. ```python import pandas as pd import numpy as np # 쇼핑몰 고객 데이터 로드 # CustomerID: 고객 ID # Annual_Income: 연간 수입 (천 달러) # Spending_Score: 지출 점수 (1-100) df = pd.read_csv('mall_customers.csv') # 데이터 기본 정보 확인 print(df.head()) print(df.info()) print(df.describe()) # 결측치 확인 - 분석 전 필수 단계 print(df.isnull().sum()) ``` 김데이터 씨는 회사 데이터베이스에서 받은 고객 데이터 파일을 열어봤습니다. 엑셀 파일에는 200명의 고객 정보가 빽빽하게 들어있었습니다. 이름, 나이, 성별은 물론이고 연간 수입과 지출 점수라는 항목도 보였습니다. "이 데이터로 정말 고객을 분류할 수 있을까?" 의구심이 들었지만, 박머신 선배는 자신 있게 말했습니다. "충분해요. 오히려 너무 많은 정보는 분석을 복잡하게 만들죠." **고객 세분화 분석**이란 무엇일까요? 쉽게 비유하자면, 마치 과일 가게 주인이 과일을 분류하는 것과 같습니다. 사과는 사과끼리, 바나나는 바나나끼리 모으듯이, 비슷한 특성을 가진 고객들을 하나의 그룹으로 묶는 작업입니다. 다만 과일은 눈으로 쉽게 구분할 수 있지만, 고객의 특성은 숫자 데이터 속에 숨어있어서 **머신러닝 알고리즘**의 도움이 필요합니다. 왜 이런 분석이 필요할까요? 현대 쇼핑몰은 수천, 수만 명의 고객을 보유하고 있습니다. 모든 고객에게 똑같은 마케팅 메시지를 보내는 것은 비효율적입니다. 고소득층 고객에게 할인 쿠폰을 보내거나, 저지출 고객에게 프리미엄 상품을 광고하는 것은 돈과 시간 낭비입니다. 더 심각한 문제는 고객 이탈입니다. 자신과 맞지 않는 광고를 계속 받는 고객은 결국 서비스를 떠나게 됩니다. 이커머스 시장이 포화 상태인 지금, 신규 고객을 확보하는 비용은 기존 고객을 유지하는 비용의 5배나 됩니다. 바로 이런 문제를 해결하기 위해 **데이터 기반 고객 세분화**가 필요합니다. 고객 세분화를 하면 각 그룹의 특성을 명확히 파악할 수 있습니다. 예를 들어 "고소득 고지출 그룹"에게는 프리미엄 신상품을, "저소득 고지출 그룹"에게는 가성비 상품을 추천할 수 있습니다. 또한 "고소득 저지출 그룹"은 구매 잠재력이 높은 타겟이므로 특별한 관심이 필요합니다. 오늘 분석할 데이터셋을 살펴보겠습니다. **CustomerID**는 각 고객을 구분하는 고유 번호입니다. 1번부터 200번까지 할당되어 있습니다. **Annual_Income**은 고객의 연간 수입을 천 달러 단위로 나타낸 것입니다. 15부터 137까지 다양한 분포를 보입니다. **Spending_Score**는 쇼핑몰에서 자체적으로 부여한 지출 점수로, 1점부터 100점까지의 범위를 가집니다. 지출 점수는 어떻게 계산될까요? 일반적으로 구매 빈도, 구매 금액, 최근 구매 이력 등을 종합하여 산출합니다. 점수가 높을수록 쇼핑몰에서 많이 소비하는 우수 고객을 의미합니다. 데이터 분석의 첫 단계는 항상 **데이터 탐색**입니다. 먼저 `df.head()`로 처음 5행을 출력해서 데이터가 어떻게 생겼는지 확인합니다. 다음으로 `df.info()`로 각 컬럼의 데이터 타입과 결측치 여부를 파악합니다. `df.describe()`는 숫자형 컬럼의 평균, 표준편차, 최솟값, 최댓값 등 기초 통계량을 보여줍니다. 가장 중요한 것은 **결측치 확인**입니다. `df.isnull().sum()`을 실행하면 각 컬럼별로 몇 개의 결측치가 있는지 알 수 있습니다. 결측치가 있으면 분석 결과가 왜곡될 수 있으므로 반드시 처리해야 합니다. 김데이터 씨는 코드를 실행해봤습니다. 다행히 결측치는 하나도 없었습니다. "깔끔한 데이터네요!" 박머신 선배가 웃으며 말했습니다. "실무에서는 이렇게 깔끔한 데이터는 드물어요. 보통은 전처리에 전체 작업 시간의 70%를 쓴답니다." 이제 데이터의 전체적인 모습을 파악했으니, 본격적으로 클러스터링을 위한 전처리 작업을 시작할 차례입니다. 좋은 분석 결과를 얻으려면 좋은 데이터 준비가 필수입니다. **실전 팁** 💡 - 데이터 분석은 항상 탐색적 데이터 분석(EDA)부터 시작합니다 - 결측치, 이상치, 데이터 타입 오류를 먼저 확인하고 처리해야 합니다 - describe()로 나온 통계량을 보고 데이터의 분포와 범위를 파악하세요 --- ## 2. 데이터 전처리 및 스케일링 박머신 선배가 김데이터 씨의 화면을 들여다보더니 말했습니다. "데이터를 그냥 분석에 넣으면 안 돼요. 수입은 15부터 137까지인데 지출 점수는 1부터 100까지잖아요. 스케일이 다르면 분석 결과가 왜곡됩니다." 김데이터 씨는 고개를 갸우뚱했습니다. "숫자는 숫자 아닌가요?" **데이터 스케일링**은 서로 다른 범위를 가진 변수들을 동일한 척도로 변환하는 작업입니다. 마치 키는 cm로, 몸무게는 kg로 측정하듯 단위가 다른 값들을 비교 가능하게 만드는 것입니다. 특히 거리 기반 알고리즘인 K-Means에서는 스케일링이 필수적입니다. 다음 코드를 살펴봅시다. ```python from sklearn.preprocessing import StandardScaler # 분석에 사용할 특성 선택 # CustomerID는 단순 식별자이므로 제외 X = df[['Annual_Income', 'Spending_Score']].values # StandardScaler로 표준화 # 각 특성의 평균을 0, 표준편차를 1로 변환 scaler = StandardScaler() X_scaled = scaler.fit_transform(X) # 스케일링 전후 비교 print("원본 데이터 평균:", X.mean(axis=0)) print("스케일링 후 평균:", X_scaled.mean(axis=0)) print("원본 데이터 표준편차:", X.std(axis=0)) print("스케일링 후 표준편차:", X_scaled.std(axis=0)) ``` 김데이터 씨는 선배의 말이 이해되지 않았습니다. "숫자가 크든 작든 상관없지 않나요?" 박머신 선배가 종이에 그림을 그리기 시작했습니다. "예를 들어볼게요. A 고객은 수입이 100, 지출 점수가 50이고, B 고객은 수입이 101, 지출 점수가 70이라고 해봅시다. 두 고객의 유사도를 계산할 때 수입 차이는 1, 지출 점수 차이는 20이죠. 그런데 알고리즘은 이 차이를 단순히 숫자로만 봐요. 수입 차이 1과 지출 점수 차이 20을 동등하게 취급하는 거예요." 김데이터 씨의 눈이 커졌습니다. "아, 그럼 지출 점수의 영향력이 훨씬 크게 작용하겠네요!" **스케일링**이란 정확히 무엇일까요? 쉽게 비유하자면, 마치 시험 점수를 백분위로 환산하는 것과 같습니다. 국어 시험은 100점 만점이고 수학 시험은 50점 만점일 때, 단순히 점수를 더하면 국어의 영향이 2배가 됩니다. 그래서 모든 과목을 100점 만점으로 환산한 뒤 평균을 내는 것처럼, 데이터의 척도를 통일하는 것이 스케일링입니다. 왜 스케일링이 필요할까요? **K-Means 클러스터링**은 거리 기반 알고리즘입니다. 각 데이터 포인트가 어느 클러스터에 속할지 결정할 때 중심점까지의 **유클리드 거리**를 계산합니다. 만약 한 변수의 값이 다른 변수보다 훨씬 크다면, 거리 계산에서 그 변수가 지배적인 영향을 미치게 됩니다. 우리 데이터의 경우 연간 수입은 15에서 137 범위를 가지지만, 지출 점수는 1에서 100 범위를 가집니다. 언뜻 비슷해 보이지만 평균과 분산이 다르기 때문에 영향력이 다릅니다. 스케일링 없이 분석하면 연간 수입의 영향이 과도하게 커질 수 있습니다. **StandardScaler**는 어떻게 작동할까요? StandardScaler는 각 특성을 **표준화**합니다. 표준화란 평균을 0, 표준편차를 1로 만드는 변환입니다. 공식은 간단합니다: (원본값 - 평균) / 표준편차. 이렇게 변환하면 모든 특성이 동일한 척도를 갖게 됩니다. 코드를 단계별로 살펴보겠습니다. 먼저 분석에 사용할 특성을 선택합니다. CustomerID는 단순히 고객을 구분하는 번호일 뿐이므로 제외합니다. Annual_Income과 Spending_Score만 선택하여 numpy 배열로 변환합니다. 다음으로 StandardScaler 객체를 생성합니다. `fit_transform()` 메서드는 두 가지 작업을 한 번에 수행합니다. 먼저 데이터로부터 평균과 표준편차를 학습(fit)하고, 그 값을 이용해 데이터를 변환(transform)합니다. 결과를 확인해보면 흥미로운 점을 발견할 수 있습니다. 스케일링 전 데이터의 평균은 각 변수마다 달랐지만, 스케일링 후에는 모두 0에 가까운 값이 됩니다. 표준편차도 모두 1에 가까워집니다. 실제 현업에서는 어떻게 활용할까요? 대부분의 머신러닝 프로젝트에서 스케일링은 필수 단계입니다. 특히 신경망, SVM, K-Means처럼 거리나 기울기를 계산하는 알고리즘에서는 반드시 필요합니다. 반면 의사결정나무 기반 알고리즘(Random Forest, XGBoost)은 스케일링이 필요 없습니다. 주의할 점도 있습니다. 초보 분석가들이 흔히 하는 실수는 테스트 데이터를 따로 스케일링하는 것입니다. 올바른 방법은 훈련 데이터로 scaler를 학습한 뒤, 같은 scaler로 테스트 데이터를 변환하는 것입니다. 그래야 데이터 유출(data leakage)을 방지할 수 있습니다. 김데이터 씨는 코드를 실행하고 결과를 확인했습니다. 평균이 0, 표준편차가 1에 가까운 값이 출력됐습니다. "이제 공정한 경쟁이 가능하겠네요!" 박머신 선배가 엄지를 치켜세웠습니다. 이제 데이터 준비가 완료됐으니, 본격적으로 최적의 클러스터 개수를 찾아볼 차례입니다. **실전 팁** 💡 - StandardScaler 외에도 MinMaxScaler(0-1 범위로 변환), RobustScaler(이상치에 강건) 등이 있습니다 - fit_transform은 훈련 데이터에만, transform은 테스트 데이터에 사용하세요 - 스케일링은 원본 데이터를 변경하지 않고 새로운 배열을 반환합니다 --- ## 3. 최적 클러스터 수 탐색 "자, 이제 고객을 몇 개 그룹으로 나눌까요?" 박머신 선배가 물었습니다. 김데이터 씨는 잠시 고민하다가 "3개요? 고소득, 중소득, 저소득으로요"라고 답했습니다. 선배가 고개를 저었습니다. "감으로 정하면 안 됩니다. 데이터가 말하게 해야죠. **엘보우 방법**을 써봅시다." **엘보우 방법**은 K-Means 클러스터링에서 최적의 클러스터 개수를 찾는 대표적인 기법입니다. 마치 팔꿈치처럼 꺾이는 지점을 찾아내는 것으로, 여러 K값에 대해 **관성(inertia)**을 계산하고 그래프가 급격히 완만해지는 지점을 선택합니다. 이 지점이 바로 최적의 클러스터 개수입니다. 다음 코드를 살펴봅시다. ```python from sklearn.cluster import KMeans import matplotlib.pyplot as plt # 다양한 클러스터 개수에 대해 관성 계산 inertias = [] K_range = range(1, 11) for k in K_range: # k개의 클러스터로 K-Means 수행 kmeans = KMeans(n_clusters=k, random_state=42, n_init=10) kmeans.fit(X_scaled) # 관성(클러스터 내 거리 제곱합) 저장 inertias.append(kmeans.inertia_) # 엘보우 그래프 그리기 plt.figure(figsize=(10, 6)) plt.plot(K_range, inertias, 'bo-') plt.xlabel('Number of Clusters (k)') plt.ylabel('Inertia') plt.title('Elbow Method') plt.grid(True) plt.show() ``` 김데이터 씨는 의아했습니다. "클러스터 개수를 직접 정하면 안 되나요?" 박머신 선배가 화이트보드에 그래프를 그리기 시작했습니다. "만약 고객을 1개 그룹으로 나누면 어떻게 될까요? 모든 고객이 한 덩어리가 되겠죠. 반대로 200개 그룹으로 나누면? 각 고객이 하나의 그룹이 돼요. 둘 다 의미 없는 분류입니다. 우리가 원하는 건 적당히 의미 있는 개수의 그룹이에요." **엘보우 방법**이란 무엇일까요? 쉽게 비유하자면, 마치 옷을 살 때 가성비를 따지는 것과 같습니다. 가격이 오를수록 품질도 좋아지지만, 어느 시점부터는 가격 대비 품질 향상폭이 급격히 줄어듭니다. 그 지점이 바로 최적의 구매 포인트입니다. 클러스터링도 마찬가지로, 클러스터 개수를 늘릴수록 성능은 좋아지지만 어느 시점부터는 개선폭이 미미해집니다. 왜 이런 방법이 필요할까요? K-Means 알고리즘은 클러스터 개수 K를 미리 지정해야 합니다. 하지만 실제 데이터에서 최적의 K값을 알기는 어렵습니다. 너무 적으면 서로 다른 그룹을 하나로 뭉개고, 너무 많으면 비슷한 그룹을 불필요하게 쪼개게 됩니다. 과거에는 분석가의 직관이나 도메인 지식에 의존했습니다. 하지만 데이터가 복잡해지면서 객관적인 기준이 필요해졌습니다. 특히 고차원 데이터는 시각화가 어려워 감으로 판단하기 힘듭니다. **관성(inertia)**이란 무엇일까요? 관성은 각 데이터 포인트와 그것이 속한 클러스터 중심점 사이의 거리 제곱의 합입니다. 쉽게 말해, 클러스터 내부의 응집도를 나타냅니다. 관성이 작을수록 각 클러스터가 잘 뭉쳐있다는 의미입니다. 클러스터 개수를 늘리면 관성은 항상 감소합니다. 극단적으로 데이터 포인트 개수만큼 클러스터를 만들면 관성은 0이 됩니다. 하지만 이는 과적합으로, 실용적이지 않습니다. 코드를 단계별로 살펴보겠습니다. 먼저 빈 리스트 `inertias`를 만들어 각 K값에 대한 관성을 저장할 준비를 합니다. `range(1, 11)`로 1부터 10까지의 클러스터 개수를 테스트합니다. 반복문 안에서 각 K값에 대해 KMeans 객체를 생성합니다. `random_state=42`는 재현성을 위한 난수 시드입니다. `n_init=10`은 서로 다른 초기 중심점으로 10번 실행하여 가장 좋은 결과를 선택한다는 의미입니다. `fit()` 메서드로 클러스터링을 수행한 뒤, `kmeans.inertia_` 속성에서 관성 값을 가져와 리스트에 추가합니다. 이 과정을 10번 반복하면 10개의 관성 값이 저장됩니다. 마지막으로 matplotlib으로 그래프를 그립니다. X축은 클러스터 개수, Y축은 관성입니다. 'bo-'는 파란색 원 마커와 선을 의미합니다. 그래프를 보면 어떤 패턴이 나타날까요? 처음에는 K가 증가할수록 관성이 급격히 감소합니다. 하지만 어느 지점부터는 감소폭이 완만해집니다. 이 꺾이는 지점이 바로 **엘보우 포인트**입니다. 팔꿈치(elbow) 모양을 닮았다고 해서 이런 이름이 붙었습니다. 실무에서는 어떻게 활용할까요? 엘보우 방법은 가장 널리 쓰이는 K 선택 기법이지만, 항상 명확한 꺾임점이 나타나는 것은 아닙니다. 데이터에 따라 그래프가 완만하게 감소하여 판단이 애매할 수 있습니다. 이럴 때는 **실루엣 분석**이나 **갭 통계량** 같은 다른 기법을 함께 사용합니다. 주의할 점도 있습니다. 엘보우 방법은 참고 자료일 뿐 절대적인 답은 아닙니다. 비즈니스 목적에 따라 K를 조정할 수 있습니다. 예를 들어 마케팅 팀이 3개 세그먼트만 관리 가능하다면, 엘보우 포인트가 5라도 3을 선택할 수 있습니다. 김데이터 씨는 코드를 실행하고 그래프를 확인했습니다. K가 4일 때 그래프가 급격히 꺾이는 것처럼 보였습니다. 하지만 K가 5일 때도 괜찮아 보였습니다. "둘 다 시도해봐야겠어요." 박머신 선배가 고개를 끄덕였습니다. "바로 그겁니다. 데이터 분석은 여러 시도를 해보는 거예요." 이제 최적의 K값 후보를 찾았으니, 실제로 클러스터링을 수행해볼 시간입니다. **실전 팁** 💡 - 엘보우 포인트가 불명확하면 실루엣 스코어를 함께 확인하세요 - 비즈니스 목적과 데이터 특성을 모두 고려하여 K를 결정하세요 - random_state를 고정하면 같은 결과를 재현할 수 있습니다 --- ## 4. K-Means 클러스터링 수행 드디어 본격적인 클러스터링을 할 시간입니다. 김데이터 씨는 엘보우 그래프를 보고 K=5를 선택했습니다. "이제 버튼만 누르면 되는 건가요?" 박머신 선배가 웃었습니다. "K-Means는 의외로 단순한 알고리즘이에요. 하지만 그 안에서 어떤 일이 벌어지는지 이해하는 게 중요합니다." **K-Means 클러스터링**은 데이터를 K개의 그룹으로 나누는 비지도 학습 알고리즘입니다. 무작위로 K개의 중심점을 선택한 뒤, 각 데이터를 가장 가까운 중심점에 할당하고 중심점을 다시 계산하는 과정을 반복합니다. 마치 자석처럼 데이터들이 중심점 주변으로 모이는 방식입니다. 다음 코드를 살펴봅시다. ```python from sklearn.cluster import KMeans # K=5로 K-Means 클러스터링 수행 optimal_k = 5 kmeans = KMeans( n_clusters=optimal_k, random_state=42, n_init=10, max_iter=300 ) # 클러스터링 학습 및 예측 cluster_labels = kmeans.fit_predict(X_scaled) # 결과를 원본 데이터프레임에 추가 df['Cluster'] = cluster_labels # 클러스터별 데이터 개수 확인 print(df['Cluster'].value_counts().sort_index()) # 클러스터 중심점 확인 (원래 스케일로 역변환) cluster_centers = scaler.inverse_transform(kmeans.cluster_centers_) print("클러스터 중심점:\n", cluster_centers) ``` 김데이터 씨는 K-Means가 어떻게 작동하는지 궁금했습니다. 박머신 선배가 화이트보드에 점들을 그리기 시작했습니다. "K-Means는 반복적 알고리즘입니다. 첫 번째 단계에서 K개의 점을 무작위로 선택해 초기 중심점으로 삼습니다. 두 번째 단계에서 모든 데이터를 가장 가까운 중심점에 할당합니다. 세 번째 단계에서 각 그룹의 평균을 계산해 새로운 중심점을 만듭니다. 이 과정을 중심점이 더 이상 움직이지 않을 때까지 반복하는 거예요." **K-Means 알고리즘**은 어떻게 작동할까요? 쉽게 비유하자면, 마치 축구 선수들이 포지션을 잡는 것과 같습니다. 코치가 "골키퍼는 여기, 수비수는 여기" 하고 위치를 지정하면, 선수들은 가장 가까운 포지션으로 이동합니다. 그러면 각 포지션의 평균 위치가 조금씩 바뀌고, 코치는 다시 "이제 여기로 와" 하고 조정합니다. 이렇게 반복하다 보면 최적의 포메이션이 완성됩니다. K-Means의 핵심 아이디어는 **거리 최소화**입니다. 각 데이터 포인트는 가장 가까운 중심점에 속해야 하고, 각 중심점은 자기 그룹 데이터들의 평균 위치에 있어야 합니다. 이 두 조건을 만족할 때까지 반복적으로 업데이트합니다. 왜 K-Means를 사용할까요? K-Means는 간단하면서도 효과적입니다. 수백만 개의 데이터도 빠르게 처리할 수 있고, 결과도 직관적으로 이해하기 쉽습니다. 더 복잡한 알고리즘(DBSCAN, Hierarchical Clustering)도 있지만, 대부분의 경우 K-Means로 충분합니다. 특히 고객 세분화처럼 명확한 그룹을 찾고자 할 때 K-Means는 탁월한 선택입니다. 각 고객이 어느 세그먼트에 속하는지 명확히 알 수 있고, 새로운 고객이 들어와도 쉽게 분류할 수 있습니다. 코드를 단계별로 살펴보겠습니다. 먼저 최적 클러스터 개수를 5로 설정합니다. KMeans 객체를 생성할 때 여러 파라미터를 지정합니다. `n_clusters=5`는 5개 그룹으로 나눈다는 의미입니다. `random_state=42`는 재현성을 보장합니다. `n_init=10`은 서로 다른 초기값으로 10번 실행한다는 뜻입니다. `max_iter=300`은 최대 300번까지 반복한다는 의미입니다. `fit_predict()` 메서드는 두 가지 작업을 한 번에 수행합니다. 먼저 데이터로 모델을 학습(fit)하고, 각 데이터의 클러스터 레이블을 예측(predict)합니다. 반환값은 0부터 4까지의 정수 배열로, 각 고객이 속한 클러스터 번호입니다. 결과를 원본 데이터프레임에 'Cluster'라는 새 컬럼으로 추가합니다. 이제 각 고객의 수입, 지출 점수와 함께 클러스터 정보를 볼 수 있습니다. `value_counts()`로 각 클러스터에 몇 명의 고객이 속했는지 확인합니다. 이상적으로는 클러스터 크기가 비슷해야 하지만, 데이터 특성에 따라 불균형할 수 있습니다. 예를 들어 VIP 고객 그룹은 작을 수밖에 없습니다. `kmeans.cluster_centers_`로 각 클러스터의 중심점 좌표를 확인할 수 있습니다. 다만 이 값은 스케일링된 값이므로, `scaler.inverse_transform()`으로 원래 스케일로 되돌립니다. 그러면 "클러스터 0은 평균 수입 60, 평균 지출 점수 40"처럼 해석 가능한 값이 나옵니다. 실제 현업에서는 어떻게 활용할까요? 클러스터링 결과를 데이터베이스에 저장하여 고객 프로필에 추가합니다. 이후 마케팅 캠페인을 진행할 때 "클러스터 2에 속한 고객에게만 이메일 발송"처럼 타겟팅할 수 있습니다. 또한 대시보드에서 클러스터별 매출, 구매 빈도 등을 모니터링합니다. 주의할 점도 있습니다. K-Means는 초기 중심점에 민감합니다. 운이 나쁘면 지역 최적해에 빠질 수 있습니다. 그래서 `n_init=10`으로 여러 번 실행하여 가장 좋은 결과를 선택하는 것입니다. 또한 K-Means는 구형(spherical) 클러스터를 가정하므로, 복잡한 모양의 클러스터는 잘 찾지 못합니다. 김데이터 씨는 코드를 실행하고 결과를 확인했습니다. 200명의 고객이 5개 그룹으로 잘 나뉘었습니다. "이제 각 그룹이 어떤 특성을 가졌는지 분석하면 되겠네요!" 박머신 선배가 만족스러운 표정을 지었습니다. "바로 그겁니다. 클러스터링은 수단이지 목적이 아니에요. 진짜 중요한 건 다음 단계입니다." 이제 각 클러스터의 특성을 자세히 분석하여 의미를 부여할 차례입니다. **실전 팁** 💡 - n_init을 크게 설정하면 더 안정적인 결과를 얻지만 계산 시간이 늘어납니다 - fit_predict() 대신 fit() 후 predict()를 분리하면 새 데이터 분류 시 유용합니다 - 클러스터 중심점을 원래 스케일로 변환해야 해석이 가능합니다 --- ## 5. 클러스터별 특성 분석 클러스터링이 끝났지만 김데이터 씨는 혼란스러웠습니다. "클러스터 0, 1, 2, 3, 4... 이게 무슨 의미인가요?" 박머신 선배가 말했습니다. "지금은 그냥 숫자일 뿐이에요. 우리가 의미를 부여해야 합니다. 각 그룹의 특성을 분석해서 '이 그룹은 고소득 VIP 고객' 같은 이름을 붙이는 거죠." **클러스터 프로파일링**은 각 클러스터의 통계적 특성을 분석하여 그룹의 의미를 파악하는 작업입니다. 마치 범죄자 프로파일링처럼 각 그룹의 평균, 중앙값, 분포 등을 살펴봅니다. 이를 통해 단순한 숫자 레이블을 "고소득 고지출 그룹" 같은 의미있는 세그먼트로 변환합니다. 다음 코드를 살펴봅시다. ```python import seaborn as sns # 클러스터별 평균 특성 계산 cluster_profile = df.groupby('Cluster').agg({ 'Annual_Income': ['mean', 'std', 'min', 'max'], 'Spending_Score': ['mean', 'std', 'min', 'max'] }).round(2) print("클러스터별 프로필:\n", cluster_profile) # 클러스터별 고객 수 print("\n클러스터별 고객 수:") print(df['Cluster'].value_counts().sort_index()) # 시각화: 클러스터 분포 plt.figure(figsize=(12, 5)) plt.subplot(1, 2, 1) sns.scatterplot(data=df, x='Annual_Income', y='Spending_Score', hue='Cluster', palette='Set2', s=100) plt.title('Customer Segments') plt.xlabel('Annual Income (k$)') plt.ylabel('Spending Score (1-100)') plt.subplot(1, 2, 2) df['Cluster'].value_counts().sort_index().plot(kind='bar') plt.title('Customers per Cluster') plt.xlabel('Cluster') plt.ylabel('Count') plt.tight_layout() plt.show() ``` 김데이터 씨는 화면에 나타난 숫자들을 보며 막막함을 느꼈습니다. 0부터 4까지의 레이블만으로는 아무것도 알 수 없었습니다. 박머신 선배가 옆자리로 와서 설명을 시작했습니다. "클러스터링은 데이터를 나누는 것일 뿐이에요. 진짜 중요한 건 각 그룹이 어떤 특성을 가졌는지 이해하는 겁니다. 이걸 **클러스터 프로파일링**이라고 해요." **클러스터 프로파일링**이란 무엇일까요? 쉽게 비유하자면, 마치 처음 만난 사람을 파악하는 것과 같습니다. "A라는 사람이에요"라고만 하면 아무 정보가 없습니다. 하지만 "30대 남성, 엔지니어, 독서를 좋아하고 조용한 성격"이라고 설명하면 그 사람을 이해할 수 있습니다. 클러스터도 마찬가지로 통계량과 특성으로 프로필을 만들어야 합니다. 왜 이 단계가 중요할까요? 머신러닝 알고리즘은 패턴을 찾을 뿐, 의미를 부여하지는 않습니다. 클러스터 0이 왜 중요한지, 어떤 마케팅 전략을 써야 하는지는 알고리즘이 알려주지 않습니다. 도메인 지식을 가진 분석가가 데이터를 해석하고 비즈니스 의미를 발견해야 합니다. 특히 고객 세분화에서는 각 세그먼트의 특성을 명확히 이해해야 맞춤형 전략을 수립할 수 있습니다. "클러스터 2는 고소득이지만 저지출이네? 이들의 구매를 촉진할 방법은 뭘까?" 같은 인사이트가 프로파일링에서 나옵니다. 코드를 단계별로 살펴보겠습니다. 먼저 `groupby('Cluster')`로 클러스터별로 데이터를 그룹화합니다. 그 다음 `agg()` 함수로 각 그룹의 통계량을 계산합니다. Annual_Income과 Spending_Score에 대해 평균, 표준편차, 최솟값, 최댓값을 구합니다. 예를 들어 클러스터 0의 평균 수입이 25, 평균 지출 점수가 20이라면 "저소득 저지출 그룹"으로 해석할 수 있습니다. 표준편차가 크면 그룹 내 편차가 크다는 의미이므로 클러스터링 품질이 좋지 않을 수 있습니다. 시각화는 데이터를 이해하는 가장 좋은 방법입니다. 첫 번째 그래프는 산점도로, X축에 연간 수입, Y축에 지출 점수를 놓고 각 점을 클러스터별로 색칠합니다. 이 그래프를 보면 각 클러스터가 공간 상에서 어떻게 분포하는지 한눈에 알 수 있습니다. 예를 들어 오른쪽 위 모서리에 있는 그룹은 고소득 고지출, 왼쪽 아래는 저소득 저지출입니다. 오른쪽 아래에 있다면 고소득이지만 저지출이므로 잠재력이 높은 타겟입니다. 두 번째 그래프는 막대 그래프로, 각 클러스터에 속한 고객 수를 보여줍니다. 클러스터 크기가 너무 불균형하면 문제가 될 수 있습니다. 예를 들어 클러스터 하나에 180명, 나머지 네 개에 각 5명씩 있다면 클러스터링이 제대로 안 된 것입니다. 실무에서는 이렇게 활용합니다. 각 클러스터의 프로필을 Excel이나 PPT로 정리하여 마케팅 팀에 공유합니다. "클러스터 2는 25-35세 여성, 평균 수입 70K, 온라인 구매 선호, 패션/뷰티 관심사"처럼 상세하게 기술합니다. 이를 바탕으로 각 세그먼트에 맞는 메시지, 채널, 상품을 기획합니다. 또한 시간이 지나면서 클러스터 분포가 어떻게 변하는지 모니터링합니다. VIP 그룹이 줄어든다면 고객 이탈 위험 신호이고, 잠재 고객 그룹이 늘어난다면 마케팅 기회입니다. 주의할 점도 있습니다. 통계량만으로는 전체 그림을 보기 어렵습니다. 평균이 같아도 분포가 다를 수 있으므로, 히스토그램이나 박스플롯으로 분포를 확인해야 합니다. 또한 이상치(outlier)가 평균을 왜곡할 수 있으므로 중앙값도 함께 봐야 합니다. 김데이터 씨는 산점도를 보며 감탄했습니다. "와, 정말 5개 그룹으로 깔끔하게 나뉘네요!" 박머신 선배가 웃으며 말했습니다. "이제 각 그룹에 이름을 붙여봅시다. 그래야 마케팅 팀도 이해할 수 있어요." 이제 클러스터의 특성을 파악했으니, 비즈니스 관점에서 의미있는 이름을 부여할 차례입니다. **실전 팁** 💡 - 평균만 보지 말고 표준편차, 중앙값, 분포도 함께 확인하세요 - 시각화는 여러 각도로 해보세요 (산점도, 박스플롯, 히스토그램 등) - 도메인 전문가와 함께 프로필을 해석하면 더 정확한 인사이트를 얻을 수 있습니다 --- ## 6. 고객 세그먼트 정의 박머신 선배가 화이트보드에 5개의 원을 그렸습니다. "자, 이제 각 그룹에 이름을 붙여봅시다. 클러스터 0은 평균 수입 55, 평균 지출 50이네요. 중산층 고객이라고 할 수 있겠죠?" 김데이터 씨도 흥미를 느끼며 다른 클러스터들을 분석하기 시작했습니다. **고객 세그먼트 정의**는 통계적 클러스터에 비즈니스 의미를 부여하는 작업입니다. 마치 별자리에 이름을 붙이듯, 각 그룹의 특성을 분석하여 "VIP 고객", "잠재 고객", "가성비 추구 고객" 같은 실무에서 사용할 수 있는 레이블을 만듭니다. 이를 통해 데이터 분석 결과를 실제 마케팅 전략으로 연결합니다. 다음 코드를 살펴봅시다. ```python # 클러스터별 평균값 확인 cluster_means = df.groupby('Cluster')[['Annual_Income', 'Spending_Score']].mean() print("클러스터별 평균:\n", cluster_means) # 세그먼트 정의 함수 def define_segment(cluster_id, income, score): """클러스터 특성에 따라 세그먼트 이름 부여""" if income > 70 and score > 60: return 'VIP 고객' elif income > 70 and score 60: return '충성 고객' elif income < 40 and score < 40: return '신규 타겟' else: return '일반 고객' # 각 클러스터에 세그먼트 이름 부여 segment_names = {} for cluster_id, row in cluster_means.iterrows(): segment_names[cluster_id] = define_segment( cluster_id, row['Annual_Income'], row['Spending_Score'] ) # 데이터프레임에 세그먼트 이름 추가 df['Segment'] = df['Cluster'].map(segment_names) print("\n세그먼트별 고객 수:") print(df['Segment'].value_counts()) ``` 김데이터 씨는 각 클러스터의 평균값을 노트에 적어가며 패턴을 찾기 시작했습니다. "클러스터 1은 수입도 높고 지출도 많네요. 이게 VIP 고객 아닐까요?" 박머신 선배가 고개를 끄덕였습니다. "정확해요. 하지만 VIP라는 이름을 붙이기 전에 여러 각도에서 검증해봐야 합니다. 혹시 이 그룹에 이상치가 섞여있지 않은지, 그룹 내 편차가 너무 크지 않은지 확인해야 해요." **세그먼트 정의**란 무엇일까요? 쉽게 비유하자면, 마치 사람들을 성격 유형으로 분류하는 것과 같습니다. MBTI처럼 "INTJ", "ENFP" 같은 레이블을 붙이면 각 유형의 특성을 쉽게 이해하고 기억할 수 있습니다. 고객 세그먼트도 "클러스터 0"보다는 "가성비 추구 고객"이라는 이름이 훨씬 직관적입니다. 세그먼트 이름은 두 가지 목적을 가집니다. 첫째는 **커뮤니케이션**입니다. 분석 결과를 마케팅 팀, 경영진과 공유할 때 "클러스터 3"보다 "충성 고객"이 훨씬 이해하기 쉽습니다. 둘째는 **액션**입니다. "VIP 고객에게는 프리미엄 서비스", "잠재 고객에게는 구매 유도 캠페인"처럼 구체적인 전략으로 이어집니다. 왜 이 단계가 중요할까요? 데이터 분석의 궁극적 목표는 **비즈니스 가치 창출**입니다. 아무리 완벽한 클러스터링을 해도 실무에서 활용되지 않으면 무용지물입니다. 마케팅 담당자가 "클러스터 2에게 이메일 보내세요"보다 "잠재 고객에게 이메일 보내세요"가 훨씬 자연스럽습니다. 또한 세그먼트 이름은 조직 전체가 공유하는 **공통 언어**가 됩니다. 영업팀, 마케팅팀, 제품팀이 모두 "VIP 고객"이라는 용어를 같은 의미로 사용하면 협업이 원활해집니다. 코드를 단계별로 살펴보겠습니다. 먼저 `groupby('Cluster').mean()`으로 각 클러스터의 평균 수입과 평균 지출 점수를 계산합니다. 이 값이 세그먼트를 정의하는 기준이 됩니다. `define_segment()` 함수는 수입과 지출 점수를 입력받아 적절한 세그먼트 이름을 반환합니다. 예를 들어 수입이 70 이상이고 지출 점수가 60 이상이면 'VIP 고객', 수입은 높지만 지출이 낮으면 '잠재 고객'으로 분류합니다. 이 기준은 도메인 지식과 비즈니스 목표에 따라 달라집니다. 예를 들어 명품 브랜드라면 수입 기준을 더 높게 설정할 수 있고, 대중 브랜드라면 낮게 설정할 수 있습니다. 반복문으로 각 클러스터를 순회하며 세그먼트 이름을 결정합니다. `map()` 함수로 각 고객의 클러스터 번호를 세그먼트 이름으로 변환하여 새 컬럼을 만듭니다. 이제 데이터프레임에 'Cluster'와 'Segment' 두 개의 컬럼이 생겼습니다. 실무에서는 어떻게 활용할까요? 세그먼트 정의는 일회성 작업이 아닙니다. 시간이 지나면서 시장 상황, 고객 행동, 비즈니스 전략이 변하므로 주기적으로 재평가해야 합니다. 분기별로 클러스터링을 다시 수행하고 세그먼트 정의를 업데이트하는 것이 좋습니다. 또한 세그먼트는 다차원적일 수 있습니다. 이 프로젝트에서는 수입과 지출만 봤지만, 실무에서는 연령, 지역, 구매 카테고리, 방문 빈도 등 수십 개 변수를 고려합니다. 이럴 때는 **페르소나**를 만들어 각 세그먼트를 구체적으로 묘사합니다. 예를 들어 "VIP 고객: 40대 여성, 서울 거주, 월 3회 이상 구매, 패션/뷰티 선호, 모바일 앱 사용"처럼 상세하게 기술합니다. 심지어 가상의 인물 사진과 이름을 붙이기도 합니다. 주의할 점도 있습니다. 세그먼트 이름은 중립적이어야 합니다. "저가 고객", "돈 안 쓰는 고객" 같은 부정적 표현은 피해야 합니다. "가성비 추구 고객", "신규 타겟 고객"처럼 긍정적이거나 중립적인 용어를 사용하세요. 또한 세그먼트는 **상호 배타적**이어야 합니다. 한 고객이 여러 세그먼트에 동시에 속하면 혼란스럽습니다. K-Means는 자동으로 이를 보장하지만, 수동으로 규칙을 만들 때는 주의해야 합니다. 김데이터 씨는 결과를 보며 뿌듯해했습니다. "VIP 고객 38명, 잠재 고객 42명... 이제 각 그룹별로 어떤 마케팅을 할지 제안할 수 있겠어요!" 박머신 선배가 어깨를 두드렸습니다. "마지막 단계예요. 실제 마케팅 전략을 수립해봅시다." 이제 세그먼트를 정의했으니, 각 그룹에 맞는 구체적인 마케팅 전략을 제안할 차례입니다. **실전 팁** 💡 - 세그먼트 이름은 마케팅 팀과 협의하여 정하면 더 실용적입니다 - 페르소나를 만들면 세그먼트를 더 생생하게 이해할 수 있습니다 - 세그먼트 정의는 주기적으로 재평가하고 업데이트하세요 --- ## 7. 마케팅 전략 제안 김데이터 씨는 마침내 분석 보고서의 마지막 장을 작성하고 있었습니다. 팀장님이 가장 궁금해하실 부분, 바로 "그래서 우리가 뭘 해야 하는가?"였습니다. 박머신 선배가 조언했습니다. "데이터 분석은 인사이트를 찾는 것만으로는 부족해요. 실행 가능한 액션 플랜까지 제시해야 합니다." **세그먼트별 마케팅 전략**은 각 고객 그룹의 특성에 맞는 맞춤형 접근 방법을 수립하는 것입니다. 마치 의사가 환자별로 다른 처방을 내리듯, 각 세그먼트의 니즈와 행동 패턴을 고려하여 메시지, 채널, 상품, 프로모션을 최적화합니다. 이를 통해 마케팅 ROI를 극대화하고 고객 만족도를 높입니다. 다음 코드를 살펴봅시다. ```python # 세그먼트별 마케팅 전략 정의 marketing_strategies = { 'VIP 고객': { 'strategy': '프리미엄 경험 제공', 'tactics': [ '전용 VIP 라운지 및 개인 쇼퍼 서비스', '신상품 우선 공개 및 초대 이벤트', '포인트 2배 적립 및 무료 배송' ], 'channel': '개인화된 이메일, SMS, 전화 상담', 'budget_allocation': '30%' }, '잠재 고객': { 'strategy': '구매 전환 유도', 'tactics': [ '첫 구매 20% 할인 쿠폰', '관심 상품 추천 및 리뷰 강조', '한정 시간 플래시 세일' ], 'channel': '타겟 광고, 리타겟팅 캠페인', 'budget_allocation': '25%' }, '충성 고객': { 'strategy': '관계 강화 및 유지', 'tactics': [ '멤버십 프로그램 및 생일 쿠폰', '추천 시 양측 혜택 프로그램', '고객 감사 이벤트' ], 'channel': '앱 푸시, 이메일 뉴스레터', 'budget_allocation': '20%' } } # 전략 요약 출력 for segment, strategy in marketing_strategies.items(): print(f"\n=== {segment} ===") print(f"전략: {strategy['strategy']}") print(f"채널: {strategy['channel']}") print(f"예산 배분: {strategy['budget_allocation']}") ``` 김데이터 씨는 각 세그먼트를 바라보며 고민에 빠졌습니다. "VIP 고객에게는 뭘 해줘야 할까요? 이미 많이 사는 분들인데요." 박머신 선배가 웃으며 답했습니다. "바로 그게 함정이에요. VIP 고객은 이미 충분하다고 생각하면 안 됩니다. 경쟁사로 떠나는 순간 큰 손실이에요. 오히려 더 특별하게 대우해서 충성도를 높여야 합니다." **마케팅 전략 수립**이란 무엇일까요? 쉽게 비유하자면, 마치 레스토랑이 손님 유형별로 다른 서비스를 제공하는 것과 같습니다. 단골 손님에게는 특별 메뉴를 추천하고, 처음 온 손님에게는 인기 메뉴를 소개하고, 자주 오지만 적게 주문하는 손님에게는 세트 메뉴를 권하는 식입니다. 각 세그먼트의 니즈와 행동에 맞춰 최적화된 접근이 필요합니다. 왜 세그먼트별 전략이 필요할까요? 전통적 마케팅은 **일괄 발송** 방식이었습니다. 모든 고객에게 같은 이메일, 같은 광고를 보냈습니다. 하지만 이는 엄청난 낭비입니다. 이미 충분히 구매하는 VIP 고객에게 할인 쿠폰을 보내는 것은 마진만 깎는 것이고, 돈은 많지만 구매 의향이 낮은 고객에게 프리미엄 상품을 광고하는 것은 효과가 없습니다. **세그먼트 마케팅**은 각 그룹에 맞는 메시지와 오퍼를 제공하여 효율성을 극대화합니다. 같은 예산으로 훨씬 높은 전환율과 ROI를 달성할 수 있습니다. 아마존, 넷플릭스 같은 기업들이 성공한 비결이 바로 고도화된 세그먼트 마케팅입니다. VIP 고객 전략을 살펴보겠습니다. VIP 고객은 이미 높은 수입과 높은 지출을 보이는 최상위 세그먼트입니다. 이들의 목표는 **유지와 확대**입니다. 이탈을 방지하고, 가능하다면 지출을 더 늘리는 것입니다. 전략은 **프리미엄 경험 제공**입니다. 단순한 할인이 아니라 특별한 대우를 해야 합니다. VIP 라운지, 개인 쇼퍼, 신상품 우선 공개처럼 돈으로 살 수 없는 가치를 제공합니다. 채널은 개인화된 이메일이나 전화 상담처럼 일대일 커뮤니케이션이 효과적입니다. 잠재 고객 전략을 살펴보겠습니다. 잠재 고객은 높은 수입을 가졌지만 지출이 낮은 그룹입니다. **구매력은 있지만 아직 활성화되지 않은** 세그먼트입니다. 이들의 목표는 **전환과 활성화**입니다. 전략은 **구매 전환 유도**입니다. 첫 구매 할인, 무료 배송, 한정 시간 세일로 구매 장벽을 낮춥니다. 또한 상품 추천과 리뷰를 강조하여 신뢰를 구축합니다. 채널은 타겟 광고와 리타겟팅이 효과적입니다. 한 번 사이트를 방문한 사람에게 계속 광고를 노출하는 방식입니다. 충성 고객 전략을 살펴보겠습니다. 충성 고객은 수입은 낮지만 지출이 높은 그룹입니다. **가진 건 적지만 우리 쇼핑몰을 사랑하는** 귀중한 세그먼트입니다. 이들의 목표는 **관계 유지와 입소문**입니다. 전략은 **관계 강화**입니다. 멤버십 프로그램, 생일 쿠폰, 적립 포인트로 충성도를 보상합니다. 또한 추천 프로그램을 통해 이들이 브랜드 홍보대사가 되도록 유도합니다. 채널은 앱 푸시나 이메일 뉴스레터가 적합합니다. 예산 배분은 어떻게 할까요? VIP 고객에게 30%를 배분하는 이유는 이들의 **생애 가치(LTV)**가 가장 크기 때문입니다. 잠재 고객에게 25%를 배분하는 이유는 전환 시 큰 수익 증가가 기대되기 때문입니다. 충성 고객은 이미 충분히 구매하므로 20%로 유지 관리에 집중합니다. 실무에서는 이렇게 활용합니다. 이 전략을 마케팅 자동화 도구(HubSpot, Marketo 등)에 설정합니다. 고객이 VIP 세그먼트에 들어가면 자동으로 VIP 전용 이메일 시퀀스가 발송되고, 잠재 고객이 되면 전환 유도 캠페인이 시작됩니다. 또한 A/B 테스트로 전략을 지속적으로 개선합니다. "VIP 고객에게 할인 vs 무료 배송 중 어느 것이 더 효과적인가?" 같은 실험을 반복하며 최적화합니다. 주의할 점도 있습니다. 세그먼트는 고정된 것이 아닙니다. 고객은 세그먼트 간 이동합니다. 잠재 고객이 구매를 시작하면 VIP로 올라가고, VIP 고객이 구매를 멈추면 이탈 위험 고객이 됩니다. 따라서 고객의 세그먼트를 주기적으로 재계산하고 전략을 조정해야 합니다. 또한 모든 세그먼트를 동시에 공략하려면 리소스가 부족할 수 있습니다. 초기에는 가장 임팩트가 큰 1-2개 세그먼트에 집중하는 것이 현명합니다. 김데이터 씨는 보고서를 완성하고 팀장님께 발표했습니다. "5개 세그먼트를 발견했고 각각에 맞는 전략을 제안합니다." 팀장님이 만족스러운 표情으로 고개를 끄덕였습니다. "훌륭해요. 다음 분기부터 이 전략을 실행해봅시다." 박머신 선배가 김데이터 씨를 축하했습니다. "첫 프로젝트 치고 아주 잘했어요. 데이터 분석은 숫자 놀음이 아니라 비즈니스 문제를 푸는 거라는 걸 기억하세요." 김데이터 씨는 뿌듯함을 느끼며 다음 프로젝트를 기다렸습니다. 이제 머신러닝이 단순히 어려운 기술이 아니라, 실제 문제를 해결하는 강력한 도구라는 것을 깨달았습니다. **실전 팁** 💡 - 세그먼트별 전략은 마케팅 팀과 긴밀히 협업하여 수립하세요 - A/B 테스트로 전략의 효과를 검증하고 지속적으로 개선하세요 - 고객은 세그먼트 간 이동하므로 주기적으로 재분류하고 전략을 조정하세요 --- 이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

카테고리: Python

언어: Python

태그: Python, Clustering, KMeans, DataAnalysis, MachineLearning

작성자: AI Generated

프리미엄 콘텐츠 - 3개월 무료 체험 가능

CodeDeck

쇼핑몰 고객 세분화 분석 완벽 가이드

목차

1. 고객 데이터셋 소개

2. 데이터 전처리 및 스케일링

3. 최적 클러스터 수 탐색

4. K-Means 클러스터링 수행

5. 클러스터별 특성 분석

6. 고객 세그먼트 정의

7. 마케팅 전략 제안

이 카드뉴스가 포함된 코스

프로젝트로 배우는 파이썬 데이터 과학

댓글 (0)

함께 보면 좋은 카드 뉴스

vLLM 통합 완벽 가이드

Web UI Demo 구축 완벽 가이드

Sandboxing & Execution Control 완벽 가이드

Voice Design then Clone 워크플로우 완벽 가이드

Tool Use 완벽 가이드 - Shell, Browser, DB 실전 활용