표본 크기 계산 방법 완벽 가이드

통계 분석에서 신뢰할 수 있는 결과를 얻기 위한 표본 크기 계산 방법을 알아봅니다. 신뢰수준, 오차범위, 모집단 크기를 고려한 실무 활용법을 초급자도 쉽게 이해할 수 있도록 설명합니다.

1. 표본 크기란 무엇인가

어느 날 김개발 씨는 마케팅팀에서 급한 요청을 받았습니다. "이번 신규 기능에 대해 사용자 설문조사를 진행하려고 하는데, 몇 명에게 물어봐야 할까요?" 김개발 씨는 순간 멈칫했습니다.

전체 사용자가 10만 명인데, 설마 10만 명 전부에게 물어봐야 하는 건 아니겠죠?

**표본 크기(Sample Size)**란 전체 모집단을 대표할 수 있는 최소한의 조사 대상 수를 의미합니다. 마치 큰 솥에서 국의 간을 볼 때 한 숟가락만 떠서 맛보는 것과 같습니다.

적절한 표본 크기를 정하면 시간과 비용을 절약하면서도 신뢰할 수 있는 결과를 얻을 수 있습니다.

다음 코드를 살펴봅시다.

import math

def calculate_sample_size(population, confidence_level=0.95, margin_of_error=0.05):
    # Z-score: 신뢰수준에 따른 표준 점수
    z_scores = {0.90: 1.645, 0.95: 1.96, 0.99: 2.576}
    z = z_scores.get(confidence_level, 1.96)

    # 모비율 p는 보수적으로 0.5 사용 (최대 표본 크기)
    p = 0.5
    e = margin_of_error

    # 무한 모집단 표본 크기 계산
    n_infinite = (z**2 * p * (1-p)) / (e**2)

    # 유한 모집단 보정 적용
    sample_size = n_infinite / (1 + (n_infinite - 1) / population)

    return math.ceil(sample_size)

# 10만 명 중 필요한 표본 크기
result = calculate_sample_size(100000)
print(f"필요한 표본 크기: {result}명")  # 출력: 383명

김개발 씨는 입사 6개월 차 데이터 분석가입니다. 오늘도 열심히 대시보드를 만들던 중, 마케팅팀장님이 다급하게 찾아왔습니다.

"다음 주까지 사용자 만족도 조사 결과가 필요해요. 우리 서비스 사용자가 10만 명인데, 몇 명에게 설문을 보내야 할까요?" 김개발 씨는 고민에 빠졌습니다.

10만 명 전부에게 설문을 보내자니 비용이 너무 많이 들고, 그렇다고 100명만 조사하자니 결과를 믿을 수 있을지 걱정이 됩니다. 이때 옆자리의 박시니어 씨가 다가와 말했습니다.

"표본 크기 계산을 해보면 돼요. 생각보다 적은 수로도 충분히 신뢰할 수 있는 결과를 얻을 수 있거든요." 그렇다면 표본 크기란 정확히 무엇일까요?

쉽게 비유하자면, 표본 크기를 정하는 것은 마치 큰 솥에 끓인 국의 간을 보는 것과 같습니다. 우리는 솥 전체의 국을 다 마셔보지 않아도, 잘 저은 후 한 숟가락만 떠서 간을 확인할 수 있습니다.

중요한 것은 국을 잘 저어서 모든 재료가 골고루 섞인 상태에서 맛을 보는 것입니다. 이 한 숟가락이 바로 표본이고, 숟가락의 크기가 표본 크기입니다.

표본 크기가 너무 작으면 어떻게 될까요? 만약 설문조사를 10명에게만 한다면, 우연히 불만이 많은 사람들만 응답했을 수도 있습니다.

이 결과로 "사용자의 80%가 불만족"이라고 결론 내리면 큰 오류를 범하게 됩니다. 반대로 10만 명 전체에게 조사한다면 정확하겠지만, 시간과 비용이 너무 많이 듭니다.

바로 이런 딜레마를 해결하기 위해 표본 크기 계산 공식이 존재합니다. 위의 코드를 살펴보면, 핵심은 세 가지 요소입니다.

첫째는 신뢰수준으로, 보통 95%를 사용합니다. 둘째는 오차범위로, 보통 5%를 허용합니다.

셋째는 모집단 크기로, 전체 사용자 수를 의미합니다. 코드의 6번째 줄에서 Z-score를 가져오는 부분이 중요합니다.

95% 신뢰수준에서는 1.96이라는 값을 사용하는데, 이는 통계학에서 정규분포를 기반으로 미리 계산된 값입니다. 놀라운 사실이 있습니다.

10만 명의 모집단에서 95% 신뢰수준, 5% 오차범위로 계산하면 필요한 표본 크기는 고작 383명입니다. 100만 명이어도 384명이면 충분합니다.

모집단이 일정 수준을 넘으면 표본 크기는 거의 변하지 않기 때문입니다. 다시 김개발 씨의 이야기로 돌아가 봅시다.

박시니어 씨의 설명을 들은 김개발 씨는 눈이 휘둥그레졌습니다. "10만 명 중에 400명 정도만 조사해도 된다고요?" 표본 크기 계산의 원리를 이해하면, 데이터 분석가로서 훨씬 효율적인 의사결정을 내릴 수 있습니다.

실전 팁

💡 - 모비율을 모를 때는 0.5를 사용하면 가장 보수적인(큰) 표본 크기가 계산됩니다

신뢰수준 99%가 항상 좋은 것은 아닙니다. 비용 대비 효율을 고려하세요

2. 신뢰수준과 Z 스코어

김개발 씨가 표본 크기 계산 코드를 보다가 의문이 생겼습니다. "95% 신뢰수준에서 왜 1.96이라는 숫자를 쓰는 거죠?" 박시니어 씨가 웃으며 답했습니다.

"그건 정규분포의 마법과 관련이 있어요."

**신뢰수준(Confidence Level)**은 우리의 추정이 얼마나 믿을 만한지를 나타내는 확률입니다. Z-스코어는 이 신뢰수준을 정규분포에서 표현한 값입니다.

95% 신뢰수준이란, 같은 방법으로 100번 조사했을 때 95번은 실제 값이 우리 추정 범위 안에 들어온다는 의미입니다.

다음 코드를 살펴봅시다.

from scipy import stats
import numpy as np

def get_z_score(confidence_level):
    # 양측 검정에서의 Z-score 계산
    # (1 - confidence_level) / 2 = 한쪽 꼬리 확률
    alpha = 1 - confidence_level
    z_score = stats.norm.ppf(1 - alpha/2)
    return round(z_score, 3)

# 다양한 신뢰수준에 대한 Z-score
confidence_levels = [0.90, 0.95, 0.99]
for cl in confidence_levels:
    z = get_z_score(cl)
    print(f"신뢰수준 {cl*100}%: Z = {z}")

# 출력:
# 신뢰수준 90%: Z = 1.645
# 신뢰수준 95%: Z = 1.96
# 신뢰수준 99%: Z = 2.576

김개발 씨는 표본 크기 계산을 이해했지만, 한 가지가 여전히 찜찜했습니다. 왜 하필 1.96인 걸까요?

어디서 튀어나온 숫자일까요? 박시니어 씨가 화이트보드에 종 모양의 곡선을 그리기 시작했습니다.

"이게 바로 정규분포야. 대부분의 데이터는 가운데에 몰려 있고, 양 끝으로 갈수록 적어지지." 정규분포는 마치 교실에서 학생들의 키 분포와 같습니다.

대부분의 학생은 평균 키 근처에 있고, 아주 작거나 아주 큰 학생은 드뭅니다. 이 종 모양 곡선의 가운데 95%를 차지하는 범위가 바로 평균에서 좌우로 1.96 표준편차 떨어진 곳입니다.

그렇다면 **신뢰수준 95%**란 무슨 의미일까요? 쉽게 설명하면 이렇습니다.

우리가 400명을 조사해서 "사용자 만족도는 70%다"라고 추정했다고 합시다. 95% 신뢰수준이란, 같은 방식으로 100번 조사했을 때 95번은 실제 만족도가 우리의 추정 범위(예: 65%~75%) 안에 들어온다는 뜻입니다.

나머지 5번은 운이 나빠서 표본이 전체를 제대로 대표하지 못한 경우입니다. 100번 중 5번 정도는 틀릴 수 있다는 것을 인정하는 셈입니다.

위 코드에서 stats.norm.ppf 함수는 역누적분포함수입니다. 어려워 보이지만 하는 일은 간단합니다.

"정규분포에서 하위 97.5% 지점은 어디인가?"라고 물으면, "평균에서 1.96 표준편차 떨어진 곳"이라고 답해주는 함수입니다. 왜 97.5%일까요?

95% 신뢰구간은 양쪽 꼬리에서 각각 2.5%씩을 제외한 가운데 영역입니다. 따라서 한쪽 끝인 97.5% 지점을 찾으면 Z-스코어 1.96이 나옵니다.

신뢰수준을 높이면 어떻게 될까요? 99% 신뢰수준을 원한다면 Z-스코어는 2.576으로 커집니다.

그만큼 더 넓은 범위를 잡아야 하고, 결과적으로 필요한 표본 크기도 늘어납니다. 실무에서는 대부분 95% 신뢰수준을 표준으로 사용합니다.

99%는 의료나 항공처럼 오류가 치명적인 분야에서 사용하고, 90%는 빠른 의사결정이 필요할 때 사용합니다. 김개발 씨가 고개를 끄덕였습니다.

"아, 1.96은 그냥 외울 게 아니라 정규분포에서 95%를 커버하는 범위였군요!"

실전 팁

💡 - 95% 신뢰수준(Z=1.96)은 업계 표준이므로 특별한 이유가 없다면 이것을 사용하세요

scipy가 설치되어 있지 않다면, 자주 쓰는 Z-스코어 값을 딕셔너리로 저장해두면 편리합니다

3. 오차범위의 의미

마케팅팀장이 결과 보고서를 보더니 물었습니다. "오차범위 플러스마이너스 5%라는 게 무슨 뜻이에요?" 김개발 씨는 잠시 생각했습니다.

분명히 계산할 때 5%를 넣었는데, 막상 설명하려니 말문이 막혔습니다.

**오차범위(Margin of Error)**는 표본 조사 결과가 실제 모집단 값과 얼마나 차이날 수 있는지를 나타냅니다. 오차범위 5%로 "만족도 70%"라는 결과가 나왔다면, 실제 만족도는 65%에서 75% 사이에 있을 가능성이 높다는 의미입니다.

다음 코드를 살펴봅시다.

import math

def calculate_margin_of_error(sample_size, confidence_level=0.95, proportion=0.5):
    # 신뢰수준에 따른 Z-score
    z_scores = {0.90: 1.645, 0.95: 1.96, 0.99: 2.576}
    z = z_scores.get(confidence_level, 1.96)

    # 오차범위 계산 공식
    # MOE = Z * sqrt(p * (1-p) / n)
    p = proportion
    n = sample_size

    margin_of_error = z * math.sqrt(p * (1 - p) / n)
    return round(margin_of_error * 100, 2)  # 퍼센트로 변환

# 다양한 표본 크기에 따른 오차범위
sample_sizes = [100, 400, 1000, 2500]
for n in sample_sizes:
    moe = calculate_margin_of_error(n)
    print(f"표본 크기 {n}명: 오차범위 ±{moe}%")

김개발 씨는 설문 결과를 마케팅팀에 전달했습니다. "400명을 조사한 결과, 사용자 만족도는 70%입니다." 그런데 팀장님이 질문을 던졌습니다.

"그럼 정확히 70%라는 거예요?" 사실 그렇지 않습니다. 400명은 10만 명 전체가 아니라 표본일 뿐입니다.

표본 조사에는 필연적으로 불확실성이 따릅니다. 오차범위는 바로 이 불확실성을 수치로 표현한 것입니다.

쉽게 비유하면, 오차범위는 마치 활쏘기에서 과녁의 크기와 같습니다. 우리는 정확히 가운데 점수(실제 값)를 맞히고 싶지만, 화살이 약간 빗나갈 수 있습니다.

오차범위는 "이 범위 안에는 들어갈 거야"라고 말하는 원의 크기입니다. 위 코드를 실행하면 흥미로운 패턴이 보입니다.

표본 크기 100명일 때 오차범위는 약 9.8%이고, 400명일 때는 4.9%, 1000명일 때는 3.1%입니다. 여기서 중요한 법칙이 드러납니다.

표본 크기를 4배로 늘리면 오차범위는 2배만 줄어듭니다. 오차범위 공식에 제곱근이 포함되어 있기 때문입니다. 이것이 실무에서 매우 중요한 의미를 가집니다.

오차범위를 5%에서 2.5%로 줄이려면 표본을 4배로 늘려야 합니다. 비용도 4배로 늘어납니다.

그래서 무조건 정확도를 높이는 것보다 적절한 수준에서 타협하는 것이 현명합니다. 실무에서 가장 많이 사용하는 오차범위는 3%에서 5% 사이입니다.

중요한 의사결정에는 3%, 일반적인 조사에는 5%를 사용합니다. 1% 오차범위는 거의 사용하지 않는데, 필요한 표본 크기가 너무 커지기 때문입니다.

박시니어 씨가 덧붙였습니다. "뉴스에서 여론조사 결과를 발표할 때 항상 '95% 신뢰수준에 오차범위 플러스마이너스 3.1%'라고 하잖아.

그게 바로 이거야." 김개발 씨는 이제 마케팅팀장에게 자신 있게 설명할 수 있었습니다. "만족도 70%라는 건, 실제로는 65%에서 75% 사이일 가능성이 95%라는 뜻입니다."

실전 팁

💡 - 오차범위 5%는 대부분의 비즈니스 의사결정에 충분합니다

더 정확한 결과가 필요하다면, 비용 대비 효과를 먼저 계산해보세요

4. 유한 모집단 보정

김개발 씨가 이상한 점을 발견했습니다. 모집단이 500명인 동아리 설문과 모집단이 5000만 명인 국민 여론조사에 필요한 표본 크기가 비슷하게 나온다고요?

"뭔가 이상한데..." 박시니어 씨가 미소를 지었습니다. "유한 모집단 보정이라는 게 있어."

**유한 모집단 보정(Finite Population Correction, FPC)**은 모집단이 작을 때 필요한 표본 크기를 줄여주는 보정 공식입니다. 모집단이 충분히 크면 거의 영향이 없지만, 모집단이 작을수록 보정 효과가 커집니다.

다음 코드를 살펴봅시다.

import math

def sample_size_with_fpc(population, confidence=0.95, margin_error=0.05):
    z_scores = {0.90: 1.645, 0.95: 1.96, 0.99: 2.576}
    z = z_scores[confidence]
    p = 0.5  # 보수적 추정

    # 무한 모집단 가정 표본 크기
    n_infinite = (z**2 * p * (1-p)) / (margin_error**2)

    # 유한 모집단 보정 적용
    # FPC = sqrt((N-n) / (N-1))
    n_finite = n_infinite / (1 + (n_infinite - 1) / population)

    # 표본 비율 계산
    sampling_fraction = n_finite / population * 100

    return {
        'population': population,
        'sample_infinite': math.ceil(n_infinite),
        'sample_finite': math.ceil(n_finite),
        'sampling_fraction': round(sampling_fraction, 1)
    }

# 다양한 모집단 크기 비교
populations = [200, 1000, 10000, 1000000]
for pop in populations:
    result = sample_size_with_fpc(pop)
    print(f"모집단 {pop:>8}명 → 표본 {result['sample_finite']}명 ({result['sampling_fraction']}%)")

김개발 씨는 회사 내 동아리 만족도 조사를 맡게 되었습니다. 동아리 회원은 총 200명입니다.

기존 공식대로 계산하니 385명이 필요하다고 나왔습니다. 하지만 잠깐, 전체가 200명인데 385명을 어떻게 조사하나요?

이때 필요한 것이 바로 유한 모집단 보정입니다. 무한 모집단 공식은 모집단이 "충분히 크다"고 가정합니다.

사실상 무한대에 가깝다고 보는 것이죠. 하지만 실제 세상에서 모집단은 유한합니다.

특히 모집단이 작을 때, 이 차이는 무시할 수 없습니다. 비유로 설명해볼까요?

10명짜리 모임에서 5명의 의견을 들었다면, 이미 절반의 의견을 들은 것입니다. 나머지 5명의 의견이 아무리 달라도 전체 결과가 크게 바뀌기 어렵습니다.

하지만 1억 명 중 5명의 의견을 들었다면, 그것은 거의 아무것도 모르는 것과 같습니다. 코드를 실행해보면 이 차이가 명확하게 드러납니다.

모집단 200명일 때, 무한 모집단 공식은 385명을 요구하지만 유한 모집단 보정을 적용하면 132명만 필요합니다. 200명 중 132명, 즉 66%를 조사하면 됩니다.

모집단 1000명일 때는 278명(27.8%)이 필요하고, 10000명일 때는 370명(3.7%)이 필요합니다. 모집단이 100만 명이 되면 384명(0.04%)으로, 무한 모집단 공식의 385명과 거의 같아집니다.

여기서 중요한 경험 법칙이 있습니다. 표본이 모집단의 5% 미만일 때는 유한 모집단 보정을 굳이 적용하지 않아도 됩니다.

차이가 미미하기 때문입니다. 유한 모집단 보정 공식의 핵심은 (N-n)/(N-1) 부분입니다.

N은 모집단, n은 표본입니다. 표본이 모집단에 가까워질수록 이 값은 0에 가까워지고, 필요 표본 크기도 줄어듭니다.

김개발 씨는 이제 동아리 조사에 132명만 필요하다는 것을 알게 되었습니다. 200명 전체에게 보내려던 설문을 132명에게만 보내도 충분한 것입니다.

실전 팁

💡 - 모집단이 10000명 이상이면 유한 모집단 보정은 거의 무시해도 됩니다

소규모 조직, 특정 고객군 등 작은 모집단 조사 시에는 반드시 보정을 적용하세요

5. AB 테스트 표본 크기

김개발 씨가 이번에는 AB 테스트를 설계하게 되었습니다. 기존 버튼의 클릭률이 5%인데, 새 디자인으로 6%까지 올리고 싶습니다.

"그럼 몇 명에게 테스트해야 하나요?" 박시니어 씨가 진지한 표정으로 답했습니다. "이건 조금 다른 계산이 필요해."

AB 테스트 표본 크기는 두 그룹 간의 차이를 통계적으로 유의미하게 검증하기 위해 필요한 최소 사용자 수입니다. 단순 설문조사와 달리 **검정력(Power)**과 **효과 크기(Effect Size)**를 함께 고려해야 합니다.

다음 코드를 살펴봅시다.

import math

def ab_test_sample_size(baseline_rate, expected_rate,
                        alpha=0.05, power=0.8):
    # Z-scores for alpha (양측) and power
    z_alpha = 1.96  # alpha 0.05 (양측)
    z_beta = 0.84   # power 0.8

    p1 = baseline_rate  # 기존 전환율
    p2 = expected_rate  # 예상 전환율
    p_pooled = (p1 + p2) / 2

    # 각 그룹당 필요한 표본 크기
    numerator = (z_alpha + z_beta)**2 * (p1*(1-p1) + p2*(1-p2))
    denominator = (p2 - p1)**2

    sample_per_group = math.ceil(numerator / denominator)
    total_sample = sample_per_group * 2

    return {
        'per_group': sample_per_group,
        'total': total_sample,
        'effect_size': round((p2-p1)/p1*100, 1)
    }

# 클릭률 5% → 6% 개선 테스트
result = ab_test_sample_size(0.05, 0.06)
print(f"각 그룹당: {result['per_group']}명")
print(f"총 필요 표본: {result['total']}명")
print(f"상대적 효과 크기: {result['effect_size']}%")

김개발 씨의 회사에서는 구매 버튼의 색상을 바꾸려고 합니다. 현재 파란색 버튼의 클릭률은 5%입니다.

디자인팀은 빨간색 버튼으로 바꾸면 클릭률이 6%로 올라갈 것이라고 예상합니다. "그냥 1000명씩 나눠서 테스트하면 안 될까요?" 김개발 씨가 물었습니다.

박시니어 씨가 고개를 저었습니다. "만약 그렇게 해서 빨간 버튼이 5.5%가 나왔다고 해봐.

그게 진짜 효과인지, 아니면 우연인지 어떻게 알 수 있겠어?" 바로 이것이 AB 테스트 표본 크기 계산이 중요한 이유입니다. AB 테스트에서는 두 가지 새로운 개념이 등장합니다.

첫째는 **검정력(Power)**입니다. 실제로 효과가 있을 때 그것을 탐지할 확률을 말합니다.

보통 80%를 사용하는데, 이는 "진짜 효과가 있다면 80%의 확률로 발견할 수 있다"는 의미입니다. 둘째는 **효과 크기(Effect Size)**입니다.

5%에서 6%로의 변화는 절대값으로는 1%포인트 차이지만, 상대적으로는 20% 개선입니다. 이 효과 크기가 작을수록 더 많은 표본이 필요합니다.

위 코드를 실행하면 놀라운 결과가 나옵니다. 5%에서 6%로의 변화를 검증하려면 각 그룹당 약 3,600명, 총 7,200명이 필요합니다.

왜 이렇게 많이 필요할까요? 1%포인트 차이는 매우 작기 때문입니다.

작은 차이를 신뢰성 있게 검출하려면 많은 데이터가 필요합니다. 만약 5%에서 7%로(2%포인트 차이) 개선을 기대한다면, 필요 표본은 약 1,600명으로 줄어듭니다.

5%에서 10%로(5%포인트 차이)라면 약 300명이면 충분합니다. 이것이 실무에서 매우 중요한 의미를 가집니다.

작은 개선을 검증하려면 오랜 시간이 걸리고, 그 동안 테스트 버전이 실제로 나쁠 경우 손해를 볼 수 있습니다. 따라서 **최소 감지 효과(Minimum Detectable Effect)**를 미리 정하고, 그에 맞는 테스트 기간을 계획해야 합니다.

김개발 씨는 깨달았습니다. "그러면 작은 개선보다는 큰 변화를 테스트하는 게 효율적이겠네요?" 박시니어 씨가 웃었습니다.

"맞아. 그래서 버튼 색상보다는 전체 레이아웃 변경처럼 큰 차이가 예상되는 테스트를 먼저 하는 거야."

실전 팁

💡 - 최소 80% 검정력을 확보하세요. 그 이하는 효과가 있어도 놓칠 확률이 높습니다

테스트 전에 필요한 표본 크기를 계산하고, 충분한 기간을 확보하세요

6. 층화 표본 추출

김개발 씨가 사용자 만족도 조사를 마쳤습니다. 그런데 결과를 보던 박시니어 씨가 미간을 찌푸렸습니다.

"응답자 중 20대가 80%네. 우리 서비스 사용자 연령대 분포랑 다른데?" 단순히 무작위로 뽑으면 안 되는 경우가 있었던 것입니다.

**층화 표본 추출(Stratified Sampling)**은 모집단을 동질적인 하위 그룹(층)으로 나누고, 각 층에서 비례적으로 표본을 추출하는 방법입니다. 이 방법을 사용하면 표본이 모집단의 특성을 더 정확하게 반영하고, 같은 표본 크기로 더 정확한 추정이 가능합니다.

다음 코드를 살펴봅시다.

import math

def stratified_sample_size(total_sample, strata_proportions):
    """
    층화 표본 추출 시 각 층별 필요 표본 수 계산

    strata_proportions: {'층이름': 비율} 형태의 딕셔너리
    """
    result = {}
    allocated = 0

    # 비례 배분
    strata_list = list(strata_proportions.items())
    for i, (stratum, proportion) in enumerate(strata_list):
        if i == len(strata_list) - 1:
            # 마지막 층: 반올림 오차 보정
            result[stratum] = total_sample - allocated
        else:
            n = round(total_sample * proportion)
            result[stratum] = n
            allocated += n

    return result

# 연령대별 사용자 분포
user_distribution = {
    '10대': 0.15,
    '20대': 0.35,
    '30대': 0.30,
    '40대': 0.15,
    '50대+': 0.05
}

total_sample = 400
stratified = stratified_sample_size(total_sample, user_distribution)
print("층화 표본 배분:")
for age, n in stratified.items():
    print(f"  {age}: {n}명 ({n/400*100:.1f}%)")

김개발 씨가 400명의 응답을 수집했습니다. 설문 링크를 무작위로 보냈는데, 응답자를 분석해보니 문제가 있었습니다.

20대가 전체의 80%를 차지한 것입니다. 실제 서비스 사용자는 10대 15%, 20대 35%, 30대 30%, 40대 15%, 50대 이상 5%로 분포되어 있습니다.

응답자 구성이 실제 사용자 구성과 너무 다릅니다. 이 결과를 그대로 발표하면 어떻게 될까요?

20대 취향에 맞춘 의사결정을 하게 되고, 다른 연령대 사용자들은 소외될 수 있습니다. 박시니어 씨가 해결책을 제시했습니다.

"처음부터 층화 표본 추출을 했어야 해." 층화 표본 추출은 마치 여러 종류의 과일이 담긴 바구니에서 맛보기를 하는 것과 같습니다. 사과, 배, 포도가 각각 50%, 30%, 20% 비율로 담겨 있다면, 맛보기도 그 비율에 맞춰서 해야 바구니 전체의 맛을 대표할 수 있습니다.

위 코드는 이 비례 배분을 자동으로 계산합니다. 400명을 조사한다면 10대 60명, 20대 140명, 30대 120명, 40대 60명, 50대 이상 20명을 각각 조사해야 합니다.

층화 표본 추출의 장점은 두 가지입니다. 첫째, 대표성이 보장됩니다.

표본의 구성이 모집단과 일치하므로, 특정 그룹이 과대 또는 과소 대표되는 문제가 없습니다. 둘째, 정확도가 향상됩니다.

같은 표본 크기로도 더 정확한 추정이 가능합니다. 통계적으로 층 내부의 변동이 층 간 변동보다 작기 때문입니다.

실무에서 층화 변수로 자주 사용되는 것들이 있습니다. 연령, 성별, 지역, 가입 기간, 구매 금액대 등입니다.

분석 목적에 따라 중요한 변수를 선택하면 됩니다. 주의할 점도 있습니다.

너무 많은 변수로 층화하면 각 층의 표본 수가 너무 작아집니다. 연령 5개 X 성별 2개 X 지역 5개 = 50개 층이 되면, 400명 표본에서 각 층당 평균 8명밖에 되지 않습니다.

김개발 씨는 다음 조사에서는 반드시 층화 표본 추출을 적용하기로 했습니다. "설문 발송 전에 연령대별 할당량을 정해놓고, 각 그룹에서 목표 수만큼 응답을 받아야겠어요."

실전 팁

💡 - 가장 중요한 1-2개 변수만 층화 변수로 사용하세요

각 층의 최소 표본 수는 30명 이상을 권장합니다

7. 파이썬 라이브러리 활용

김개발 씨가 매번 공식을 직접 구현하는 것이 번거로워졌습니다. "분명히 이런 거 해주는 라이브러리가 있을 텐데..." 검색을 해보니 역시나 있었습니다.

statsmodels라는 강력한 통계 라이브러리가 있었습니다.

statsmodels는 파이썬의 대표적인 통계 분석 라이브러리입니다. 표본 크기 계산, 검정력 분석, 회귀 분석 등 다양한 통계 기능을 제공합니다.

직접 공식을 구현하는 것보다 검증된 라이브러리를 사용하는 것이 더 안전합니다.

다음 코드를 살펴봅시다.

from statsmodels.stats.power import TTestIndPower, NormalIndPower
from statsmodels.stats.proportion import proportion_effectsize
import math

# 1. 두 비율 비교 (AB 테스트) 표본 크기 계산
def ab_test_sample(baseline, expected, alpha=0.05, power=0.8):
    effect_size = proportion_effectsize(expected, baseline)
    analysis = NormalIndPower()
    sample = analysis.solve_power(
        effect_size=effect_size,
        alpha=alpha,
        power=power,
        ratio=1,
        alternative='two-sided'
    )
    return math.ceil(sample)

# 2. 두 평균 비교 표본 크기 계산
def mean_test_sample(effect_size, alpha=0.05, power=0.8):
    analysis = TTestIndPower()
    sample = analysis.solve_power(
        effect_size=effect_size,
        alpha=alpha,
        power=power,
        ratio=1,
        alternative='two-sided'
    )
    return math.ceil(sample)

# AB 테스트: 전환율 5% → 6%
n = ab_test_sample(0.05, 0.06)
print(f"AB 테스트 필요 표본 (각 그룹): {n}명")

# 평균 비교: Cohen's d = 0.5 (중간 효과)
n = mean_test_sample(0.5)
print(f"평균 비교 필요 표본 (각 그룹): {n}명")

김개발 씨는 지금까지 배운 공식들을 직접 구현해서 사용해왔습니다. 하지만 어느 날 문득 걱정이 되었습니다.

혹시 공식을 잘못 구현한 건 아닐까요? 박시니어 씨가 조언했습니다.

"실무에서는 검증된 라이브러리를 쓰는 게 좋아. 직접 구현하면 미묘한 오류가 생길 수 있거든." statsmodels는 파이썬 데이터 과학 생태계에서 가장 신뢰받는 통계 라이브러리 중 하나입니다.

학술 연구에서도 널리 사용되며, 수많은 전문가들이 검증한 코드입니다. 이 라이브러리의 power 모듈은 검정력 분석과 표본 크기 계산을 위한 도구를 제공합니다.

위 코드에서 첫 번째 함수는 두 비율을 비교하는 AB 테스트용입니다. proportion_effectsize 함수는 두 비율의 차이를 **효과 크기(Cohen's h)**로 변환합니다.

그런 다음 NormalIndPower를 사용해 필요한 표본 크기를 계산합니다. 두 번째 함수는 두 평균을 비교할 때 사용합니다.

예를 들어 새 기능이 사용자 체류 시간을 늘리는지 테스트할 때 적용합니다. Cohen's d라는 효과 크기 지표를 사용하는데, 0.2는 작은 효과, 0.5는 중간 효과, 0.8은 큰 효과로 해석합니다.

라이브러리를 사용하면 얻는 이점이 많습니다. 첫째, 정확성입니다.

전문가들이 작성하고 검증한 코드이므로 오류 가능성이 낮습니다. 둘째, 편의성입니다.

복잡한 공식을 외우지 않아도 됩니다. 함수에 필요한 값만 넣으면 됩니다.

셋째, 확장성입니다. 다양한 검정 유형(단측, 양측, 독립, 대응 등)을 지원합니다.

설치는 간단합니다. pip install statsmodels 한 줄이면 됩니다.

scipy도 함께 설치되므로 추가 작업이 필요 없습니다. 김개발 씨는 이제 직접 구현한 코드 대신 statsmodels를 사용하기로 했습니다.

"이게 훨씬 안심이 되네요. 제가 만든 코드에 버그가 있으면 결과를 신뢰할 수 없으니까요."

실전 팁

💡 - statsmodels 외에도 scipy.stats, pingouin 등 다양한 통계 라이브러리가 있습니다

처음 배울 때는 직접 구현해보고, 실무에서는 라이브러리를 사용하세요

8. 실전 계산기 만들기

김개발 씨는 이제 배운 내용을 종합해서 팀에서 사용할 수 있는 표본 크기 계산기를 만들기로 했습니다. "비개발자도 쉽게 사용할 수 있게 만들어야겠어." 박시니어 씨가 덧붙였습니다.

"입력 검증도 잘 해야 해. 잘못된 값이 들어오면 이상한 결과가 나올 수 있거든."

실전에서 사용할 수 있는 표본 크기 계산기는 입력 검증, 다양한 시나리오 지원, 결과 해석 안내를 모두 갖춰야 합니다. 이번에는 이 모든 것을 갖춘 완성형 계산기를 만들어봅니다.

다음 코드를 살펴봅시다.

import math
from dataclasses import dataclass
from typing import Optional

@dataclass
class SampleSizeResult:
    sample_size: int
    confidence_level: float
    margin_of_error: float
    population: Optional[int]
    description: str

class SampleSizeCalculator:
    Z_SCORES = {0.90: 1.645, 0.95: 1.96, 0.99: 2.576}

    def calculate(self, population: Optional[int] = None,
                  confidence: float = 0.95,
                  margin_error: float = 0.05) -> SampleSizeResult:
        # 입력 검증
        if confidence not in self.Z_SCORES:
            raise ValueError("신뢰수준은 0.90, 0.95, 0.99 중 선택")
        if not 0 < margin_error < 1:
            raise ValueError("오차범위는 0과 1 사이 값")

        z = self.Z_SCORES[confidence]
        n = (z**2 * 0.25) / (margin_error**2)

        if population:
            n = n / (1 + (n - 1) / population)

        return SampleSizeResult(
            sample_size=math.ceil(n),
            confidence_level=confidence,
            margin_of_error=margin_error,
            population=population,
            description=self._describe(math.ceil(n), confidence, margin_error)
        )

    def _describe(self, n, conf, moe):
        return f"{conf*100:.0f}% 신뢰수준, ±{moe*100:.1f}% 오차범위로 {n}명 필요"

# 사용 예시
calc = SampleSizeCalculator()
result = calc.calculate(population=50000, confidence=0.95, margin_error=0.03)
print(result.description)

김개발 씨는 마케팅팀, 기획팀, 데이터팀 모두가 사용할 수 있는 표본 크기 계산기를 만들기로 했습니다. 단순히 숫자만 계산하는 것이 아니라, 누구나 쉽게 이해할 수 있는 도구가 되어야 합니다.

먼저 고려한 것은 입력 검증입니다. 신뢰수준으로 0.73 같은 이상한 값이 들어오면 어떻게 할까요?

오차범위로 음수가 들어오면요? 이런 경우를 모두 처리해야 합니다.

코드의 calculate 메서드 시작 부분에서 이러한 검증을 수행합니다. 다음으로 고려한 것은 결과의 구조화입니다.

dataclass를 사용해 SampleSizeResult라는 결과 객체를 정의했습니다. 이렇게 하면 결과를 체계적으로 관리할 수 있고, IDE에서 자동 완성도 지원됩니다.

결과 객체에는 계산된 표본 크기뿐만 아니라 사용된 파라미터들도 함께 저장됩니다. 나중에 "이 결과는 어떤 조건으로 계산한 거지?"라는 질문에 바로 답할 수 있습니다.

마지막으로 결과 해석을 추가했습니다. _describe 메서드는 계산 결과를 자연스러운 문장으로 변환합니다.

"95% 신뢰수준, 플러스마이너스 3.0% 오차범위로 1045명 필요"처럼 누구나 이해할 수 있는 형태로 출력됩니다. 이 계산기는 확장하기도 쉽습니다.

AB 테스트용 메서드를 추가하거나, 층화 표본 배분 기능을 추가할 수 있습니다. 클래스 구조를 사용했기 때문에 기존 코드를 수정하지 않고도 기능을 확장할 수 있습니다.

김개발 씨는 이 계산기를 회사 내부 도구로 배포했습니다. Jupyter Notebook이나 Streamlit으로 웹 인터페이스를 만들면 비개발자도 쉽게 사용할 수 있습니다.

박시니어 씨가 만족스럽게 말했습니다. "좋아.

이제 마케팅팀에서 물어볼 때마다 직접 계산해줄 필요가 없겠네."

실전 팁

💡 - 팀에서 사용할 도구는 문서화와 예제를 함께 제공하세요

Streamlit이나 Gradio로 간단한 웹 UI를 만들면 비개발자도 사용할 수 있습니다

이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

#Python#Statistics#SampleSize#DataScience#ABTesting#Data Science

표본 크기 계산 방법 완벽 가이드

# 표본 크기 계산 방법 완벽 가이드 통계 분석에서 신뢰할 수 있는 결과를 얻기 위한 표본 크기 계산 방법을 알아봅니다. 신뢰수준, 오차범위, 모집단 크기를 고려한 실무 활용법을 초급자도 쉽게 이해할 수 있도록 설명합니다. --- ## 목차 1. [표본_크기란_무엇인가](#표본-크기란-무엇인가) 2. [신뢰수준과_Z_스코어](#신뢰수준과-z-스코어) 3. [오차범위의_의미](#오차범위의-의미) 4. [유한_모집단_보정](#유한-모집단-보정) 5. [AB_테스트_표본_크기](#ab-테스트-표본-크기) 6. [층화_표본_추출](#층화-표본-추출) 7. [파이썬_라이브러리_활용](#파이썬-라이브러리-활용) 8. [실전_계산기_만들기](#실전-계산기-만들기) --- ## 1. 표본_크기란_무엇인가 어느 날 김개발 씨는 마케팅팀에서 급한 요청을 받았습니다. "이번 신규 기능에 대해 사용자 설문조사를 진행하려고 하는데, 몇 명에게 물어봐야 할까요?" 김개발 씨는 순간 멈칫했습니다. 전체 사용자가 10만 명인데, 설마 10만 명 전부에게 물어봐야 하는 건 아니겠죠? **표본 크기(Sample Size)**란 전체 모집단을 대표할 수 있는 최소한의 조사 대상 수를 의미합니다. 마치 큰 솥에서 국의 간을 볼 때 한 숟가락만 떠서 맛보는 것과 같습니다. 적절한 표본 크기를 정하면 시간과 비용을 절약하면서도 신뢰할 수 있는 결과를 얻을 수 있습니다. 다음 코드를 살펴봅시다. ```python import math def calculate_sample_size(population, confidence_level=0.95, margin_of_error=0.05): # Z-score: 신뢰수준에 따른 표준 점수 z_scores = {0.90: 1.645, 0.95: 1.96, 0.99: 2.576} z = z_scores.get(confidence_level, 1.96) # 모비율 p는 보수적으로 0.5 사용 (최대 표본 크기) p = 0.5 e = margin_of_error # 무한 모집단 표본 크기 계산 n_infinite = (z**2 * p * (1-p)) / (e**2) # 유한 모집단 보정 적용 sample_size = n_infinite / (1 + (n_infinite - 1) / population) return math.ceil(sample_size) # 10만 명 중 필요한 표본 크기 result = calculate_sample_size(100000) print(f"필요한 표본 크기: {result}명") # 출력: 383명 ``` 김개발 씨는 입사 6개월 차 데이터 분석가입니다. 오늘도 열심히 대시보드를 만들던 중, 마케팅팀장님이 다급하게 찾아왔습니다. "다음 주까지 사용자 만족도 조사 결과가 필요해요. 우리 서비스 사용자가 10만 명인데, 몇 명에게 설문을 보내야 할까요?" 김개발 씨는 고민에 빠졌습니다. 10만 명 전부에게 설문을 보내자니 비용이 너무 많이 들고, 그렇다고 100명만 조사하자니 결과를 믿을 수 있을지 걱정이 됩니다. 이때 옆자리의 박시니어 씨가 다가와 말했습니다. "표본 크기 계산을 해보면 돼요. 생각보다 적은 수로도 충분히 신뢰할 수 있는 결과를 얻을 수 있거든요." 그렇다면 **표본 크기**란 정확히 무엇일까요? 쉽게 비유하자면, 표본 크기를 정하는 것은 마치 큰 솥에 끓인 국의 간을 보는 것과 같습니다. 우리는 솥 전체의 국을 다 마셔보지 않아도, 잘 저은 후 한 숟가락만 떠서 간을 확인할 수 있습니다. 중요한 것은 국을 잘 저어서 모든 재료가 골고루 섞인 상태에서 맛을 보는 것입니다. 이 한 숟가락이 바로 **표본**이고, 숟가락의 크기가 **표본 크기**입니다. 표본 크기가 너무 작으면 어떻게 될까요? 만약 설문조사를 10명에게만 한다면, 우연히 불만이 많은 사람들만 응답했을 수도 있습니다. 이 결과로 "사용자의 80%가 불만족"이라고 결론 내리면 큰 오류를 범하게 됩니다. 반대로 10만 명 전체에게 조사한다면 정확하겠지만, 시간과 비용이 너무 많이 듭니다. 바로 이런 딜레마를 해결하기 위해 **표본 크기 계산 공식**이 존재합니다. 위의 코드를 살펴보면, 핵심은 세 가지 요소입니다. 첫째는 **신뢰수준**으로, 보통 95%를 사용합니다. 둘째는 **오차범위**로, 보통 5%를 허용합니다. 셋째는 **모집단 크기**로, 전체 사용자 수를 의미합니다. 코드의 6번째 줄에서 Z-score를 가져오는 부분이 중요합니다. 95% 신뢰수준에서는 1.96이라는 값을 사용하는데, 이는 통계학에서 정규분포를 기반으로 미리 계산된 값입니다. 놀라운 사실이 있습니다. 10만 명의 모집단에서 95% 신뢰수준, 5% 오차범위로 계산하면 필요한 표본 크기는 고작 **383명**입니다. 100만 명이어도 384명이면 충분합니다. 모집단이 일정 수준을 넘으면 표본 크기는 거의 변하지 않기 때문입니다. 다시 김개발 씨의 이야기로 돌아가 봅시다. 박시니어 씨의 설명을 들은 김개발 씨는 눈이 휘둥그레졌습니다. "10만 명 중에 400명 정도만 조사해도 된다고요?" 표본 크기 계산의 원리를 이해하면, 데이터 분석가로서 훨씬 효율적인 의사결정을 내릴 수 있습니다. **실전 팁** 💡 - 모비율을 모를 때는 0.5를 사용하면 가장 보수적인(큰) 표본 크기가 계산됩니다 - 신뢰수준 99%가 항상 좋은 것은 아닙니다. 비용 대비 효율을 고려하세요 --- ## 2. 신뢰수준과_Z_스코어 김개발 씨가 표본 크기 계산 코드를 보다가 의문이 생겼습니다. "95% 신뢰수준에서 왜 1.96이라는 숫자를 쓰는 거죠?" 박시니어 씨가 웃으며 답했습니다. "그건 정규분포의 마법과 관련이 있어요." **신뢰수준(Confidence Level)**은 우리의 추정이 얼마나 믿을 만한지를 나타내는 확률입니다. **Z-스코어**는 이 신뢰수준을 정규분포에서 표현한 값입니다. 95% 신뢰수준이란, 같은 방법으로 100번 조사했을 때 95번은 실제 값이 우리 추정 범위 안에 들어온다는 의미입니다. 다음 코드를 살펴봅시다. ```python from scipy import stats import numpy as np def get_z_score(confidence_level): # 양측 검정에서의 Z-score 계산 # (1 - confidence_level) / 2 = 한쪽 꼬리 확률 alpha = 1 - confidence_level z_score = stats.norm.ppf(1 - alpha/2) return round(z_score, 3) # 다양한 신뢰수준에 대한 Z-score confidence_levels = [0.90, 0.95, 0.99] for cl in confidence_levels: z = get_z_score(cl) print(f"신뢰수준 {cl*100}%: Z = {z}") # 출력: # 신뢰수준 90%: Z = 1.645 # 신뢰수준 95%: Z = 1.96 # 신뢰수준 99%: Z = 2.576 ``` 김개발 씨는 표본 크기 계산을 이해했지만, 한 가지가 여전히 찜찜했습니다. 왜 하필 1.96인 걸까요? 어디서 튀어나온 숫자일까요? 박시니어 씨가 화이트보드에 종 모양의 곡선을 그리기 시작했습니다. "이게 바로 **정규분포**야. 대부분의 데이터는 가운데에 몰려 있고, 양 끝으로 갈수록 적어지지." 정규분포는 마치 교실에서 학생들의 키 분포와 같습니다. 대부분의 학생은 평균 키 근처에 있고, 아주 작거나 아주 큰 학생은 드뭅니다. 이 종 모양 곡선의 가운데 95%를 차지하는 범위가 바로 평균에서 **좌우로 1.96 표준편차** 떨어진 곳입니다. 그렇다면 **신뢰수준 95%**란 무슨 의미일까요? 쉽게 설명하면 이렇습니다. 우리가 400명을 조사해서 "사용자 만족도는 70%다"라고 추정했다고 합시다. 95% 신뢰수준이란, 같은 방식으로 100번 조사했을 때 95번은 실제 만족도가 우리의 추정 범위(예: 65%~75%) 안에 들어온다는 뜻입니다. 나머지 5번은 운이 나빠서 표본이 전체를 제대로 대표하지 못한 경우입니다. 100번 중 5번 정도는 틀릴 수 있다는 것을 인정하는 셈입니다. 위 코드에서 `stats.norm.ppf` 함수는 **역누적분포함수**입니다. 어려워 보이지만 하는 일은 간단합니다. "정규분포에서 하위 97.5% 지점은 어디인가?"라고 물으면, "평균에서 1.96 표준편차 떨어진 곳"이라고 답해주는 함수입니다. 왜 97.5%일까요? 95% 신뢰구간은 양쪽 꼬리에서 각각 2.5%씩을 제외한 가운데 영역입니다. 따라서 한쪽 끝인 97.5% 지점을 찾으면 Z-스코어 1.96이 나옵니다. 신뢰수준을 높이면 어떻게 될까요? 99% 신뢰수준을 원한다면 Z-스코어는 2.576으로 커집니다. 그만큼 더 넓은 범위를 잡아야 하고, 결과적으로 필요한 표본 크기도 늘어납니다. 실무에서는 대부분 **95% 신뢰수준**을 표준으로 사용합니다. 99%는 의료나 항공처럼 오류가 치명적인 분야에서 사용하고, 90%는 빠른 의사결정이 필요할 때 사용합니다. 김개발 씨가 고개를 끄덕였습니다. "아, 1.96은 그냥 외울 게 아니라 정규분포에서 95%를 커버하는 범위였군요!" **실전 팁** 💡 - 95% 신뢰수준(Z=1.96)은 업계 표준이므로 특별한 이유가 없다면 이것을 사용하세요 - scipy가 설치되어 있지 않다면, 자주 쓰는 Z-스코어 값을 딕셔너리로 저장해두면 편리합니다 --- ## 3. 오차범위의_의미 마케팅팀장이 결과 보고서를 보더니 물었습니다. "오차범위 플러스마이너스 5%라는 게 무슨 뜻이에요?" 김개발 씨는 잠시 생각했습니다. 분명히 계산할 때 5%를 넣었는데, 막상 설명하려니 말문이 막혔습니다. **오차범위(Margin of Error)**는 표본 조사 결과가 실제 모집단 값과 얼마나 차이날 수 있는지를 나타냅니다. 오차범위 5%로 "만족도 70%"라는 결과가 나왔다면, 실제 만족도는 65%에서 75% 사이에 있을 가능성이 높다는 의미입니다. 다음 코드를 살펴봅시다. ```python import math def calculate_margin_of_error(sample_size, confidence_level=0.95, proportion=0.5): # 신뢰수준에 따른 Z-score z_scores = {0.90: 1.645, 0.95: 1.96, 0.99: 2.576} z = z_scores.get(confidence_level, 1.96) # 오차범위 계산 공식 # MOE = Z * sqrt(p * (1-p) / n) p = proportion n = sample_size margin_of_error = z * math.sqrt(p * (1 - p) / n) return round(margin_of_error * 100, 2) # 퍼센트로 변환 # 다양한 표본 크기에 따른 오차범위 sample_sizes = [100, 400, 1000, 2500] for n in sample_sizes: moe = calculate_margin_of_error(n) print(f"표본 크기 {n}명: 오차범위 ±{moe}%") ``` 김개발 씨는 설문 결과를 마케팅팀에 전달했습니다. "400명을 조사한 결과, 사용자 만족도는 70%입니다." 그런데 팀장님이 질문을 던졌습니다. "그럼 정확히 70%라는 거예요?" 사실 그렇지 않습니다. 400명은 10만 명 전체가 아니라 **표본**일 뿐입니다. 표본 조사에는 필연적으로 **불확실성**이 따릅니다. **오차범위**는 바로 이 불확실성을 수치로 표현한 것입니다. 쉽게 비유하면, 오차범위는 마치 활쏘기에서 과녁의 크기와 같습니다. 우리는 정확히 가운데 점수(실제 값)를 맞히고 싶지만, 화살이 약간 빗나갈 수 있습니다. 오차범위는 "이 범위 안에는 들어갈 거야"라고 말하는 원의 크기입니다. 위 코드를 실행하면 흥미로운 패턴이 보입니다. 표본 크기 100명일 때 오차범위는 약 9.8%이고, 400명일 때는 4.9%, 1000명일 때는 3.1%입니다. 여기서 중요한 법칙이 드러납니다. **표본 크기를 4배로 늘리면 오차범위는 2배만 줄어듭니다.** 오차범위 공식에 제곱근이 포함되어 있기 때문입니다. 이것이 실무에서 매우 중요한 의미를 가집니다. 오차범위를 5%에서 2.5%로 줄이려면 표본을 4배로 늘려야 합니다. 비용도 4배로 늘어납니다. 그래서 무조건 정확도를 높이는 것보다 **적절한 수준에서 타협**하는 것이 현명합니다. 실무에서 가장 많이 사용하는 오차범위는 **3%에서 5%** 사이입니다. 중요한 의사결정에는 3%, 일반적인 조사에는 5%를 사용합니다. 1% 오차범위는 거의 사용하지 않는데, 필요한 표본 크기가 너무 커지기 때문입니다. 박시니어 씨가 덧붙였습니다. "뉴스에서 여론조사 결과를 발표할 때 항상 '95% 신뢰수준에 오차범위 플러스마이너스 3.1%'라고 하잖아. 그게 바로 이거야." 김개발 씨는 이제 마케팅팀장에게 자신 있게 설명할 수 있었습니다. "만족도 70%라는 건, 실제로는 65%에서 75% 사이일 가능성이 95%라는 뜻입니다." **실전 팁** 💡 - 오차범위 5%는 대부분의 비즈니스 의사결정에 충분합니다 - 더 정확한 결과가 필요하다면, 비용 대비 효과를 먼저 계산해보세요 --- ## 4. 유한_모집단_보정 김개발 씨가 이상한 점을 발견했습니다. 모집단이 500명인 동아리 설문과 모집단이 5000만 명인 국민 여론조사에 필요한 표본 크기가 비슷하게 나온다고요? "뭔가 이상한데..." 박시니어 씨가 미소를 지었습니다. "유한 모집단 보정이라는 게 있어." **유한 모집단 보정(Finite Population Correction, FPC)**은 모집단이 작을 때 필요한 표본 크기를 줄여주는 보정 공식입니다. 모집단이 충분히 크면 거의 영향이 없지만, 모집단이 작을수록 보정 효과가 커집니다. 다음 코드를 살펴봅시다. ```python import math def sample_size_with_fpc(population, confidence=0.95, margin_error=0.05): z_scores = {0.90: 1.645, 0.95: 1.96, 0.99: 2.576} z = z_scores[confidence] p = 0.5 # 보수적 추정 # 무한 모집단 가정 표본 크기 n_infinite = (z**2 * p * (1-p)) / (margin_error**2) # 유한 모집단 보정 적용 # FPC = sqrt((N-n) / (N-1)) n_finite = n_infinite / (1 + (n_infinite - 1) / population) # 표본 비율 계산 sampling_fraction = n_finite / population * 100 return { 'population': population, 'sample_infinite': math.ceil(n_infinite), 'sample_finite': math.ceil(n_finite), 'sampling_fraction': round(sampling_fraction, 1) } # 다양한 모집단 크기 비교 populations = [200, 1000, 10000, 1000000] for pop in populations: result = sample_size_with_fpc(pop) print(f"모집단 {pop:>8}명 → 표본 {result['sample_finite']}명 ({result['sampling_fraction']}%)") ``` 김개발 씨는 회사 내 동아리 만족도 조사를 맡게 되었습니다. 동아리 회원은 총 200명입니다. 기존 공식대로 계산하니 385명이 필요하다고 나왔습니다. 하지만 잠깐, 전체가 200명인데 385명을 어떻게 조사하나요? 이때 필요한 것이 바로 **유한 모집단 보정**입니다. 무한 모집단 공식은 모집단이 "충분히 크다"고 가정합니다. 사실상 무한대에 가깝다고 보는 것이죠. 하지만 실제 세상에서 모집단은 유한합니다. 특히 모집단이 작을 때, 이 차이는 무시할 수 없습니다. 비유로 설명해볼까요? 10명짜리 모임에서 5명의 의견을 들었다면, 이미 절반의 의견을 들은 것입니다. 나머지 5명의 의견이 아무리 달라도 전체 결과가 크게 바뀌기 어렵습니다. 하지만 1억 명 중 5명의 의견을 들었다면, 그것은 거의 아무것도 모르는 것과 같습니다. 코드를 실행해보면 이 차이가 명확하게 드러납니다. 모집단 200명일 때, 무한 모집단 공식은 385명을 요구하지만 유한 모집단 보정을 적용하면 **132명**만 필요합니다. 200명 중 132명, 즉 66%를 조사하면 됩니다. 모집단 1000명일 때는 278명(27.8%)이 필요하고, 10000명일 때는 370명(3.7%)이 필요합니다. 모집단이 100만 명이 되면 384명(0.04%)으로, 무한 모집단 공식의 385명과 거의 같아집니다. 여기서 중요한 **경험 법칙**이 있습니다. 표본이 모집단의 5% 미만일 때는 유한 모집단 보정을 굳이 적용하지 않아도 됩니다. 차이가 미미하기 때문입니다. 유한 모집단 보정 공식의 핵심은 `(N-n)/(N-1)` 부분입니다. N은 모집단, n은 표본입니다. 표본이 모집단에 가까워질수록 이 값은 0에 가까워지고, 필요 표본 크기도 줄어듭니다. 김개발 씨는 이제 동아리 조사에 132명만 필요하다는 것을 알게 되었습니다. 200명 전체에게 보내려던 설문을 132명에게만 보내도 충분한 것입니다. **실전 팁** 💡 - 모집단이 10000명 이상이면 유한 모집단 보정은 거의 무시해도 됩니다 - 소규모 조직, 특정 고객군 등 작은 모집단 조사 시에는 반드시 보정을 적용하세요 --- ## 5. AB_테스트_표본_크기 김개발 씨가 이번에는 AB 테스트를 설계하게 되었습니다. 기존 버튼의 클릭률이 5%인데, 새 디자인으로 6%까지 올리고 싶습니다. "그럼 몇 명에게 테스트해야 하나요?" 박시니어 씨가 진지한 표정으로 답했습니다. "이건 조금 다른 계산이 필요해." **AB 테스트 표본 크기**는 두 그룹 간의 차이를 통계적으로 유의미하게 검증하기 위해 필요한 최소 사용자 수입니다. 단순 설문조사와 달리 **검정력(Power)**과 **효과 크기(Effect Size)**를 함께 고려해야 합니다. 다음 코드를 살펴봅시다. ```python import math def ab_test_sample_size(baseline_rate, expected_rate, alpha=0.05, power=0.8): # Z-scores for alpha (양측) and power z_alpha = 1.96 # alpha 0.05 (양측) z_beta = 0.84 # power 0.8 p1 = baseline_rate # 기존 전환율 p2 = expected_rate # 예상 전환율 p_pooled = (p1 + p2) / 2 # 각 그룹당 필요한 표본 크기 numerator = (z_alpha + z_beta)**2 * (p1*(1-p1) + p2*(1-p2)) denominator = (p2 - p1)**2 sample_per_group = math.ceil(numerator / denominator) total_sample = sample_per_group * 2 return { 'per_group': sample_per_group, 'total': total_sample, 'effect_size': round((p2-p1)/p1*100, 1) } # 클릭률 5% → 6% 개선 테스트 result = ab_test_sample_size(0.05, 0.06) print(f"각 그룹당: {result['per_group']}명") print(f"총 필요 표본: {result['total']}명") print(f"상대적 효과 크기: {result['effect_size']}%") ``` 김개발 씨의 회사에서는 구매 버튼의 색상을 바꾸려고 합니다. 현재 파란색 버튼의 클릭률은 5%입니다. 디자인팀은 빨간색 버튼으로 바꾸면 클릭률이 6%로 올라갈 것이라고 예상합니다. "그냥 1000명씩 나눠서 테스트하면 안 될까요?" 김개발 씨가 물었습니다. 박시니어 씨가 고개를 저었습니다. "만약 그렇게 해서 빨간 버튼이 5.5%가 나왔다고 해봐. 그게 진짜 효과인지, 아니면 우연인지 어떻게 알 수 있겠어?" 바로 이것이 AB 테스트 표본 크기 계산이 중요한 이유입니다. AB 테스트에서는 두 가지 새로운 개념이 등장합니다. 첫째는 **검정력(Power)**입니다. 실제로 효과가 있을 때 그것을 탐지할 확률을 말합니다. 보통 80%를 사용하는데, 이는 "진짜 효과가 있다면 80%의 확률로 발견할 수 있다"는 의미입니다. 둘째는 **효과 크기(Effect Size)**입니다. 5%에서 6%로의 변화는 절대값으로는 1%포인트 차이지만, 상대적으로는 20% 개선입니다. 이 효과 크기가 작을수록 더 많은 표본이 필요합니다. 위 코드를 실행하면 놀라운 결과가 나옵니다. 5%에서 6%로의 변화를 검증하려면 **각 그룹당 약 3,600명**, 총 **7,200명**이 필요합니다. 왜 이렇게 많이 필요할까요? 1%포인트 차이는 매우 작기 때문입니다. 작은 차이를 신뢰성 있게 검출하려면 많은 데이터가 필요합니다. 만약 5%에서 7%로(2%포인트 차이) 개선을 기대한다면, 필요 표본은 약 1,600명으로 줄어듭니다. 5%에서 10%로(5%포인트 차이)라면 약 300명이면 충분합니다. 이것이 실무에서 매우 중요한 의미를 가집니다. 작은 개선을 검증하려면 오랜 시간이 걸리고, 그 동안 테스트 버전이 실제로 나쁠 경우 손해를 볼 수 있습니다. 따라서 **최소 감지 효과(Minimum Detectable Effect)**를 미리 정하고, 그에 맞는 테스트 기간을 계획해야 합니다. 김개발 씨는 깨달았습니다. "그러면 작은 개선보다는 큰 변화를 테스트하는 게 효율적이겠네요?" 박시니어 씨가 웃었습니다. "맞아. 그래서 버튼 색상보다는 전체 레이아웃 변경처럼 큰 차이가 예상되는 테스트를 먼저 하는 거야." **실전 팁** 💡 - 최소 80% 검정력을 확보하세요. 그 이하는 효과가 있어도 놓칠 확률이 높습니다 - 테스트 전에 필요한 표본 크기를 계산하고, 충분한 기간을 확보하세요 --- ## 6. 층화_표본_추출 김개발 씨가 사용자 만족도 조사를 마쳤습니다. 그런데 결과를 보던 박시니어 씨가 미간을 찌푸렸습니다. "응답자 중 20대가 80%네. 우리 서비스 사용자 연령대 분포랑 다른데?" 단순히 무작위로 뽑으면 안 되는 경우가 있었던 것입니다. **층화 표본 추출(Stratified Sampling)**은 모집단을 동질적인 하위 그룹(층)으로 나누고, 각 층에서 비례적으로 표본을 추출하는 방법입니다. 이 방법을 사용하면 표본이 모집단의 특성을 더 정확하게 반영하고, 같은 표본 크기로 더 정확한 추정이 가능합니다. 다음 코드를 살펴봅시다. ```python import math def stratified_sample_size(total_sample, strata_proportions): """ 층화 표본 추출 시 각 층별 필요 표본 수 계산 strata_proportions: {'층이름': 비율} 형태의 딕셔너리 """ result = {} allocated = 0 # 비례 배분 strata_list = list(strata_proportions.items()) for i, (stratum, proportion) in enumerate(strata_list): if i == len(strata_list) - 1: # 마지막 층: 반올림 오차 보정 result[stratum] = total_sample - allocated else: n = round(total_sample * proportion) result[stratum] = n allocated += n return result # 연령대별 사용자 분포 user_distribution = { '10대': 0.15, '20대': 0.35, '30대': 0.30, '40대': 0.15, '50대+': 0.05 } total_sample = 400 stratified = stratified_sample_size(total_sample, user_distribution) print("층화 표본 배분:") for age, n in stratified.items(): print(f" {age}: {n}명 ({n/400*100:.1f}%)") ``` 김개발 씨가 400명의 응답을 수집했습니다. 설문 링크를 무작위로 보냈는데, 응답자를 분석해보니 문제가 있었습니다. 20대가 전체의 80%를 차지한 것입니다. 실제 서비스 사용자는 10대 15%, 20대 35%, 30대 30%, 40대 15%, 50대 이상 5%로 분포되어 있습니다. 응답자 구성이 실제 사용자 구성과 너무 다릅니다. 이 결과를 그대로 발표하면 어떻게 될까요? 20대 취향에 맞춘 의사결정을 하게 되고, 다른 연령대 사용자들은 소외될 수 있습니다. 박시니어 씨가 해결책을 제시했습니다. "처음부터 **층화 표본 추출**을 했어야 해." 층화 표본 추출은 마치 여러 종류의 과일이 담긴 바구니에서 맛보기를 하는 것과 같습니다. 사과, 배, 포도가 각각 50%, 30%, 20% 비율로 담겨 있다면, 맛보기도 그 비율에 맞춰서 해야 바구니 전체의 맛을 대표할 수 있습니다. 위 코드는 이 비례 배분을 자동으로 계산합니다. 400명을 조사한다면 10대 60명, 20대 140명, 30대 120명, 40대 60명, 50대 이상 20명을 각각 조사해야 합니다. 층화 표본 추출의 장점은 두 가지입니다. 첫째, **대표성이 보장**됩니다. 표본의 구성이 모집단과 일치하므로, 특정 그룹이 과대 또는 과소 대표되는 문제가 없습니다. 둘째, **정확도가 향상**됩니다. 같은 표본 크기로도 더 정확한 추정이 가능합니다. 통계적으로 층 내부의 변동이 층 간 변동보다 작기 때문입니다. 실무에서 층화 변수로 자주 사용되는 것들이 있습니다. 연령, 성별, 지역, 가입 기간, 구매 금액대 등입니다. 분석 목적에 따라 중요한 변수를 선택하면 됩니다. 주의할 점도 있습니다. 너무 많은 변수로 층화하면 각 층의 표본 수가 너무 작아집니다. 연령 5개 X 성별 2개 X 지역 5개 = 50개 층이 되면, 400명 표본에서 각 층당 평균 8명밖에 되지 않습니다. 김개발 씨는 다음 조사에서는 반드시 층화 표본 추출을 적용하기로 했습니다. "설문 발송 전에 연령대별 할당량을 정해놓고, 각 그룹에서 목표 수만큼 응답을 받아야겠어요." **실전 팁** 💡 - 가장 중요한 1-2개 변수만 층화 변수로 사용하세요 - 각 층의 최소 표본 수는 30명 이상을 권장합니다 --- ## 7. 파이썬_라이브러리_활용 김개발 씨가 매번 공식을 직접 구현하는 것이 번거로워졌습니다. "분명히 이런 거 해주는 라이브러리가 있을 텐데..." 검색을 해보니 역시나 있었습니다. statsmodels라는 강력한 통계 라이브러리가 있었습니다. **statsmodels**는 파이썬의 대표적인 통계 분석 라이브러리입니다. 표본 크기 계산, 검정력 분석, 회귀 분석 등 다양한 통계 기능을 제공합니다. 직접 공식을 구현하는 것보다 검증된 라이브러리를 사용하는 것이 더 안전합니다. 다음 코드를 살펴봅시다. ```python from statsmodels.stats.power import TTestIndPower, NormalIndPower from statsmodels.stats.proportion import proportion_effectsize import math # 1. 두 비율 비교 (AB 테스트) 표본 크기 계산 def ab_test_sample(baseline, expected, alpha=0.05, power=0.8): effect_size = proportion_effectsize(expected, baseline) analysis = NormalIndPower() sample = analysis.solve_power( effect_size=effect_size, alpha=alpha, power=power, ratio=1, alternative='two-sided' ) return math.ceil(sample) # 2. 두 평균 비교 표본 크기 계산 def mean_test_sample(effect_size, alpha=0.05, power=0.8): analysis = TTestIndPower() sample = analysis.solve_power( effect_size=effect_size, alpha=alpha, power=power, ratio=1, alternative='two-sided' ) return math.ceil(sample) # AB 테스트: 전환율 5% → 6% n = ab_test_sample(0.05, 0.06) print(f"AB 테스트 필요 표본 (각 그룹): {n}명") # 평균 비교: Cohen's d = 0.5 (중간 효과) n = mean_test_sample(0.5) print(f"평균 비교 필요 표본 (각 그룹): {n}명") ``` 김개발 씨는 지금까지 배운 공식들을 직접 구현해서 사용해왔습니다. 하지만 어느 날 문득 걱정이 되었습니다. 혹시 공식을 잘못 구현한 건 아닐까요? 박시니어 씨가 조언했습니다. "실무에서는 검증된 라이브러리를 쓰는 게 좋아. 직접 구현하면 미묘한 오류가 생길 수 있거든." **statsmodels**는 파이썬 데이터 과학 생태계에서 가장 신뢰받는 통계 라이브러리 중 하나입니다. 학술 연구에서도 널리 사용되며, 수많은 전문가들이 검증한 코드입니다. 이 라이브러리의 `power` 모듈은 검정력 분석과 표본 크기 계산을 위한 도구를 제공합니다. 위 코드에서 첫 번째 함수는 두 비율을 비교하는 AB 테스트용입니다. `proportion_effectsize` 함수는 두 비율의 차이를 **효과 크기(Cohen's h)**로 변환합니다. 그런 다음 `NormalIndPower`를 사용해 필요한 표본 크기를 계산합니다. 두 번째 함수는 두 평균을 비교할 때 사용합니다. 예를 들어 새 기능이 사용자 체류 시간을 늘리는지 테스트할 때 적용합니다. **Cohen's d**라는 효과 크기 지표를 사용하는데, 0.2는 작은 효과, 0.5는 중간 효과, 0.8은 큰 효과로 해석합니다. 라이브러리를 사용하면 얻는 이점이 많습니다. 첫째, **정확성**입니다. 전문가들이 작성하고 검증한 코드이므로 오류 가능성이 낮습니다. 둘째, **편의성**입니다. 복잡한 공식을 외우지 않아도 됩니다. 함수에 필요한 값만 넣으면 됩니다. 셋째, **확장성**입니다. 다양한 검정 유형(단측, 양측, 독립, 대응 등)을 지원합니다. 설치는 간단합니다. `pip install statsmodels` 한 줄이면 됩니다. scipy도 함께 설치되므로 추가 작업이 필요 없습니다. 김개발 씨는 이제 직접 구현한 코드 대신 statsmodels를 사용하기로 했습니다. "이게 훨씬 안심이 되네요. 제가 만든 코드에 버그가 있으면 결과를 신뢰할 수 없으니까요." **실전 팁** 💡 - statsmodels 외에도 scipy.stats, pingouin 등 다양한 통계 라이브러리가 있습니다 - 처음 배울 때는 직접 구현해보고, 실무에서는 라이브러리를 사용하세요 --- ## 8. 실전_계산기_만들기 김개발 씨는 이제 배운 내용을 종합해서 팀에서 사용할 수 있는 표본 크기 계산기를 만들기로 했습니다. "비개발자도 쉽게 사용할 수 있게 만들어야겠어." 박시니어 씨가 덧붙였습니다. "입력 검증도 잘 해야 해. 잘못된 값이 들어오면 이상한 결과가 나올 수 있거든." 실전에서 사용할 수 있는 표본 크기 계산기는 **입력 검증**, **다양한 시나리오 지원**, **결과 해석 안내**를 모두 갖춰야 합니다. 이번에는 이 모든 것을 갖춘 완성형 계산기를 만들어봅니다. 다음 코드를 살펴봅시다. ```python import math from dataclasses import dataclass from typing import Optional @dataclass class SampleSizeResult: sample_size: int confidence_level: float margin_of_error: float population: Optional[int] description: str class SampleSizeCalculator: Z_SCORES = {0.90: 1.645, 0.95: 1.96, 0.99: 2.576} def calculate(self, population: Optional[int] = None, confidence: float = 0.95, margin_error: float = 0.05) -> SampleSizeResult: # 입력 검증 if confidence not in self.Z_SCORES: raise ValueError("신뢰수준은 0.90, 0.95, 0.99 중 선택") if not 0 < margin_error < 1: raise ValueError("오차범위는 0과 1 사이 값") z = self.Z_SCORES[confidence] n = (z**2 * 0.25) / (margin_error**2) if population: n = n / (1 + (n - 1) / population) return SampleSizeResult( sample_size=math.ceil(n), confidence_level=confidence, margin_of_error=margin_error, population=population, description=self._describe(math.ceil(n), confidence, margin_error) ) def _describe(self, n, conf, moe): return f"{conf*100:.0f}% 신뢰수준, ±{moe*100:.1f}% 오차범위로 {n}명 필요" # 사용 예시 calc = SampleSizeCalculator() result = calc.calculate(population=50000, confidence=0.95, margin_error=0.03) print(result.description) ``` 김개발 씨는 마케팅팀, 기획팀, 데이터팀 모두가 사용할 수 있는 표본 크기 계산기를 만들기로 했습니다. 단순히 숫자만 계산하는 것이 아니라, 누구나 쉽게 이해할 수 있는 도구가 되어야 합니다. 먼저 고려한 것은 **입력 검증**입니다. 신뢰수준으로 0.73 같은 이상한 값이 들어오면 어떻게 할까요? 오차범위로 음수가 들어오면요? 이런 경우를 모두 처리해야 합니다. 코드의 `calculate` 메서드 시작 부분에서 이러한 검증을 수행합니다. 다음으로 고려한 것은 **결과의 구조화**입니다. `dataclass`를 사용해 `SampleSizeResult`라는 결과 객체를 정의했습니다. 이렇게 하면 결과를 체계적으로 관리할 수 있고, IDE에서 자동 완성도 지원됩니다. 결과 객체에는 계산된 표본 크기뿐만 아니라 사용된 파라미터들도 함께 저장됩니다. 나중에 "이 결과는 어떤 조건으로 계산한 거지?"라는 질문에 바로 답할 수 있습니다. 마지막으로 **결과 해석**을 추가했습니다. `_describe` 메서드는 계산 결과를 자연스러운 문장으로 변환합니다. "95% 신뢰수준, 플러스마이너스 3.0% 오차범위로 1045명 필요"처럼 누구나 이해할 수 있는 형태로 출력됩니다. 이 계산기는 확장하기도 쉽습니다. AB 테스트용 메서드를 추가하거나, 층화 표본 배분 기능을 추가할 수 있습니다. 클래스 구조를 사용했기 때문에 기존 코드를 수정하지 않고도 기능을 확장할 수 있습니다. 김개발 씨는 이 계산기를 회사 내부 도구로 배포했습니다. Jupyter Notebook이나 Streamlit으로 웹 인터페이스를 만들면 비개발자도 쉽게 사용할 수 있습니다. 박시니어 씨가 만족스럽게 말했습니다. "좋아. 이제 마케팅팀에서 물어볼 때마다 직접 계산해줄 필요가 없겠네." **실전 팁** 💡 - 팀에서 사용할 도구는 문서화와 예제를 함께 제공하세요 - Streamlit이나 Gradio로 간단한 웹 UI를 만들면 비개발자도 사용할 수 있습니다 --- 이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

카테고리: Data Science

언어: Python

태그: Python, Statistics, SampleSize, DataScience, ABTesting, Data Science

작성자: AI Generated

프리미엄 콘텐츠 - 3개월 무료 체험 가능

CodeDeck

표본 크기 계산 방법 완벽 가이드

목차

1. 표본 크기란 무엇인가

2. 신뢰수준과 Z 스코어

3. 오차범위의 의미

4. 유한 모집단 보정

5. AB 테스트 표본 크기

6. 층화 표본 추출

7. 파이썬 라이브러리 활용

8. 실전 계산기 만들기

이 카드뉴스가 포함된 코스

A/B 테스트 및 실험 설계 완전 정복

댓글 (0)

함께 보면 좋은 카드 뉴스

vLLM 통합 완벽 가이드

Web UI Demo 구축 완벽 가이드

Sandboxing & Execution Control 완벽 가이드

Voice Design then Clone 워크플로우 완벽 가이드

Tool Use 완벽 가이드 - Shell, Browser, DB 실전 활용