가설 설정 및 실험 설계 원칙 완벽 가이드

데이터 과학에서 올바른 가설을 세우고 실험을 설계하는 방법을 배웁니다. 초급 개발자도 쉽게 이해할 수 있도록 실무 사례와 함께 A/B 테스트부터 통계적 검증까지 단계별로 설명합니다.

1. 가설이란 무엇인가

김개발 씨는 데이터 분석팀에 배치된 지 한 달이 되었습니다. 어느 날 팀장님이 다가와 물었습니다.

"김 씨, 이번 신규 기능이 매출에 효과가 있는지 분석해 볼 수 있어요?" 김개발 씨는 데이터를 열심히 들여다보았지만, 어디서부터 시작해야 할지 막막했습니다.

가설은 한마디로 검증하고자 하는 주장을 명확하게 정의한 것입니다. 마치 탐정이 사건을 해결하기 전에 "범인은 아마 이 사람일 것이다"라고 추측하는 것과 같습니다.

가설을 먼저 세워야 무엇을 측정하고, 어떤 결과가 나오면 성공인지 판단할 수 있습니다.

다음 코드를 살펴봅시다.

# 가설 정의 클래스
class Hypothesis:
    def __init__(self, null_hypothesis, alternative_hypothesis):
        # 귀무가설: 효과가 없다는 기본 가정
        self.h0 = null_hypothesis
        # 대립가설: 우리가 증명하고 싶은 것
        self.h1 = alternative_hypothesis

    def describe(self):
        print(f"귀무가설(H0): {self.h0}")
        print(f"대립가설(H1): {self.h1}")

# 실제 가설 설정 예시
experiment = Hypothesis(
    null_hypothesis="신규 버튼 색상은 클릭률에 영향을 주지 않는다",
    alternative_hypothesis="신규 버튼 색상은 클릭률을 높인다"
)
experiment.describe()

김개발 씨는 입사 후 처음으로 데이터 분석 업무를 맡게 되었습니다. 팀장님의 요청은 간단해 보였습니다.

신규 기능이 효과가 있는지 확인하라는 것이었죠. 하지만 막상 데이터를 열어보니, 숫자들만 가득할 뿐 어디서부터 손을 대야 할지 감이 오지 않았습니다.

선배 개발자 박시니어 씨가 김개발 씨의 고민을 눈치채고 다가왔습니다. "데이터 분석의 시작은 항상 가설을 세우는 것부터야.

뭘 증명하고 싶은지 먼저 명확하게 정해야 해." 그렇다면 가설이란 정확히 무엇일까요? 쉽게 비유하자면, 가설은 마치 탐정이 사건 현장에서 세우는 추리와 같습니다.

탐정은 증거를 모으기 전에 "범인은 아마 이 사람일 것이다"라고 가정합니다. 그리고 그 가정이 맞는지 틀린지를 증거를 통해 확인합니다.

데이터 과학에서의 가설도 마찬가지입니다. 먼저 주장을 세우고, 데이터로 그 주장을 검증하는 것입니다.

가설에는 두 가지 종류가 있습니다. 첫 번째는 귀무가설입니다.

귀무가설은 "효과가 없다" 또는 "차이가 없다"는 기본 가정입니다. 두 번째는 대립가설입니다.

대립가설은 우리가 실제로 증명하고 싶은 주장입니다. 왜 이렇게 두 가지로 나눌까요?

과학적 방법론에서는 "있다"를 직접 증명하기보다 "없다"를 부정하는 방식을 사용합니다. 마치 법정에서 "무죄 추정의 원칙"이 적용되는 것처럼, 데이터 과학에서도 "효과가 없다"를 기본으로 두고, 충분한 증거가 있을 때만 "효과가 있다"고 결론 내립니다.

위의 코드를 살펴보면, Hypothesis 클래스는 귀무가설과 대립가설을 함께 관리합니다. 이렇게 가설을 명시적으로 정의해두면 분석 과정에서 목표를 잃지 않을 수 있습니다.

실제 현업에서는 어떻게 활용할까요? 예를 들어 이커머스 서비스에서 "구매 버튼을 빨간색으로 바꾸면 매출이 오를까?"라는 질문이 있다고 합시다.

이때 귀무가설은 "버튼 색상은 매출에 영향을 주지 않는다"이고, 대립가설은 "빨간색 버튼이 매출을 높인다"가 됩니다. 주의할 점도 있습니다.

가설은 반드시 측정 가능해야 합니다. "사용자 경험이 좋아진다"처럼 모호한 가설은 검증할 수 없습니다.

"클릭률이 5% 이상 증가한다"처럼 구체적인 수치로 표현해야 합니다. 다시 김개발 씨의 이야기로 돌아가 봅시다.

박시니어 씨의 조언을 들은 김개발 씨는 노트에 가설을 적기 시작했습니다. "신규 기능은 사용자 체류 시간을 10% 이상 증가시킨다." 이제 분석의 방향이 명확해졌습니다.

실전 팁

💡 - 가설은 항상 측정 가능한 지표로 표현하세요

귀무가설을 먼저 세우고, 그것을 기각할 증거를 찾는 방식으로 접근하세요

2. 좋은 가설의 조건

김개발 씨는 가설의 개념을 이해한 후 바로 분석에 뛰어들었습니다. 하지만 몇 시간 뒤 박시니어 씨가 고개를 저었습니다.

"김 씨, 이 가설은 너무 모호해요. 결과가 나와도 해석할 수가 없겠는데요?"

좋은 가설은 구체적이고, 측정 가능하며, 검증 가능해야 합니다. 마치 네비게이션에 목적지를 입력할 때 "어딘가 좋은 곳"이 아니라 정확한 주소를 입력해야 하는 것과 같습니다.

SMART 원칙을 따르면 실험 가능한 좋은 가설을 세울 수 있습니다.

다음 코드를 살펴봅시다.

# SMART 가설 검증기
def validate_hypothesis(hypothesis_dict):
    """좋은 가설인지 SMART 원칙으로 검증"""
    criteria = {
        'specific': '구체적인 대상과 행동이 명시되어 있는가?',
        'measurable': '측정 가능한 수치가 포함되어 있는가?',
        'achievable': '현실적으로 검증 가능한가?',
        'relevant': '비즈니스 목표와 관련이 있는가?',
        'time_bound': '기간이 명시되어 있는가?'
    }

    score = sum(hypothesis_dict.values())
    print(f"가설 점수: {score}/5")

    for key, value in hypothesis_dict.items():
        status = "충족" if value else "미충족"
        print(f"  {criteria[key]} - {status}")

    return score >= 4

# 가설 평가 예시
my_hypothesis = {
    'specific': True,      # "메인 페이지 배너 클릭"
    'measurable': True,    # "클릭률 15% 증가"
    'achievable': True,    # 기술적으로 구현 가능
    'relevant': True,      # 매출 증대 목표와 연관
    'time_bound': True     # "2주간 실험"
}
validate_hypothesis(my_hypothesis)

김개발 씨는 자신감 있게 가설을 작성했습니다. "새로운 기능을 추가하면 사용자들이 더 좋아할 것이다." 나름 괜찮아 보였습니다.

하지만 박시니어 씨의 반응은 차가웠습니다. "김 씨, 이 가설로는 실험을 할 수가 없어요.

'더 좋아한다'는 게 뭘 의미하죠? 어떻게 측정할 건가요?" 김개발 씨는 그제야 자신의 가설이 너무 막연하다는 것을 깨달았습니다.

좋은 가설에는 분명한 조건이 필요했습니다. 좋은 가설의 첫 번째 조건은 구체성입니다.

"사용자"가 아니라 "신규 가입 후 7일 이내의 사용자"처럼 대상을 명확히 해야 합니다. "좋아한다"가 아니라 "구매 버튼을 클릭한다"처럼 행동을 구체적으로 정의해야 합니다.

두 번째 조건은 측정 가능성입니다. "만족도가 높아진다"보다는 "NPS 점수가 10점 이상 상승한다"가 좋습니다.

숫자로 표현할 수 없다면 검증도 할 수 없습니다. 세 번째 조건은 달성 가능성입니다.

"클릭률이 1000% 증가한다"는 현실적이지 않습니다. 업계 벤치마크와 과거 데이터를 참고하여 합리적인 목표를 세워야 합니다.

네 번째 조건은 관련성입니다. 아무리 측정하기 쉬운 지표라도 비즈니스 목표와 관련이 없다면 의미가 없습니다.

매출을 올리고 싶은데 페이지 체류 시간만 측정한다면, 그 결과가 실제 목표에 도움이 되는지 알 수 없습니다. 다섯 번째 조건은 기간 명시입니다.

"언젠가 효과가 나타날 것이다"는 가설이 아닙니다. "2주간의 실험 기간 동안"처럼 시간 범위를 정해야 합니다.

위의 코드에서 validate_hypothesis 함수는 이 다섯 가지 조건을 체크리스트로 확인합니다. 5개 중 4개 이상을 충족해야 좋은 가설로 인정됩니다.

실무에서 흔히 하는 실수 중 하나는 가설을 너무 많이 세우는 것입니다. 하나의 실험에는 하나의 핵심 가설만 있어야 합니다.

여러 가설을 동시에 검증하려 하면 어떤 요인이 결과에 영향을 미쳤는지 알 수 없게 됩니다. 박시니어 씨의 피드백을 받은 김개발 씨는 가설을 다시 작성했습니다.

"메인 페이지에 개인화 추천 배너를 추가하면, 신규 사용자의 첫 구매 전환율이 2주 내에 15% 증가할 것이다." 이제야 실험할 준비가 된 것입니다.

실전 팁

💡 - 가설을 세운 후 동료에게 검토를 요청하세요. 제3자의 눈으로 보면 모호한 부분이 쉽게 드러납니다

과거 실험 데이터나 업계 벤치마크를 참고하여 현실적인 목표 수치를 설정하세요

3. 실험 설계의 기초

가설을 완성한 김개발 씨는 이제 실험을 시작하려 했습니다. 하지만 또다시 박시니어 씨가 제동을 걸었습니다.

"잠깐, 실험 설계는 했어요? 그냥 기능 배포하고 결과 보면 안 돼요."

실험 설계는 가설을 검증하기 위한 청사진입니다. 마치 건물을 짓기 전에 설계도를 그리는 것처럼, 어떤 그룹에게 무엇을 보여주고, 무엇을 측정할지 미리 정해야 합니다.

잘못된 실험 설계는 아무리 많은 데이터를 모아도 의미 없는 결과를 만들어냅니다.

다음 코드를 살펴봅시다.

import random
from dataclasses import dataclass
from typing import List

@dataclass
class ExperimentDesign:
    name: str
    hypothesis: str
    control_group: str      # 대조군 설명
    treatment_group: str    # 실험군 설명
    primary_metric: str     # 핵심 측정 지표
    sample_size: int        # 필요한 샘플 크기
    duration_days: int      # 실험 기간

# 실험 설계 예시
ab_test = ExperimentDesign(
    name="배너_색상_테스트",
    hypothesis="빨간색 배너가 파란색보다 클릭률이 높다",
    control_group="기존 파란색 배너를 보는 사용자",
    treatment_group="새로운 빨간색 배너를 보는 사용자",
    primary_metric="배너 클릭률(CTR)",
    sample_size=10000,
    duration_days=14
)

print(f"실험명: {ab_test.name}")
print(f"대조군: {ab_test.control_group}")
print(f"실험군: {ab_test.treatment_group}")
print(f"핵심 지표: {ab_test.primary_metric}")

김개발 씨는 곧바로 새 기능을 모든 사용자에게 배포하려 했습니다. "일단 배포하고 데이터 보면 되지 않나요?" 하지만 박시니어 씨는 단호하게 고개를 저었습니다.

"그렇게 하면 효과가 있는지 없는지 절대 알 수 없어요. 비교할 대상이 없잖아요." 실험 설계가 왜 중요한지 이해하려면 간단한 비유를 생각해보면 됩니다.

새로운 감기약이 효과가 있는지 알고 싶다고 합시다. 모든 환자에게 약을 주고 "낫는 사람이 있으니 효과가 있다"고 결론 내릴 수 있을까요?

그렇지 않습니다. 약을 먹지 않아도 자연 치유되는 사람이 있기 때문입니다.

그래서 대조군과 실험군이 필요합니다. 대조군은 기존 방식을 유지하는 그룹입니다.

실험군은 새로운 변화를 적용받는 그룹입니다. 두 그룹의 결과를 비교해야만 변화의 효과를 알 수 있습니다.

실험 설계에서 또 하나 중요한 것은 무작위 배정입니다. 대조군과 실험군은 무작위로 나눠야 합니다.

만약 특정 성향의 사용자만 실험군에 배정되면, 결과가 새 기능 때문인지 사용자 특성 때문인지 구분할 수 없습니다. 위의 코드에서 ExperimentDesign 클래스는 실험에 필요한 핵심 요소들을 정의합니다.

대조군, 실험군, 핵심 지표, 샘플 크기, 기간까지 미리 정해두면 실험 도중에 혼란을 피할 수 있습니다. 샘플 크기도 신중하게 결정해야 합니다.

너무 적은 샘플로 실험하면 우연의 결과를 진짜 효과로 착각할 수 있습니다. 통계적으로 유의미한 결과를 얻으려면 충분한 수의 데이터가 필요합니다.

실험 기간 역시 중요합니다. 너무 짧으면 일시적인 변동을 잡아낼 수 없고, 너무 길면 외부 요인이 개입할 수 있습니다.

보통 1-4주 정도가 적당하지만, 서비스 특성에 따라 달라질 수 있습니다. 실무에서 흔한 실수 중 하나는 실험 도중에 설계를 바꾸는 것입니다.

"이 지표도 추가로 보자", "기간을 좀 늘리자"처럼 중간에 변경하면 결과의 신뢰성이 떨어집니다. 설계는 실험 시작 전에 확정하고, 끝까지 지켜야 합니다.

김개발 씨는 박시니어 씨와 함께 실험 설계서를 작성했습니다. 대조군과 실험군을 50:50으로 나누고, 2주간 클릭률을 측정하기로 했습니다.

이제 체계적인 실험이 가능해졌습니다.

실전 팁

💡 - 실험 설계서는 실험 시작 전에 문서화하고 팀과 공유하세요

한 번에 하나의 변수만 바꾸세요. 여러 변수를 동시에 바꾸면 원인을 특정할 수 없습니다

4. AB 테스트 구현하기

실험 설계를 마친 김개발 씨는 드디어 A/B 테스트를 구현하기 시작했습니다. 하지만 사용자를 어떻게 두 그룹으로 나눠야 할지, 그리고 어떤 데이터를 수집해야 할지 막막했습니다.

A/B 테스트는 사용자를 무작위로 두 그룹으로 나누어 서로 다른 버전을 보여주고 결과를 비교하는 실험 방법입니다. 마치 쌍둥이에게 서로 다른 교육을 시키고 성적을 비교하는 것과 같습니다.

웹 서비스에서 가장 널리 사용되는 실험 방법이며, 올바르게 구현하면 인과관계를 파악할 수 있습니다.

다음 코드를 살펴봅시다.

import hashlib
from datetime import datetime
from typing import Dict, Any

class ABTest:
    def __init__(self, experiment_name: str, traffic_ratio: float = 0.5):
        self.experiment_name = experiment_name
        self.traffic_ratio = traffic_ratio  # 실험군 비율
        self.events: list = []

    def assign_group(self, user_id: str) -> str:
        """사용자를 일관되게 그룹에 배정"""
        # 해시 기반으로 동일 사용자는 항상 같은 그룹
        hash_input = f"{self.experiment_name}:{user_id}"
        hash_value = int(hashlib.md5(hash_input.encode()).hexdigest(), 16)

        if (hash_value % 100) / 100 < self.traffic_ratio:
            return "treatment"  # 실험군
        return "control"        # 대조군

    def log_event(self, user_id: str, event_type: str):
        """이벤트 로깅"""
        self.events.append({
            "user_id": user_id,
            "group": self.assign_group(user_id),
            "event": event_type,
            "timestamp": datetime.now()
        })

# A/B 테스트 실행 예시
test = ABTest("button_color_test", traffic_ratio=0.5)
print(f"user_001 그룹: {test.assign_group('user_001')}")
print(f"user_002 그룹: {test.assign_group('user_002')}")

김개발 씨는 A/B 테스트라는 말을 많이 들어봤지만, 실제로 구현해본 적은 없었습니다. 인터넷에서 찾아보니 복잡한 라이브러리들이 많았지만, 박시니어 씨는 기본 원리부터 이해하라고 조언했습니다.

"A/B 테스트의 핵심은 단 두 가지야. 첫째, 사용자를 무작위로 나눈다.

둘째, 같은 사용자는 항상 같은 그룹에 있어야 한다." 왜 같은 사용자가 항상 같은 그룹에 있어야 할까요? 만약 사용자가 접속할 때마다 다른 그룹에 배정된다면, 어제는 빨간 버튼을 보고 오늘은 파란 버튼을 보게 됩니다.

이러면 일관된 경험을 측정할 수 없습니다. 이 문제를 해결하는 방법이 해시 기반 배정입니다.

사용자 ID를 해시 함수에 넣으면 항상 같은 값이 나옵니다. 이 값을 기준으로 그룹을 나누면 동일 사용자는 언제나 같은 그룹에 배정됩니다.

위의 코드에서 assign_group 메서드를 보세요. 실험 이름과 사용자 ID를 조합하여 해시값을 만듭니다.

이 해시값을 100으로 나눈 나머지가 traffic_ratio보다 작으면 실험군, 크면 대조군입니다. 간단하지만 강력한 방법입니다.

이벤트 로깅도 중요합니다. 사용자가 어떤 행동을 했는지 기록해야 나중에 분석할 수 있습니다.

클릭, 구매, 이탈 등 모든 중요한 행동을 타임스탬프와 함께 저장합니다. 실무에서 주의할 점이 있습니다.

실험군 비율을 처음부터 50:50으로 하면 위험할 수 있습니다. 새 기능에 버그가 있을 수 있기 때문입니다.

처음에는 5-10% 정도로 시작하여 문제가 없는지 확인한 후 점차 비율을 늘리는 것이 안전합니다. 또 하나, 실험 충돌에 주의해야 합니다.

만약 같은 사용자가 여러 실험에 동시에 참여하면, 어떤 실험이 결과에 영향을 미쳤는지 알기 어렵습니다. 실험 간 독립성을 유지하거나, 상호 배제 규칙을 설정해야 합니다.

김개발 씨는 코드를 작성하며 고개를 끄덕였습니다. "생각보다 원리는 단순하네요." 박시니어 씨가 웃으며 말했습니다.

"원리는 단순하지만, 제대로 운영하려면 세심한 주의가 필요해. 이제 분석하는 법을 배워볼까?"

실전 팁

💡 - 새로운 실험은 5-10%의 작은 트래픽으로 시작하여 문제가 없는지 확인하세요

실험 시작 전 로깅이 제대로 되는지 반드시 테스트하세요. 데이터가 없으면 분석도 없습니다

5. 표본 크기 계산하기

A/B 테스트를 시작한 김개발 씨에게 박시니어 씨가 물었습니다. "실험 기간은 어떻게 정할 거예요?" 김개발 씨는 대충 "일주일 정도요?"라고 답했습니다.

박시니어 씨가 한숨을 쉬었습니다. "표본 크기 계산부터 해야죠."

표본 크기는 통계적으로 유의미한 결과를 얻기 위해 필요한 최소 데이터 양입니다. 마치 여론조사를 할 때 몇 명에게 물어봐야 정확한 결과를 얻을 수 있는지 계산하는 것과 같습니다.

표본이 너무 작으면 우연의 결과를 진짜로 착각하고, 너무 크면 시간과 비용이 낭비됩니다.

다음 코드를 살펴봅시다.

import math
from scipy import stats

def calculate_sample_size(
    baseline_rate: float,      # 현재 전환율
    minimum_effect: float,     # 감지하고 싶은 최소 변화율
    alpha: float = 0.05,       # 유의수준 (1종 오류)
    power: float = 0.8         # 검정력 (1 - 2종 오류)
) -> int:
    """필요한 표본 크기 계산 (그룹당)"""

    # 효과 크기 계산
    p1 = baseline_rate
    p2 = baseline_rate * (1 + minimum_effect)

    # 풀드 분산
    pooled_var = p1 * (1 - p1) + p2 * (1 - p2)

    # Z값 계산
    z_alpha = stats.norm.ppf(1 - alpha / 2)
    z_beta = stats.norm.ppf(power)

    # 표본 크기 계산
    effect_size = abs(p2 - p1)
    n = ((z_alpha + z_beta) ** 2 * pooled_var) / (effect_size ** 2)

    return math.ceil(n)

# 예시: 현재 전환율 5%, 10% 상승을 감지하고 싶을 때
sample_per_group = calculate_sample_size(
    baseline_rate=0.05,
    minimum_effect=0.10
)
print(f"그룹당 필요한 표본 크기: {sample_per_group:,}명")
print(f"전체 필요 표본: {sample_per_group * 2:,}명")

김개발 씨는 표본 크기라는 개념이 생소했습니다. "그냥 데이터가 많으면 좋은 거 아닌가요?" 박시니어 씨가 설명을 시작했습니다.

"물론 데이터가 많으면 좋지. 하지만 비즈니스에서는 시간이 돈이야.

필요 이상으로 오래 실험하면 기회비용이 커져. 반대로 너무 빨리 끝내면 잘못된 결론을 내릴 수 있고." 표본 크기 계산에는 네 가지 요소가 필요합니다.

첫째, 기준 전환율입니다. 현재 서비스의 전환율이 얼마인지 알아야 합니다.

기준이 1%인 서비스와 50%인 서비스는 필요한 표본 크기가 완전히 다릅니다. 둘째, 최소 감지 효과입니다.

얼마나 작은 변화까지 잡아내고 싶은지 정해야 합니다. 5% 증가를 감지하려면 표본이 많이 필요하고, 50% 증가는 적은 표본으로도 감지할 수 있습니다.

셋째, 유의수준입니다. 이것은 "효과가 없는데 있다고 잘못 결론 내릴 확률"입니다.

보통 5%(0.05)를 사용합니다. 넷째, 검정력입니다.

이것은 "효과가 있을 때 제대로 감지할 확률"입니다. 보통 80%(0.8)를 사용합니다.

위의 코드에서 calculate_sample_size 함수는 이 네 가지 값을 받아 필요한 표본 크기를 계산합니다. 예시를 보면, 현재 전환율이 5%이고 10% 상승을 감지하고 싶다면 그룹당 약 3만 명이 필요합니다.

실무에서 자주 발생하는 문제가 있습니다. 계산된 표본 크기가 너무 커서 현실적으로 모으기 어려운 경우입니다.

이때 선택지는 두 가지입니다. 첫째, 최소 감지 효과를 높입니다.

작은 변화는 포기하고 큰 변화만 잡아내기로 합니다. 둘째, 유의수준이나 검정력을 조정합니다.

하지만 이는 결과의 신뢰도를 낮추므로 신중해야 합니다. 또 하나 주의할 점은, 계산된 표본 크기를 일일 트래픽으로 나눠 실험 기간을 산출해야 한다는 것입니다.

하루 방문자가 1만 명이고 필요한 표본이 6만 명이면, 최소 6일이 필요합니다. 하지만 주말과 평일의 사용 패턴이 다르다면 최소 1주일 이상 실험하는 것이 안전합니다.

김개발 씨는 계산기를 두드리며 말했습니다. "우리 서비스 일일 방문자가 5천 명인데, 6만 명이 필요하면 12일이나 걸리네요." 박시니어 씨가 고개를 끄덕였습니다.

"맞아. 그래서 실험은 미리 계획해야 해.

급하게 하면 안 돼."

실전 팁

💡 - 표본 크기 계산기 온라인 도구를 활용하세요. Evan Miller의 계산기가 유명합니다

주말, 공휴일, 시즌 이벤트 등 외부 요인을 고려하여 실험 기간에 여유를 두세요

6. 통계적 유의성 검정

2주간의 실험이 끝났습니다. 김개발 씨는 결과 데이터를 보며 환호했습니다.

"대조군 전환율 5%, 실험군 전환율 5.3%! 효과가 있네요!" 하지만 박시니어 씨는 고개를 갸웃거렸습니다.

"정말 효과가 있는 건지, 아니면 우연인지 어떻게 알아요?"

통계적 유의성 검정은 관찰된 차이가 우연에 의한 것인지, 실제 효과에 의한 것인지 판단하는 방법입니다. 마치 동전 던지기에서 앞면이 6번 연속 나왔을 때, 동전이 조작된 것인지 단순한 운인지 판단하는 것과 같습니다.

p-value가 0.05보다 작으면 우연이 아니라고 결론 내립니다.

다음 코드를 살펴봅시다.

from scipy import stats
import numpy as np

def analyze_ab_test(
    control_visitors: int,
    control_conversions: int,
    treatment_visitors: int,
    treatment_conversions: int
) -> dict:
    """A/B 테스트 결과 분석"""

    # 전환율 계산
    control_rate = control_conversions / control_visitors
    treatment_rate = treatment_conversions / treatment_visitors

    # 상대적 변화율
    relative_change = (treatment_rate - control_rate) / control_rate

    # 카이제곱 검정
    observed = np.array([
        [control_conversions, control_visitors - control_conversions],
        [treatment_conversions, treatment_visitors - treatment_conversions]
    ])
    chi2, p_value, dof, expected = stats.chi2_contingency(observed)

    # 결과 해석
    is_significant = p_value < 0.05

    return {
        "control_rate": f"{control_rate:.2%}",
        "treatment_rate": f"{treatment_rate:.2%}",
        "relative_change": f"{relative_change:+.2%}",
        "p_value": f"{p_value:.4f}",
        "is_significant": is_significant,
        "conclusion": "효과 있음" if is_significant else "효과 없음(우연)"
    }

# 실험 결과 분석
result = analyze_ab_test(
    control_visitors=30000,
    control_conversions=1500,    # 5%
    treatment_visitors=30000,
    treatment_conversions=1590   # 5.3%
)
for key, value in result.items():
    print(f"{key}: {value}")

김개발 씨는 숫자만 보면 명확해 보였습니다. 5%에서 5.3%로 올랐으니 효과가 있는 것 아닐까요?

하지만 박시니어 씨의 설명을 듣고 생각이 달라졌습니다. "데이터에는 항상 노이즈가 있어.

오늘 전환율이 높았던 건 날씨가 좋아서일 수도 있고, 우연히 구매 의향이 높은 사람들이 많이 왔을 수도 있어. 그래서 통계적 검정이 필요한 거야." 통계적 유의성 검정의 핵심 개념은 p-value입니다.

p-value는 "효과가 없다고 가정했을 때, 이런 결과가 우연히 나올 확률"입니다. p-value가 0.05라면, 효과가 없는데도 이런 결과가 나올 확률이 5%라는 뜻입니다.

왜 0.05를 기준으로 사용할까요? 이것은 과학계의 관례입니다.

5%보다 낮은 확률이면 "우연치고는 너무 희박하다"고 판단하는 것입니다. 물론 상황에 따라 더 엄격한 기준(0.01)을 사용하기도 합니다.

위의 코드에서 analyze_ab_test 함수는 카이제곱 검정을 사용합니다. 이 방법은 두 그룹의 전환율 차이가 통계적으로 유의미한지 판단합니다.

예시의 결과를 보면, 5%에서 5.3%로의 증가는 p-value가 0.05보다 클 가능성이 높습니다. 즉, 우연일 수 있습니다.

여기서 중요한 교훈이 있습니다. 작은 차이를 감지하려면 큰 표본이 필요합니다. 0.3% 포인트의 차이를 확실하게 검증하려면 수십만 명의 데이터가 필요할 수 있습니다.

실무에서 자주 하는 실수 중 하나는 p-hacking입니다. 데이터를 이리저리 자르고 붙여서 p-value가 0.05 미만이 되는 조건을 찾아내는 것입니다.

예를 들어 "20대 여성 사용자에게서만 효과가 있었다"라고 보고하는 경우입니다. 이런 식으로 찾아낸 결과는 재현되지 않을 가능성이 높습니다.

또 하나 주의할 점은, p-value가 작다고 해서 효과가 "크다"는 뜻은 아니라는 것입니다. 표본이 매우 크면 아주 작은 차이도 통계적으로 유의미하게 나옵니다.

실무적으로 의미 있는 크기인지는 별도로 판단해야 합니다. 김개발 씨는 분석 결과를 보며 한숨을 쉬었습니다.

"효과가 없었네요..." 박시니어 씨가 위로했습니다. "효과가 없다는 걸 확인한 것도 가치 있어.

잘못된 확신으로 전체 배포했다가 성과가 안 나오는 것보다 훨씬 나아."

실전 팁

💡 - p-value만 보지 말고 신뢰구간도 함께 확인하세요. 효과의 범위를 알 수 있습니다

실험 전에 정한 분석 방법을 고수하세요. 결과를 보고 분석 방법을 바꾸면 신뢰도가 떨어집니다

7. 다중 비교 문제와 해결책

실험 결과가 유의미하지 않게 나오자 김개발 씨는 다른 지표들을 살펴보기 시작했습니다. "클릭률은 어때?

체류 시간은? 페이지뷰는?" 그러다 하나의 지표에서 p-value 0.04를 발견했습니다.

"여기서는 효과가 있네요!" 박시니어 씨의 표정이 어두워졌습니다.

다중 비교 문제는 여러 가설을 동시에 검정할 때 거짓 양성이 증가하는 현상입니다. 마치 복권을 많이 사면 당첨 확률이 올라가는 것처럼, 많은 지표를 검사하면 하나쯤은 우연히 유의미하게 나올 수 있습니다.

이를 방지하기 위해 본페로니 보정 같은 방법을 사용합니다.

다음 코드를 살펴봅시다.

from scipy import stats
import numpy as np

def bonferroni_correction(p_values: list, alpha: float = 0.05) -> dict:
    """본페로니 보정으로 다중 비교 문제 해결"""
    n_tests = len(p_values)
    adjusted_alpha = alpha / n_tests  # 보정된 유의수준

    results = []
    for i, p in enumerate(p_values):
        is_significant = p < adjusted_alpha
        results.append({
            "test": i + 1,
            "p_value": f"{p:.4f}",
            "significant_before": p < alpha,
            "significant_after": is_significant
        })

    print(f"검정 횟수: {n_tests}")
    print(f"원래 유의수준: {alpha}")
    print(f"보정된 유의수준: {adjusted_alpha:.4f}")
    print("-" * 50)

    for r in results:
        before = "유의" if r["significant_before"] else "비유의"
        after = "유의" if r["significant_after"] else "비유의"
        print(f"검정 {r['test']}: p={r['p_value']}, 보정 전: {before}, 보정 후: {after}")

    return results

# 5개 지표를 검정한 경우
p_values = [0.04, 0.12, 0.08, 0.03, 0.55]
bonferroni_correction(p_values)

김개발 씨는 뿌듯한 표정으로 결과를 보여주었습니다. "5개 지표 중에 2개가 유의미하게 나왔어요!" 하지만 박시니어 씨는 고개를 저었습니다.

"그건 다중 비교 문제야. 검정을 많이 하면 하나쯤은 우연히 유의미하게 나오게 되어 있어." 왜 그럴까요?

유의수준 0.05는 "효과가 없어도 5% 확률로 유의미하게 나올 수 있다"는 뜻입니다. 하나의 검정만 하면 5%이지만, 20개 검정을 하면 최소 하나가 유의미하게 나올 확률이 64%나 됩니다.

이 문제를 해결하는 가장 간단한 방법이 본페로니 보정입니다. 원리는 단순합니다.

유의수준을 검정 횟수로 나누는 것입니다. 5개 검정을 하면 유의수준을 0.05/5 = 0.01로 낮춥니다.

이렇게 하면 전체 실험에서 거짓 양성이 나올 확률을 5%로 유지할 수 있습니다. 위의 코드에서 bonferroni_correction 함수는 이 보정을 자동으로 적용합니다.

예시를 보면, 원래 유의수준 0.05에서는 2개 지표가 유의미했지만, 보정 후에는 하나도 유의미하지 않습니다. 본페로니 보정의 단점도 있습니다.

너무 보수적이어서 실제 효과도 놓칠 수 있습니다. 검정 횟수가 많아지면 보정된 유의수준이 너무 낮아져서 웬만한 효과는 감지할 수 없게 됩니다.

이 문제를 완화하기 위한 대안이 있습니다. 홀름 보정이나 벤자미니-호크버그 방법 같은 것들입니다.

이 방법들은 본페로니보다 덜 보수적이면서도 거짓 양성을 적절히 통제합니다. 하지만 가장 좋은 방법은 애초에 검정 횟수를 줄이는 것입니다.

실험을 설계할 때 핵심 지표를 하나만 정해야 합니다. 보조 지표는 참고용으로만 보고, 주요 의사결정은 핵심 지표로만 합니다.

김개발 씨는 깨달음을 얻었습니다. "그래서 실험 설계할 때 핵심 지표를 미리 정하라고 하셨군요." 박시니어 씨가 고개를 끄덕였습니다.

"맞아. 결과를 보고 지표를 고르면 안 돼.

그건 자기 기만이야."

실전 팁

💡 - 실험당 핵심 지표는 하나만 정하세요. 보조 지표는 참고용으로만 사용합니다

다중 비교를 피할 수 없다면 반드시 보정 방법을 적용하세요

8. 인과관계와 상관관계 구분하기

김개발 씨는 새로운 데이터 분석을 하던 중 흥미로운 사실을 발견했습니다. "아이스크림 판매량이 늘면 익사 사고도 늘어요!

아이스크림이 위험한 건가요?" 박시니어 씨가 웃음을 터뜨렸습니다. "그건 상관관계와 인과관계를 혼동한 거야."

상관관계는 두 변수가 함께 움직이는 것이고, 인과관계는 하나가 다른 하나의 원인이 되는 것입니다. 마치 우산 판매량과 비 오는 날이 함께 증가한다고 해서 우산이 비를 부르는 게 아닌 것처럼, 함께 변한다고 해서 원인-결과 관계는 아닙니다.

이 둘을 구분하는 것이 데이터 분석의 핵심입니다.

다음 코드를 살펴봅시다.

import numpy as np
from scipy import stats

def analyze_correlation_vs_causation(
    variable_a: list,
    variable_b: list,
    confounding_variable: list = None
) -> dict:
    """상관관계와 잠재적 교란변수 분석"""

    # 기본 상관관계 계산
    correlation, p_value = stats.pearsonr(variable_a, variable_b)

    result = {
        "correlation": f"{correlation:.3f}",
        "p_value": f"{p_value:.4f}",
        "interpretation": "양의 상관관계" if correlation > 0 else "음의 상관관계"
    }

    # 교란변수가 있는 경우 편상관 계산
    if confounding_variable:
        # 교란변수의 영향을 제거한 편상관
        partial_corr = calculate_partial_correlation(
            variable_a, variable_b, confounding_variable
        )
        result["partial_correlation"] = f"{partial_corr:.3f}"
        result["warning"] = "교란변수 통제 후 상관관계가 변했습니다"

    return result

def calculate_partial_correlation(x, y, z):
    """편상관계수 계산 (z의 영향을 제거)"""
    r_xy = stats.pearsonr(x, y)[0]
    r_xz = stats.pearsonr(x, z)[0]
    r_yz = stats.pearsonr(y, z)[0]

    partial = (r_xy - r_xz * r_yz) / np.sqrt((1 - r_xz**2) * (1 - r_yz**2))
    return partial

# 예시: 아이스크림, 익사사고, 기온
months = 12
temperature = [5, 8, 12, 18, 24, 28, 30, 29, 24, 18, 12, 7]
ice_cream_sales = [100, 120, 180, 280, 400, 520, 580, 550, 380, 250, 150, 110]
drowning = [10, 12, 18, 28, 45, 60, 68, 62, 42, 25, 14, 11]

print("아이스크림 vs 익사사고:", stats.pearsonr(ice_cream_sales, drowning)[0])
print("실제 원인은 기온입니다. 두 변수 모두 기온과 상관있습니다.")

김개발 씨의 발견은 데이터 분석에서 가장 흔한 함정 중 하나를 보여줍니다. 두 변수가 함께 움직인다고 해서 하나가 다른 하나의 원인이라고 단정할 수 없습니다.

아이스크림과 익사사고의 관계를 다시 생각해봅시다. 둘 다 여름에 증가합니다.

하지만 아이스크림을 먹어서 익사하는 게 아닙니다. 여름이라는 교란변수가 두 변수 모두에 영향을 미치는 것입니다.

더운 날씨에 사람들은 아이스크림을 많이 먹고, 동시에 수영을 많이 하다가 사고가 나기도 합니다. 상관관계를 인과관계로 착각하면 어떤 문제가 생길까요?

잘못된 의사결정을 하게 됩니다. 예를 들어 "프리미엄 요금제 사용자가 이탈률이 낮다"는 데이터를 보고 "모든 사용자를 프리미엄으로 전환시키면 이탈률이 낮아지겠군"이라고 결론 내릴 수 있습니다.

하지만 실제로는 충성도가 높은 사용자가 프리미엄을 선택하는 것일 수 있습니다. 강제로 전환시키면 오히려 이탈이 늘어날 수 있습니다.

위의 코드에서 analyze_correlation_vs_causation 함수는 두 변수의 상관관계를 분석합니다. 더 중요한 것은 교란변수를 통제한 편상관을 계산하는 부분입니다.

교란변수의 영향을 제거한 후에도 상관관계가 유지되는지 확인해야 합니다. 인과관계를 확립하려면 어떻게 해야 할까요?

가장 확실한 방법은 무작위 통제 실험입니다. A/B 테스트가 바로 이것입니다.

무작위로 그룹을 나누면 교란변수의 영향이 두 그룹에 균등하게 분산됩니다. 그래서 관찰된 차이가 순수하게 실험 변수 때문이라고 말할 수 있습니다.

무작위 실험이 불가능한 경우에는 통계적 기법을 사용합니다. 회귀 분석에서 통제변수를 추가하거나, 도구변수법, 차분법 같은 고급 기법을 사용합니다.

하지만 이런 방법들도 모든 교란변수를 통제했다는 가정이 필요합니다. 김개발 씨는 박시니어 씨에게 물었습니다.

"그러면 상관관계는 의미가 없는 건가요?" 박시니어 씨가 답했습니다. "아니, 상관관계도 가치가 있어.

예측에는 유용하거든. 아이스크림 판매량을 보고 익사사고를 예측할 수 있지.

하지만 개입을 위한 결정에는 인과관계가 필요해. 익사를 줄이려면 아이스크림 판매를 금지하는 게 아니라 안전 교육을 강화해야 하니까."

실전 팁

💡 - "A가 증가하면 B도 증가한다"와 "A가 B의 원인이다"는 다릅니다. 항상 구분하세요

인과관계를 주장하려면 무작위 실험을 하거나, 최소한 교란변수를 통제한 분석을 하세요

9. 실험 결과 해석과 의사결정

모든 분석을 마친 김개발 씨는 결과 보고서를 작성했습니다. p-value, 신뢰구간, 효과 크기까지 꼼꼼하게 정리했습니다.

하지만 팀장님은 보고서를 보더니 물었습니다. "그래서 이 기능, 배포해요 말아요?" 김개발 씨는 말문이 막혔습니다.

실험 결과를 해석하고 의사결정을 내리는 것은 통계적 유의성 이상의 것을 고려해야 합니다. 실용적 유의성, 비용 대비 효과, 리스크 등을 종합적으로 판단해야 합니다.

마치 의사가 검사 결과만 보고 수술을 결정하지 않고 환자의 상태와 부작용을 함께 고려하는 것과 같습니다.

다음 코드를 살펴봅시다.

from dataclasses import dataclass
from typing import Optional

@dataclass
class ExperimentResult:
    name: str
    statistical_significant: bool
    p_value: float
    effect_size: float           # 상대적 변화율
    confidence_interval: tuple   # 95% 신뢰구간
    sample_size: int
    implementation_cost: str     # 구현 복잡도
    potential_risk: str          # 잠재적 위험

def make_decision(result: ExperimentResult) -> dict:
    """실험 결과를 바탕으로 의사결정 추천"""

    recommendation = {
        "decision": "",
        "reasons": [],
        "action_items": []
    }

    # 통계적으로 유의미하고 효과 크기가 충분한 경우
    if result.statistical_significant and result.effect_size >= 0.05:
        recommendation["decision"] = "배포 추천"
        recommendation["reasons"].append(f"효과 크기 {result.effect_size:.1%}로 실용적 의미 있음")
        recommendation["action_items"].append("단계적 롤아웃 계획 수립")

    # 통계적으로 유의미하지만 효과가 작은 경우
    elif result.statistical_significant and result.effect_size < 0.05:
        recommendation["decision"] = "추가 검토 필요"
        recommendation["reasons"].append("효과 크기가 너무 작아 실용적 가치 불분명")
        recommendation["action_items"].append("구현 비용 대비 효과 재검토")

    # 통계적으로 유의미하지 않은 경우
    else:
        recommendation["decision"] = "배포 보류"
        recommendation["reasons"].append("효과가 검증되지 않음")
        recommendation["action_items"].append("실험 설계 재검토 또는 기능 수정")

    return recommendation

# 의사결정 예시
experiment = ExperimentResult(
    name="새 추천 알고리즘",
    statistical_significant=True,
    p_value=0.03,
    effect_size=0.08,
    confidence_interval=(0.03, 0.13),
    sample_size=50000,
    implementation_cost="중간",
    potential_risk="낮음"
)

decision = make_decision(experiment)
print(f"결정: {decision['decision']}")
print(f"근거: {decision['reasons']}")
print(f"후속 조치: {decision['action_items']}")

김개발 씨는 숫자로 가득한 보고서를 내밀었지만, 팀장님이 원한 것은 명확한 결론이었습니다. "배포해요, 말아요?" 이 간단한 질문에 답하려면 통계 이상의 판단이 필요했습니다.

박시니어 씨가 김개발 씨를 회의실로 데려갔습니다. "실험 결과를 비즈니스 의사결정으로 전환하는 법을 알려줄게." 첫 번째로 고려할 것은 효과 크기입니다.

통계적으로 유의미하다는 것은 "우연이 아니다"라는 뜻이지, "중요하다"는 뜻이 아닙니다. 표본이 매우 크면 0.1% 차이도 통계적으로 유의미할 수 있습니다.

하지만 0.1% 향상을 위해 대규모 개발을 하는 것이 합리적일까요? 두 번째는 신뢰구간입니다.

p-value보다 신뢰구간이 더 유용한 정보를 줍니다. 효과가 3%에서 13% 사이에 있다면, 최악의 경우에도 3% 향상이 보장됩니다.

반면 -2%에서 8% 사이라면, 오히려 역효과가 날 수도 있습니다. 세 번째는 구현 비용입니다.

1% 향상을 위해 6개월 개발이 필요하다면, 그 리소스로 다른 기능을 만드는 게 나을 수 있습니다. 반대로, 간단한 설정 변경으로 1% 향상이 가능하다면 당장 적용해야 합니다.

네 번째는 위험도입니다. 새 기능이 기존 사용자 경험을 해칠 가능성은 없는지, 기술적 부채를 늘리지는 않는지 고려해야 합니다.

위의 코드에서 make_decision 함수는 이런 요소들을 종합하여 추천을 생성합니다. 단순히 p-value가 0.05보다 작은지만 보는 게 아니라, 효과 크기가 실용적으로 의미 있는지도 확인합니다.

실무에서 중요한 원칙이 있습니다. 부정적 결과도 가치가 있다는 것입니다.

실험이 실패했다고 해서 시간 낭비가 아닙니다. "이 방향은 효과가 없다"는 것을 확인한 것도 중요한 정보입니다.

이런 결과를 제대로 기록하지 않으면, 나중에 다른 사람이 같은 실험을 반복하게 됩니다. 김개발 씨는 보고서를 다시 작성했습니다.

이번에는 숫자뿐 아니라 명확한 추천과 근거를 포함했습니다. 팀장님은 만족스럽게 고개를 끄덕였습니다.

"이제 결정할 수 있겠네요."

실전 팁

💡 - 통계적 유의성과 실용적 유의성을 구분하세요. p < 0.05라고 무조건 중요한 게 아닙니다

실험 결과는 긍정적이든 부정적이든 반드시 문서화하세요. 조직의 학습 자산이 됩니다

10. 실험 문화 구축하기

김개발 씨는 몇 번의 A/B 테스트를 성공적으로 마무리했습니다. 하지만 여전히 팀에서 실험은 "특별한 경우"에만 하는 것이었습니다.

박시니어 씨가 말했습니다. "개인의 역량도 중요하지만, 진짜 중요한 건 팀 전체의 실험 문화야."

실험 문화는 데이터에 기반한 의사결정을 조직의 기본 원칙으로 삼는 것입니다. 마치 코드 리뷰가 개발 프로세스에 자연스럽게 녹아있듯이, 모든 주요 변경 사항을 실험으로 검증하는 습관입니다.

실험 문화가 정착되면 직관과 권위에 의존하지 않고, 증거에 기반한 결정을 내릴 수 있습니다.

다음 코드를 살펴봅시다.

from datetime import datetime
from dataclasses import dataclass, field
from typing import List

@dataclass
class ExperimentLog:
    """실험 기록 템플릿"""
    experiment_id: str
    created_date: str
    owner: str
    hypothesis: str
    primary_metric: str
    expected_effect: str
    actual_result: str = ""
    learnings: List[str] = field(default_factory=list)
    status: str = "planned"  # planned, running, completed, stopped

class ExperimentRepository:
    """팀의 실험 저장소"""

    def __init__(self):
        self.experiments: List[ExperimentLog] = []

    def add_experiment(self, exp: ExperimentLog):
        self.experiments.append(exp)
        print(f"실험 등록: {exp.experiment_id}")

    def get_learnings(self) -> List[str]:
        """모든 실험에서 얻은 교훈 수집"""
        all_learnings = []
        for exp in self.experiments:
            if exp.learnings:
                all_learnings.extend(exp.learnings)
        return all_learnings

    def calculate_success_rate(self) -> float:
        """실험 성공률 계산"""
        completed = [e for e in self.experiments if e.status == "completed"]
        if not completed:
            return 0.0
        successful = [e for e in completed if "성공" in e.actual_result]
        return len(successful) / len(completed)

# 팀 실험 저장소 사용 예시
repo = ExperimentRepository()
repo.add_experiment(ExperimentLog(
    experiment_id="EXP-2024-001",
    created_date="2024-01-15",
    owner="김개발",
    hypothesis="추천 알고리즘 개선으로 클릭률 10% 증가",
    primary_metric="클릭률(CTR)",
    expected_effect="10% 상승",
    actual_result="8% 상승으로 성공",
    learnings=["개인화가 클릭률에 큰 영향", "신규 사용자에게 효과 더 큼"],
    status="completed"
))

print(f"현재까지 학습한 교훈: {repo.get_learnings()}")

김개발 씨는 혼자서 실험을 잘하게 되었지만, 팀 전체를 보면 아직 갈 길이 멀었습니다. 대부분의 기능은 여전히 "이게 좋을 것 같다"는 직관으로 배포되고 있었습니다.

박시니어 씨가 말했습니다. "아마존, 넷플릭스, 구글 같은 회사들이 왜 데이터 기업이라고 불리는지 알아?

단순히 데이터가 많아서가 아니야. 모든 결정을 실험으로 검증하는 문화가 있기 때문이야." 실험 문화를 구축하려면 어떻게 해야 할까요?

첫째, 실험 저장소를 만들어야 합니다. 모든 실험을 기록하고 결과를 공유하는 공간입니다.

성공한 실험뿐 아니라 실패한 실험도 기록합니다. 과거에 무엇을 시도했고, 무엇을 배웠는지 누구나 찾아볼 수 있어야 합니다.

둘째, 실험 리뷰를 정례화해야 합니다. 코드 리뷰처럼 실험 설계도 동료 검토를 받습니다.

가설이 명확한지, 표본 크기가 충분한지, 분석 방법이 적절한지 함께 점검합니다. 셋째, 실패를 허용해야 합니다.

대부분의 실험은 실패합니다. 새로운 아이디어가 기존보다 좋을 확률은 생각보다 낮습니다.

실패한 실험을 비난하면 아무도 실험하지 않으려 할 것입니다. 오히려 "좋은 실패"를 장려해야 합니다.

넷째, 리더십의 지지가 필요합니다. 경영진이 "그냥 빨리 배포해"라고 하면 실험 문화는 자리 잡을 수 없습니다.

리더가 먼저 "데이터로 증명해 보세요"라고 요청해야 합니다. 위의 코드에서 ExperimentRepository 클래스는 팀의 실험 기록을 관리합니다.

모든 실험에서 얻은 교훈을 수집하고, 성공률을 추적합니다. 이런 시스템이 있으면 팀 전체의 학습이 축적됩니다.

실험 문화의 궁극적인 목표는 겸손입니다. 아무리 경험이 많은 사람도 항상 맞지 않습니다.

실험은 우리의 직관이 틀릴 수 있음을 인정하고, 데이터에서 배우려는 자세입니다. 김개발 씨는 팀 회의에서 제안했습니다.

"우리도 실험 저장소를 만들어 보면 어떨까요?" 처음에는 반응이 미지근했지만, 몇 번의 성공 사례 후 동료들도 실험의 가치를 인정하기 시작했습니다. 실험 문화의 씨앗이 뿌려진 것입니다.

실전 팁

💡 - 작은 것부터 시작하세요. 버튼 색상, 문구 변경 같은 간단한 실험으로 성공 사례를 만드세요

실험 결과를 정기적으로 공유하는 자리를 만드세요. 학습이 확산됩니다

이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

#Python#DataScience#ABTesting#Hypothesis#StatisticalAnalysis#Data Science

CodeDeck

가설 설정 및 실험 설계 원칙 완벽 가이드

목차

1. 가설이란 무엇인가

2. 좋은 가설의 조건

3. 실험 설계의 기초

4. AB 테스트 구현하기

5. 표본 크기 계산하기

6. 통계적 유의성 검정

7. 다중 비교 문제와 해결책

8. 인과관계와 상관관계 구분하기

9. 실험 결과 해석과 의사결정

10. 실험 문화 구축하기

이 카드뉴스가 포함된 코스

A/B 테스트 및 실험 설계 완전 정복

댓글 (0)

함께 보면 좋은 카드 뉴스

vLLM 통합 완벽 가이드

Web UI Demo 구축 완벽 가이드

Sandboxing & Execution Control 완벽 가이드

Voice Design then Clone 워크플로우 완벽 가이드

Tool Use 완벽 가이드 - Shell, Browser, DB 실전 활용