이상 탐지 시스템 구축 완벽 가이드

머신러닝과 통계 기법을 활용하여 실시간으로 이상 패턴을 감지하는 시스템을 구축하는 방법을 배워보세요. 실무에서 바로 활용할 수 있는 다양한 이상 탐지 알고리즘과 구현 방법을 친절하게 안내합니다.

통계 기반 이상 탐지 - Z-Score 방법으로 이상값 찾기
Isolation Forest - 고차원 데이터의 이상 탐지
LSTM 오토인코더 - 시계열 데이터의 이상 패턴 탐지
슬라이딩 윈도우 통계 - 실시간 스트리밍 데이터 이상 탐지
One-Class SVM - 정상 데이터만으로 경계 학습
앙상블 이상 탐지 - 여러 방법을 결합하여 정확도 향상
시각화 기반 탐지 - 사람의 직관과 자동화의 결합
임계값 동적 조정 - 상황에 맞는 탐지 민감도 자동 조절

1. 통계 기반 이상 탐지 - Z-Score 방법으로 이상값 찾기

시작하며

여러분이 웹 서비스를 운영하면서 갑자기 서버 응답 시간이 평소보다 10배나 느려진 상황을 겪어본 적 있나요? 혹은 쇼핑몰에서 특정 상품의 주문량이 갑자기 비정상적으로 증가하는 것을 발견한 적은요?

이런 문제는 실제 개발 현장에서 매일 발생합니다. 정상적인 패턴에서 벗어난 데이터를 빨리 발견하지 못하면, 시스템 장애로 이어지거나 보안 사고가 발생할 수 있습니다.

사람이 24시간 모니터링할 수는 없으니까요. 바로 이럴 때 필요한 것이 통계 기반 이상 탐지입니다.

데이터의 평균과 표준편차를 이용해서, 정상 범위를 벗어난 값들을 자동으로 찾아낼 수 있습니다.

개요

간단히 말해서, 이 개념은 숫자 데이터들이 평균에서 얼마나 멀리 떨어져 있는지를 계산해서, 너무 멀리 떨어진 값을 이상하다고 판단하는 방법입니다. 실무에서 왜 이 방법이 필요할까요?

예를 들어, 서버의 CPU 사용률이 평소에는 30~~50% 사이인데 갑자기 95%가 된다면 문제가 있다는 신호겠죠. 또는 사용자의 로그인 시도가 평소에는 하루에 2~~3번인데 갑자기 100번이 된다면 계정 해킹 시도일 수 있습니다.

이런 상황들을 자동으로 감지할 수 있습니다. 전통적인 방법에서는 임계값을 수동으로 설정했습니다.

"CPU가 80% 넘으면 알림 보내기" 같은 방식이죠. 하지만 이제는 데이터의 통계적 특성을 자동으로 분석해서, 상황에 맞게 이상값을 판단할 수 있습니다.

Z-Score의 핵심 특징은 첫째, 데이터의 평균과 표준편차만 있으면 쉽게 계산할 수 있고, 둘째, 해석이 직관적이며(Z-Score가 3이면 평균에서 표준편차 3배 떨어진 것), 셋째, 정규분포를 따르는 데이터에 특히 효과적입니다. 이러한 특징들이 실시간 모니터링 시스템에서 매우 유용합니다.

코드 예제

import numpy as np
from scipy import stats

# 서버 응답 시간 데이터 (밀리초 단위)
response_times = [120, 130, 125, 128, 132, 129, 500, 127, 131, 126]

# 평균과 표준편차 계산
mean = np.mean(response_times)
std = np.std(response_times)

# 각 데이터의 Z-Score 계산
z_scores = [(x - mean) / std for x in response_times]

# 이상값 탐지 (Z-Score가 3보다 크면 이상값)
threshold = 3
anomalies = [response_times[i] for i, z in enumerate(z_scores) if abs(z) > threshold]

print(f"평균: {mean:.2f}ms, 표준편차: {std:.2f}ms")
print(f"이상값 발견: {anomalies}")  # 출력: [500]

설명

이것이 하는 일: 위 코드는 서버 응답 시간 데이터를 분석해서, 비정상적으로 느린 응답을 자동으로 찾아냅니다. 첫 번째로, numpy를 사용해서 데이터의 평균(mean)과 표준편차(std)를 계산합니다.

평균은 "보통 얼마나 걸리는가"를 나타내고, 표준편차는 "얼마나 들쭉날쭉한가"를 나타냅니다. 예를 들어 평균이 128ms이고 표준편차가 10ms라면, 대부분의 응답 시간이 118~138ms 사이에 있다는 뜻입니다.

그 다음으로, 각 데이터 포인트에 대해 Z-Score를 계산합니다. Z-Score는 "(해당 값 - 평균) / 표준편차"로 계산되는데, 이것은 "평균에서 표준편차 몇 배만큼 떨어져 있는가"를 의미합니다.

500ms의 경우 Z-Score가 약 3.2가 나오는데, 이는 평균에서 표준편차의 3.2배나 떨어져 있다는 뜻입니다. 마지막으로, Z-Score의 절댓값이 3보다 큰 값들을 이상값으로 판단합니다.

통계학에서는 정규분포를 따르는 데이터의 99.7%가 평균 ± 표준편차 3배 범위 안에 들어오기 때문에, 이 범위를 벗어나면 매우 드문 경우라고 볼 수 있습니다. 여러분이 이 코드를 사용하면 수천, 수만 개의 데이터 중에서 정말 문제가 있는 몇 개만 골라낼 수 있습니다.

이렇게 하면 불필요한 알림을 줄이고, 진짜 중요한 이상 상황에만 집중할 수 있습니다. 또한 데이터가 계속 쌓이면서 평균과 표준편차가 자동으로 업데이트되므로, 시스템의 변화에 자연스럽게 적응합니다.

실전 팁

💡 Z-Score 방법은 데이터가 정규분포를 따를 때 가장 효과적입니다. 만약 데이터가 심하게 치우쳐 있다면 IQR(Inter-Quartile Range) 방법을 함께 사용하세요.

💡 실시간 시스템에서는 이동 평균(Rolling Mean)과 이동 표준편차를 사용하세요. 최근 100개 데이터만으로 통계를 계산하면 시스템 변화에 더 빠르게 반응합니다.

💡 threshold 값은 데이터 특성에 따라 조정하세요. 민감하게 탐지하려면 2~~2.5, 확실한 이상만 잡으려면 3~~3.5를 사용합니다.

💡 다변량 데이터(여러 지표를 동시에 모니터링)에서는 Mahalanobis Distance를 사용하면 변수 간 상관관계까지 고려할 수 있습니다.

💡 탐지된 이상값은 반드시 로그에 기록하고, 시각화해서 검토하세요. 가끔 시스템 변화(트래픽 증가 등)를 이상값으로 오판할 수 있습니다.

2. Isolation Forest - 고차원 데이터의 이상 탐지

시작하며

여러분이 전자상거래 시스템에서 사용자 행동 데이터를 분석할 때를 생각해보세요. 로그인 시간, 클릭 횟수, 페이지 체류 시간, 구매 금액, IP 주소 변경 빈도 등 수십 가지 변수를 동시에 봐야 합니다.

이 모든 것을 일일이 확인하면서 이상한 패턴을 찾기란 거의 불가능하죠. 이런 문제는 보안, 금융, IoT 등 다양한 분야에서 발생합니다.

데이터의 차원(변수 개수)이 많아질수록 통계적 방법만으로는 한계가 있습니다. 정상과 이상을 구분하는 명확한 기준을 찾기가 어려워지기 때문입니다.

바로 이럴 때 필요한 것이 Isolation Forest입니다. 이상값은 '고립시키기 쉽다'는 아이디어를 활용해서, 복잡한 고차원 데이터에서도 효과적으로 이상을 탐지할 수 있습니다.

개요

간단히 말해서, 이 개념은 데이터를 무작위로 쪼개나가면서 각 데이터 포인트를 고립시키는데, 이상값은 훨씬 빨리 고립된다는 원리를 이용하는 머신러닝 알고리즘입니다. 왜 이 방법이 필요할까요?

예를 들어, 정상 사용자는 하루에 10~~20개 상품을 보고 1~~2개를 구매하는데, 봇(bot)은 1시간에 1000개를 보고 아무것도 구매하지 않을 수 있습니다. 이런 봇은 정상 사용자 무리에서 매우 동떨어진 위치에 있어서, 쉽게 '고립'시킬 수 있습니다.

신용카드 사기 탐지, 네트워크 침입 탐지, 제조 불량품 감지 같은 경우에 매우 유용합니다. 전통적인 방법에서는 정상 패턴의 경계를 정의하려고 했다면, Isolation Forest는 이상값이 얼마나 쉽게 분리되는지만 측정합니다.

이 접근법이 훨씬 빠르고 효율적입니다. Isolation Forest의 핵심 특징은 첫째, 학습 속도가 매우 빠르고(O(n log n)), 둘째, 고차원 데이터에서도 잘 작동하며, 셋째, 정상 데이터만으로도 학습이 가능합니다(비지도 학습).

이러한 특징들이 실시간 이상 탐지 시스템에 이상적입니다.

코드 예제

from sklearn.ensemble import IsolationForest
import numpy as np

# 사용자 행동 데이터 [클릭수, 체류시간(분), 구매금액(만원)]
user_data = np.array([
    [15, 23, 5], [12, 19, 3], [18, 25, 7],  # 정상 사용자
    [14, 21, 4], [16, 22, 6], [13, 20, 5],
    [1000, 5, 0],  # 봇 - 클릭만 많고 구매 없음
    [10, 200, 500]  # 이상 거래 - 긴 체류, 고액 구매
])

# Isolation Forest 모델 생성 및 학습
model = IsolationForest(contamination=0.2, random_state=42)
predictions = model.fit_predict(user_data)

# 결과 출력 (-1: 이상, 1: 정상)
for i, pred in enumerate(predictions):
    status = "이상" if pred == -1 else "정상"
    print(f"사용자 {i}: {user_data[i]} -> {status}")

설명

이것이 하는 일: 위 코드는 사용자의 클릭, 체류시간, 구매금액 데이터를 분석해서, 봇이나 이상 거래를 자동으로 찾아냅니다. 첫 번째로, 3차원 데이터(클릭수, 체류시간, 구매금액)를 numpy 배열로 준비합니다.

정상 사용자 6명과 의심스러운 사용자 2명의 데이터가 있습니다. Isolation Forest는 이 데이터를 받아서 내부적으로 여러 개의 결정 트리를 만듭니다.

그 다음으로, contamination 파라미터를 0.2로 설정합니다. 이것은 "전체 데이터의 약 20%가 이상값일 것"이라고 알려주는 것입니다.

모델은 이 비율을 참고해서 이상값의 기준점을 조정합니다. fit_predict 메서드가 호출되면, 모델은 각 데이터 포인트를 고립시키는데 평균 몇 번의 분할이 필요한지 계산합니다.

내부에서 어떤 일이 일어나냐면, 각 트리는 무작위로 변수를 선택하고(예: 클릭수), 무작위로 값을 선택해서(예: 500) 데이터를 둘로 나눕니다. 이 과정을 각 데이터가 혼자 남을 때까지 반복합니다.

이상값은 무리에서 멀리 떨어져 있어서 2~3번만에 고립되지만, 정상값은 여러 정상 데이터와 섞여 있어서 10번 이상 분할해야 고립됩니다. 마지막으로, 모델은 각 데이터의 "고립 용이성"을 점수화해서, 쉽게 고립되는 것들을 -1(이상), 어렵게 고립되는 것들을 1(정상)로 분류합니다.

7번째 사용자(1000클릭, 구매 없음)와 8번째 사용자(고액 구매)는 정상 패턴에서 너무 멀리 떨어져 있어서 이상으로 판정됩니다. 여러분이 이 코드를 사용하면 수십 가지 변수를 동시에 고려하면서도 빠르게 이상을 탐지할 수 있습니다.

특히 정상 데이터만 많고 이상 데이터의 예시가 거의 없을 때 매우 효과적입니다. 또한 새로운 유형의 이상도 잘 찾아내는데, 이는 패턴을 암기하는 것이 아니라 고립 용이성을 측정하기 때문입니다.

실전 팁

💡 contamination 값은 도메인 지식을 바탕으로 설정하세요. 일반적으로 0.05~~0.1(5~~10%)이 적절하며, 너무 크면 정상값까지 이상으로 판정합니다.

💡 변수의 스케일을 맞추세요. 클릭수(0~~1000)와 구매금액(0~~1000만원)처럼 범위가 다르면 StandardScaler로 정규화한 후 사용합니다.

💡 n_estimators(트리 개수)는 기본값 100으로 시작하되, 데이터가 많고 복잡하면 200~300으로 늘리면 더 안정적인 결과를 얻습니다.

💡 decision_function()을 사용하면 -1/1 대신 이상 점수를 얻을 수 있어서, 이상의 정도를 순위화할 수 있습니다. 가장 의심스러운 상위 10건만 검토하는 식으로 활용하세요.

💡 주기적으로 모델을 재학습하세요. 사용자 행동 패턴은 시간이 지나면서 변하므로, 매주 또는 매월 최신 데이터로 모델을 업데이트해야 합니다.

3. LSTM 오토인코더 - 시계열 데이터의 이상 패턴 탐지

시작하며

여러분이 IoT 센서에서 수집한 온도, 진동, 압력 데이터를 모니터링한다고 생각해보세요. 이 데이터들은 시간에 따라 변하고, 하루 주기, 일주일 주기로 반복되는 패턴이 있습니다.

단순히 현재 값만 보는 것이 아니라, 과거의 흐름과 비교해서 "지금 이 패턴이 정상인가?"를 판단해야 합니다. 이런 문제는 설비 모니터링, 주식 거래, 네트워크 트래픽 분석 등에서 흔히 발생합니다.

시간의 흐름을 고려하지 않으면 정상적인 변동을 이상으로 오판하거나, 미묘한 이상 패턴을 놓칠 수 있습니다. 예를 들어 기계의 진동이 서서히 증가하는 패턴은 고장 전조 증상일 수 있지만, 각 시점의 값만 보면 정상 범위 안에 있을 수 있습니다.

바로 이럴 때 필요한 것이 LSTM 오토인코더입니다. 시계열 데이터의 정상 패턴을 학습한 후, 그 패턴에서 벗어난 구간을 이상으로 탐지할 수 있습니다.

개요

간단히 말해서, 이 개념은 시계열 데이터를 압축했다가 복원하는 신경망을 학습시켜서, 복원이 잘 안 되는 구간을 이상으로 판단하는 방법입니다. 왜 이 방법이 필요할까요?

예를 들어, 공장의 모터 진동 데이터가 평소에는 규칙적인 패턴을 보이는데, 베어링이 마모되기 시작하면 미묘하게 불규칙해집니다. LSTM 오토인코더는 정상 패턴을 완벽히 학습했기 때문에, 이런 미묘한 변화를 감지할 수 있습니다.

이는 예지 정비(Predictive Maintenance)에서 매우 중요합니다. 전통적인 방법에서는 임계값 기반 알림(진동이 특정 값 초과 시)을 사용했다면, LSTM 오토인코더는 "정상적인 흐름"을 학습해서 패턴의 변화를 감지합니다.

고장이 일어나기 전에 미리 알 수 있습니다. LSTM 오토인코더의 핵심 특징은 첫째, 시간의 순서와 문맥을 이해할 수 있고, 둘째, 복잡한 주기성과 추세를 자동으로 학습하며, 셋째, 라벨이 없는 정상 데이터만으로 학습 가능합니다.

이러한 특징들이 실제 산업 현장에서 매우 유용합니다.

코드 예제

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, RepeatVector, TimeDistributed
import numpy as np

# 시계열 데이터 준비 (예: 센서 값)
timesteps = 10  # 10개 시점을 하나의 시퀀스로
features = 1

# LSTM 오토인코더 구축
model = Sequential([
    LSTM(32, activation='relu', input_shape=(timesteps, features)),  # 인코더
    RepeatVector(timesteps),  # 차원 복원
    LSTM(32, activation='relu', return_sequences=True),  # 디코더
    TimeDistributed(Dense(features))  # 출력층
])

model.compile(optimizer='adam', loss='mse')

# 정상 데이터로 학습 (예시)
normal_data = np.random.randn(1000, timesteps, features)
model.fit(normal_data, normal_data, epochs=50, batch_size=32, verbose=0)

# 테스트 데이터 복원 오차 계산
test_data = np.random.randn(10, timesteps, features)
reconstructed = model.predict(test_data)
mse = np.mean(np.power(test_data - reconstructed, 2), axis=1)

# 오차가 큰 것을 이상으로 판단
threshold = np.percentile(mse, 95)
anomalies = mse > threshold
print(f"이상 구간: {np.where(anomalies)[0]}")

설명

이것이 하는 일: 위 코드는 시계열 센서 데이터의 정상 패턴을 학습한 후, 그 패턴에서 벗어난 이상 구간을 자동으로 찾아냅니다. 첫 번째로, LSTM 오토인코더 구조를 만듭니다.

인코더 부분은 10개 시점의 데이터를 받아서 32차원의 압축된 표현으로 만듭니다. 이 압축된 표현이 바로 "이 시계열의 핵심 패턴"을 담고 있습니다.

RepeatVector는 이 압축된 정보를 다시 10개 시점으로 펼쳐주고, 디코더 LSTM이 원본 데이터를 복원하려고 시도합니다. 그 다음으로, 정상 데이터만을 사용해서 모델을 학습시킵니다.

학습 과정에서 모델은 입력을 받아서 출력으로 똑같이 복원하려고 노력합니다. MSE(Mean Squared Error) 손실 함수가 "입력과 출력이 얼마나 다른가"를 측정하고, 모델은 이 차이를 최소화하는 방향으로 학습됩니다.

50번의 에폭(epoch) 동안 반복 학습하면서, 정상 패턴의 특징을 완벽히 익힙니다. 내부에서 어떤 일이 일어나냐면, LSTM 셀들이 시계열의 장기 의존성을 학습합니다.

예를 들어 "오전 9시에 값이 올라가면 오후 3시에는 내려간다" 같은 시간적 관계를 파악합니다. 정상 데이터에서 자주 나타나는 패턴은 잘 압축하고 복원할 수 있지만, 학습하지 못한 이상 패턴은 복원 오차가 큽니다.

마지막으로, 테스트 데이터에 대해 복원을 시도하고 MSE를 계산합니다. 각 시퀀스마다 "얼마나 잘 복원했는가"를 점수화하는데, 정상 패턴은 MSE가 낮고 이상 패턴은 높습니다.

95 백분위수를 임계값으로 사용하면, 상위 5%로 복원이 어려웠던 구간을 이상으로 판정합니다. 여러분이 이 코드를 사용하면 육안으로는 발견하기 어려운 미묘한 패턴 변화를 자동으로 감지할 수 있습니다.

특히 고장이 일어나기 전에 나타나는 전조 증상을 조기에 포착해서, 예방 조치를 취할 수 있습니다. 또한 한 번 학습된 모델은 실시간으로 들어오는 데이터를 즉시 평가할 수 있어서, 24시간 무중단 모니터링이 가능합니다.

실전 팁

💡 timesteps(시퀀스 길이)는 데이터의 주기를 고려해서 설정하세요. 일일 패턴이 있다면 24시간치, 주간 패턴이 있다면 7일치 데이터를 하나의 시퀀스로 만듭니다.

💡 데이터를 정규화하세요. MinMaxScaler로 0~1 범위로 스케일링하면 LSTM이 더 안정적으로 학습하고, 여러 센서 값을 함께 사용할 때도 균형이 맞습니다.

💡 LSTM 유닛 수는 데이터 복잡도에 따라 조정하세요. 단순한 패턴은 16~~32개, 복잡한 패턴은 64~~128개를 사용합니다. 너무 많으면 과적합될 수 있습니다.

💡 임계값 설정이 중요합니다. 백분위수 방식(95, 99) 외에도, 학습 데이터의 MSE 분포를 분석해서 "평균 + 3×표준편차" 같은 방식도 효과적입니다.

💡 다변량 시계열(여러 센서 동시 모니터링)에서는 features 차원을 늘려서 모든 센서를 함께 학습하면, 센서 간 상호작용까지 고려할 수 있습니다.

4. 슬라이딩 윈도우 통계 - 실시간 스트리밍 데이터 이상 탐지

시작하며

여러분이 실시간으로 들어오는 API 요청 수를 모니터링한다고 상상해보세요. 매초 새로운 데이터가 들어오는데, 과거 모든 데이터를 저장하고 분석할 수도 없고, 현재 값만 보는 것도 충분하지 않습니다.

최근 5분, 10분의 추세를 보면서 "지금 급격한 변화가 있는가?"를 판단해야 합니다. 이런 문제는 웹 서비스 모니터링, 주식 거래, 실시간 추천 시스템 등에서 매우 흔합니다.

메모리와 처리 시간은 제한적이지만, 빠르게 변하는 패턴을 놓치지 않아야 합니다. DDoS 공격처럼 갑자기 트래픽이 폭증하는 상황을 1~2초 안에 감지해야 대응할 수 있습니다.

바로 이럴 때 필요한 것이 슬라이딩 윈도우 통계입니다. 최근 일정 시간의 데이터만 유지하면서, 효율적으로 통계를 계산하고 이상을 탐지할 수 있습니다.

개요

간단히 말해서, 이 개념은 최근 N개의 데이터만 메모리에 유지하면서, 새 데이터가 들어올 때마다 오래된 데이터를 버리고 통계를 업데이트하는 방법입니다. 왜 이 방법이 필요할까요?

예를 들어, 웹사이트의 초당 요청 수가 평소 100~200인데 갑자기 10,000이 된다면 DDoS 공격일 가능성이 높습니다. 하지만 시작 시점부터의 전체 평균을 보면 이런 급격한 변화가 희석되어 보입니다.

최근 300초(5분) 데이터만 보면 변화를 즉시 감지할 수 있습니다. 이는 클라우드 비용 폭탄, 시스템 다운 같은 재앙을 예방하는 데 중요합니다.

전통적인 방법에서는 모든 데이터를 저장하고 분석했다면, 슬라이딩 윈도우는 필요한 최소한의 데이터만 유지하면서도 최신 추세를 정확히 파악합니다. 메모리 효율적이고 빠릅니다.

슬라이딩 윈도우의 핵심 특징은 첫째, 메모리 사용량이 고정되어 있고(O(N)), 둘째, 각 업데이트가 O(1) 시간에 처리되며, 셋째, 최신 패턴 변화에 즉시 반응합니다. 이러한 특징들이 실시간 시스템에 필수적입니다.

코드 예제

from collections import deque
import numpy as np
import time

class SlidingWindowDetector:
    def __init__(self, window_size=300, threshold=3):
        self.window = deque(maxlen=window_size)  # 최대 300개 유지
        self.threshold = threshold

    def add_and_check(self, value):
        self.window.append(value)

        # 윈도우가 충분히 차면 이상 탐지 시작
        if len(self.window) < 30:  # 최소 30개 필요
            return False, 0

        # 현재 윈도우의 통계 계산
        mean = np.mean(self.window)
        std = np.std(self.window)

        # Z-Score 계산
        z_score = (value - mean) / std if std > 0 else 0
        is_anomaly = abs(z_score) > self.threshold

        return is_anomaly, z_score

# 사용 예시
detector = SlidingWindowDetector(window_size=100, threshold=3)

# 실시간 데이터 스트림 시뮬레이션
for i in range(150):
    # 정상 데이터 (평균 100, 표준편차 10)
    value = np.random.normal(100, 10)

    # 120번째에 이상값 주입
    if i == 120:
        value = 200  # 급격한 증가

    is_anomaly, z_score = detector.add_and_check(value)

    if is_anomaly:
        print(f"[경고] 시점 {i}: 값={value:.2f}, Z-Score={z_score:.2f}")

설명

이것이 하는 일: 위 코드는 실시간으로 들어오는 데이터 스트림에서, 메모리 효율적으로 이상값을 즉시 탐지하는 시스템을 구현합니다. 첫 번째로, deque(double-ended queue)를 사용해서 슬라이딩 윈도우를 구현합니다.

maxlen=window_size로 설정하면, 새 데이터가 추가될 때 자동으로 가장 오래된 데이터를 제거합니다. 이렇게 하면 윈도우 크기를 일정하게 유지하면서도, 수동으로 삭제 작업을 할 필요가 없습니다.

deque는 양쪽 끝에서의 추가/삭제가 O(1)로 매우 빠릅니다. 그 다음으로, add_and_check 메서드가 새 데이터를 받을 때마다 호출됩니다.

먼저 윈도우에 데이터를 추가하고, 윈도우가 최소 크기(30개) 이상인지 확인합니다. 너무 적은 데이터로는 신뢰할 수 있는 통계를 계산할 수 없기 때문입니다.

충분한 데이터가 쌓이면, 현재 윈도우 안의 모든 데이터로 평균과 표준편차를 계산합니다. 내부에서 어떤 일이 일어나냐면, 매번 새 데이터가 들어올 때마다 윈도우 전체를 다시 계산하는 것처럼 보이지만, numpy의 최적화된 연산 덕분에 매우 빠릅니다.

예를 들어 윈도우 크기가 100이어도 평균/표준편차 계산이 1ms 이하로 완료됩니다. 윈도우가 시간에 따라 이동하면서, 최근 추세를 항상 정확히 반영합니다.

마지막으로, 새로 들어온 값의 Z-Score를 계산해서 임계값(3)과 비교합니다. 예시 코드에서 120번째 시점에 값 200이 들어오면, 그 직전까지의 윈도우(평균 약 100, 표준편차 약 10)를 기준으로 Z-Score가 약 10이 나옵니다.

이는 임계값 3을 크게 초과하므로 즉시 이상으로 판정되고 경고가 출력됩니다. 여러분이 이 코드를 사용하면 무한히 들어오는 데이터 스트림을 처리하면서도, 메모리 사용량을 일정하게 유지할 수 있습니다.

또한 최신 패턴 변화에 민감하게 반응하므로, 시스템 상태가 변할 때 빠르게 감지할 수 있습니다. 서버 모니터링, 주식 거래 알고리즘, IoT 센서 데이터 분석 등 다양한 실시간 시스템에 적용 가능합니다.

실전 팁

💡 윈도우 크기는 데이터의 주기성을 고려하세요. 일일 패턴이 있다면 하루치, 주간 패턴이 있다면 일주일치를 윈도우로 설정하면 계절성을 고려할 수 있습니다.

💡 더 효율적인 통계 계산을 위해 Welford's algorithm을 사용하면, 전체 재계산 없이 평균과 분산을 업데이트할 수 있습니다(O(1) 시간).

💡 여러 레벨의 윈도우를 동시에 운영하세요. 1분, 5분, 1시간 윈도우를 각각 유지하면, 단기/중기/장기 이상을 모두 감지할 수 있습니다.

💡 임계값을 동적으로 조정하세요. 업무 시간에는 threshold=2.5로 민감하게, 야간에는 3.5로 여유롭게 설정하면 false positive를 줄일 수 있습니다.

💡 Redis나 InfluxDB 같은 시계열 데이터베이스를 사용하면, 여러 서버에서 공유하는 분산 슬라이딩 윈도우를 구현할 수 있습니다.

5. One-Class SVM - 정상 데이터만으로 경계 학습

시작하며

여러분이 새로운 종류의 사이버 공격을 탐지하려고 할 때를 생각해보세요. 정상적인 네트워크 트래픽 데이터는 수백만 건 있지만, 공격 데이터는 거의 없거나 아직 발견되지 않은 유형일 수 있습니다.

전통적인 분류 모델은 "정상"과 "비정상" 둘 다의 예시가 필요한데, 비정상 예시가 없으면 어떻게 학습할까요? 이런 문제는 보안, 품질 검사, 희귀 질병 진단 등에서 매우 흔합니다.

정상 케이스는 풍부하지만, 이상 케이스는 극히 드물거나 아직 발견되지 않았을 수 있습니다. 또한 이상의 종류가 매우 다양해서, 몇 가지 예시만으로는 모든 경우를 커버할 수 없습니다.

바로 이럴 때 필요한 것이 One-Class SVM입니다. 정상 데이터만으로 "정상의 영역"을 학습해서, 그 영역을 벗어난 모든 것을 이상으로 판단할 수 있습니다.

개요

간단히 말해서, 이 개념은 정상 데이터를 감싸는 최소한의 경계를 찾아내서, 그 경계 밖에 있는 데이터를 이상으로 판정하는 머신러닝 알고리즘입니다. 왜 이 방법이 필요할까요?

예를 들어, 제조 공정에서 양품의 치수, 무게, 색상 데이터는 수십만 건 있지만, 불량품은 0.1%도 안 될 수 있습니다. 게다가 불량의 종류도 다양합니다(너무 큼, 너무 작음, 색이 다름 등).

One-Class SVM은 양품 데이터만으로 "이게 정상적인 범위"라는 경계를 학습해서, 본 적 없는 새로운 유형의 불량도 탐지할 수 있습니다. 전통적인 방법에서는 정상과 이상의 예시를 모두 모아서 분류기를 학습했다면, One-Class SVM은 정상만 보고도 "정상이 아닌 것"을 알아냅니다.

이는 제로데이(zero-day) 공격처럼 완전히 새로운 위협을 탐지하는 데 효과적입니다. One-Class SVM의 핵심 특징은 첫째, 정상 데이터만 있으면 학습 가능하고, 둘째, 커널 트릭을 사용해 복잡한 경계를 표현할 수 있으며, 셋째, 고차원 데이터에서도 잘 작동합니다.

이러한 특징들이 실제 보안과 품질 관리 시스템에서 매우 가치 있습니다.

코드 예제

from sklearn.svm import OneClassSVM
import numpy as np
from sklearn.preprocessing import StandardScaler

# 정상 네트워크 트래픽 데이터 [패킷크기, 연결시간, 요청빈도]
normal_traffic = np.array([
    [64, 0.5, 10], [72, 0.6, 12], [68, 0.55, 11],
    [70, 0.52, 10], [66, 0.58, 13], [71, 0.54, 11],
    [69, 0.56, 12], [67, 0.53, 10], [73, 0.59, 12]
])

# 데이터 정규화
scaler = StandardScaler()
normal_scaled = scaler.fit_transform(normal_traffic)

# One-Class SVM 모델 학습 (nu: 이상값 비율 추정)
model = OneClassSVM(kernel='rbf', gamma='auto', nu=0.1)
model.fit(normal_scaled)

# 테스트 데이터 (정상 + 의심스러운 패턴)
test_data = np.array([
    [70, 0.55, 11],    # 정상
    [500, 10, 1000],   # DDoS 공격 - 비정상적인 패킷
    [65, 0.52, 10]     # 정상
])
test_scaled = scaler.transform(test_data)

# 예측 (-1: 이상, 1: 정상)
predictions = model.predict(test_scaled)

for i, pred in enumerate(predictions):
    status = "이상" if pred == -1 else "정상"
    print(f"트래픽 {i+1}: {test_data[i]} -> {status}")

설명

이것이 하는 일: 위 코드는 정상 네트워크 트래픽 패턴만 학습한 후, 본 적 없는 DDoS 공격 같은 이상 트래픽을 자동으로 감지합니다. 첫 번째로, 정상 트래픽 데이터를 StandardScaler로 정규화합니다.

패킷 크기(64~~73), 연결 시간(0.5~~0.6초), 요청 빈도(10~13)는 단위와 범위가 다르므로, 평균 0, 표준편차 1로 맞춰줍니다. 이렇게 하면 SVM이 모든 변수를 공평하게 고려할 수 있습니다.

그 다음으로, One-Class SVM 모델을 생성합니다. kernel='rbf'는 방사형 기저 함수를 사용한다는 뜻으로, 직선이 아닌 곡선으로 경계를 그릴 수 있게 합니다.

nu=0.1은 "전체 데이터의 약 10%가 경계 밖에 있을 것"이라고 알려주는 파라미터입니다. 모델은 정상 데이터만 받아서, 이 데이터들을 감싸는 최적의 경계를 찾습니다.

내부에서 어떤 일이 일어나냐면, SVM은 고차원 공간에서 정상 데이터를 원점 주변에 모으려고 시도합니다. RBF 커널을 통해 데이터를 더 높은 차원으로 투영하면, 복잡한 모양의 정상 영역도 표현할 수 있습니다.

예를 들어 2차원에서는 타원 모양으로, 3차원에서는 구 모양으로 정상 영역이 그려집니다. 학습이 완료되면, 이 경계가 "정상의 기준"이 됩니다.

마지막으로, 테스트 데이터를 같은 방식으로 정규화한 후 모델에 넣어 예측합니다. 첫 번째 데이터 [70, 0.55, 11]은 학습 데이터와 매우 유사하므로 경계 안에 있어 정상(1)으로 판정됩니다.

하지만 두 번째 데이터 [500, 10, 1000]은 모든 값이 정상 범위를 훨씬 벗어나므로 경계 밖에 위치해 이상(-1)으로 판정됩니다. 모델은 이런 패턴을 본 적이 없지만, "정상 영역 밖"이라는 이유로 정확히 감지합니다.

여러분이 이 코드를 사용하면 레이블링된 이상 데이터 없이도 강력한 이상 탐지 시스템을 구축할 수 있습니다. 특히 이상의 종류가 계속 진화하는 환경(사이버 보안, 사기 탐지)에서, 과거에 본 적 없는 새로운 공격도 탐지할 수 있습니다.

또한 정상 데이터만 필요하므로, 데이터 수집과 라벨링 비용을 크게 절감할 수 있습니다.

실전 팁

💡 nu 파라미터를 신중하게 설정하세요. 너무 작으면(0.01) 거의 모든 것을 정상으로 판단하고, 너무 크면(0.3) false positive가 많아집니다. 0.05~0.15가 일반적으로 적절합니다.

💡 커널 선택이 중요합니다. 데이터가 선형 분리 가능하면 'linear', 복잡한 패턴이면 'rbf'를 사용하세요. rbf의 경우 gamma 값으로 경계의 유연성을 조절할 수 있습니다.

💡 반드시 정상 데이터만으로 학습하세요. 만약 학습 데이터에 이상값이 섞여 있으면, 모델이 잘못된 경계를 학습합니다. 사전에 명백한 이상값은 제거하세요.

💡 decision_function()을 사용하면 경계로부터의 거리를 얻을 수 있어서, 이상의 심각도를 측정할 수 있습니다. 거리가 멀수록 더 심각한 이상입니다.

💡 주기적으로 재학습하세요. 정상 패턴이 시간에 따라 변하면(서비스 확장, 사용자 행동 변화), 모델도 업데이트해야 합니다. 최근 1개월 정상 데이터로 매주 재학습하는 것을 권장합니다.

6. 앙상블 이상 탐지 - 여러 방법을 결합하여 정확도 향상

시작하며

여러분이 신용카드 사기 탐지 시스템을 구축한다고 상상해보세요. Z-Score 방법은 거래 금액이 비정상적으로 큰 경우를 잘 잡지만, 자주 사용되지 않는 국가에서의 결제는 놓칠 수 있습니다.

Isolation Forest는 이상한 지역 패턴은 잘 잡지만, 금액 이상은 덜 민감할 수 있습니다. 하나의 방법만 쓰면 어떤 유형의 사기는 빠져나갑니다.

이런 문제는 복잡한 실제 환경에서 항상 발생합니다. 이상의 종류가 다양하고, 각 탐지 방법은 특정 유형에 강점이 있기 때문입니다.

하나의 완벽한 방법은 존재하지 않습니다. 또한 단일 방법은 false positive(정상을 이상으로 오판)가 많을 수 있습니다.

바로 이럴 때 필요한 것이 앙상블 이상 탐지입니다. 여러 가지 탐지 방법을 동시에 사용하고, 그 결과를 종합해서 최종 판단을 내리면, 각 방법의 장점은 살리고 단점은 보완할 수 있습니다.

개요

간단히 말해서, 이 개념은 여러 개의 이상 탐지 알고리즘을 독립적으로 실행한 후, 투표나 평균 같은 방식으로 결과를 결합하여 최종 판단을 내리는 방법입니다. 왜 이 방법이 필요할까요?

예를 들어, 웹 애플리케이션 공격 탐지에서 통계 방법은 요청 빈도 이상을 잡고, Isolation Forest는 비정상적인 URL 패턴을 잡고, LSTM은 시간적 패턴 이상을 잡을 수 있습니다. 이 세 가지 중 두 개 이상이 "이상"이라고 하면, 정말 문제가 있을 가능성이 매우 높습니다.

이렇게 하면 false positive를 크게 줄이면서도 다양한 유형의 공격을 모두 감지할 수 있습니다. 전통적인 방법에서는 하나의 알고리즘을 선택하고 파라미터를 튜닝했다면, 앙상블 방법은 여러 알고리즘의 강점을 모두 활용합니다.

의사결정도 더 안정적이고 신뢰할 수 있습니다. 앙상블 이상 탐지의 핵심 특징은 첫째, 다양한 유형의 이상을 포괄적으로 탐지하고, 둘째, 개별 모델의 오류를 상쇄시켜 정확도가 높으며, 셋째, 모델 하나가 실패해도 시스템은 계속 작동합니다.

이러한 특징들이 미션 크리티컬한 시스템에서 필수적입니다.

코드 예제

from sklearn.ensemble import IsolationForest
from sklearn.svm import OneClassSVM
from sklearn.preprocessing import StandardScaler
import numpy as np

# 거래 데이터 [금액(만원), 거래시간(시), 해외여부(0/1)]
transactions = np.array([
    [5, 14, 0], [8, 15, 0], [6, 13, 0],   # 정상
    [7, 16, 0], [9, 14, 0], [5, 15, 0],
    [500, 3, 1],  # 사기: 고액 + 새벽 + 해외
    [10, 14, 0]   # 정상
])

# 데이터 정규화
scaler = StandardScaler()
X_scaled = scaler.fit_transform(transactions)

# 여러 모델 생성 및 학습
models = {
    'isolation_forest': IsolationForest(contamination=0.15, random_state=42),
    'one_class_svm': OneClassSVM(nu=0.15, kernel='rbf', gamma='auto')
}

# 각 모델의 예측 수집
predictions = {}
for name, model in models.items():
    pred = model.fit_predict(X_scaled)
    predictions[name] = pred

# 앙상블 투표: 과반수가 이상(-1)이면 최종 이상 판정
ensemble_pred = []
for i in range(len(transactions)):
    votes = [predictions[name][i] for name in predictions]
    # -1이 더 많으면 이상, 아니면 정상
    final = -1 if votes.count(-1) > len(votes) / 2 else 1
    ensemble_pred.append(final)

# 결과 출력
for i, pred in enumerate(ensemble_pred):
    status = "이상" if pred == -1 else "정상"
    print(f"거래 {i+1}: {transactions[i]} -> {status}")

설명

이것이 하는 일: 위 코드는 Isolation Forest와 One-Class SVM 두 가지 알고리즘을 동시에 사용해서, 각각의 판단을 종합하여 더 정확한 사기 거래 탐지를 수행합니다. 첫 번째로, 거래 데이터를 표준화합니다.

금액(만원 단위), 시간(0~23시), 해외 여부(0 또는 1)는 스케일이 다르므로 정규화가 필요합니다. 그 다음 두 가지 모델을 생성하는데, Isolation Forest는 고립 용이성 기반으로, One-Class SVM은 경계 기반으로 이상을 탐지합니다.

이 두 방법은 원리가 완전히 다르므로, 서로 다른 유형의 이상에 민감합니다. 그 다음으로, 각 모델을 독립적으로 학습시키고 예측을 수행합니다.

fit_predict()가 호출되면 각 모델은 자신만의 방식으로 데이터를 분석합니다. Isolation Forest는 "이 거래가 얼마나 쉽게 고립되는가"를, One-Class SVM은 "이 거래가 정상 영역 안에 있는가"를 평가합니다.

각 모델의 예측 결과를 딕셔너리에 저장합니다. 내부에서 어떤 일이 일어나냐면, 7번째 거래 [500, 3, 1](고액, 새벽, 해외)의 경우를 보면, Isolation Forest는 금액이 다른 거래들과 너무 달라서 이상(-1)으로 판정하고, One-Class SVM도 3차원 공간에서 정상 영역을 크게 벗어나므로 이상(-1)으로 판정합니다.

반면 8번째 거래 [10, 14, 0]은 두 모델 모두 정상(1)으로 판정합니다. 마지막으로, 앙상블 투표가 진행됩니다.

각 거래에 대해 모든 모델의 투표를 수집하고, 과반수 이상이 이상(-1)이라고 하면 최종적으로 이상으로 판정합니다. 이 경우 두 모델이 모두 동의해야 이상으로 판정되므로, 매우 확실한 경우만 걸러집니다.

만약 세 개 이상의 모델을 사용한다면, "3개 중 2개 이상" 같은 유연한 기준을 적용할 수 있습니다. 여러분이 이 코드를 사용하면 단일 모델의 실수를 보완할 수 있습니다.

예를 들어 Isolation Forest가 정상을 이상으로 오판해도, 다른 모델들이 정상이라고 하면 최종 판단은 정상이 됩니다. 또한 각 모델이 다른 관점에서 데이터를 보므로, 더 많은 종류의 이상을 감지할 수 있습니다.

실무에서는 3~5개의 다양한 모델을 조합하면 매우 강력한 시스템을 만들 수 있습니다.

실전 팁

💡 모델을 다양하게 구성하세요. 통계 기반(Z-Score), 트리 기반(Isolation Forest), 거리 기반(One-Class SVM), 딥러닝(LSTM) 등 원리가 다른 모델을 조합하면 효과가 극대화됩니다.

💡 가중 투표를 사용하세요. 성능이 더 좋은 모델에 더 큰 가중치를 주면(예: IF 0.4, SVM 0.3, Z-Score 0.3) 정확도가 향상됩니다. 검증 데이터로 각 모델의 성능을 평가해서 가중치를 결정하세요.

💡 soft voting을 고려하세요. -1/1 이진 판단 대신, 각 모델의 이상 점수(decision_function)를 평균내면 더 세밀한 판단이 가능합니다.

💡 계산 비용을 고려하세요. 실시간 시스템에서는 빠른 모델(Z-Score, Isolation Forest)을 먼저 실행하고, 의심스러운 경우만 느린 모델(LSTM, Deep SVM)을 추가로 실행하는 단계적 접근을 사용하세요.

💡 모델 간 상관관계를 확인하세요. 만약 두 모델이 항상 똑같은 결과를 낸다면, 하나는 중복입니다. 다양성이 앙상블의 핵심이므로, 서로 다른 판단을 하는 모델들을 조합하세요.

7. 시각화 기반 탐지 - 사람의 직관과 자동화의 결합

시작하며

여러분이 자동화된 이상 탐지 시스템을 운영하면서 매일 수십 개의 알림을 받는다고 상상해보세요. 알고리즘이 "이상"이라고 표시하지만, 실제로 확인해보면 대부분 false positive입니다.

반대로 중요한 이상은 놓치고 있을 수도 있습니다. 어떻게 하면 알고리즘의 판단을 신뢰하고, 개선할 수 있을까요?

이런 문제는 실제 운영 환경에서 매우 흔합니다. 완전 자동화는 편리하지만, 컨텍스트를 이해하지 못하고 오판할 수 있습니다.

반대로 사람이 모든 데이터를 일일이 확인하는 것은 불가능합니다. 특히 고차원 데이터는 숫자만 봐서는 패턴을 파악하기 어렵습니다.

바로 이럴 때 필요한 것이 시각화 기반 탐지입니다. 자동화된 알고리즘으로 후보를 추려내고, 시각화를 통해 사람이 빠르게 검토하고 판단할 수 있습니다.

또한 시각화는 시스템의 성능을 모니터링하고 개선하는 데도 필수적입니다.

개요

간단히 말해서, 이 개념은 이상 탐지 알고리즘의 결과를 그래프, 차트, 히트맵 등으로 시각화해서, 사람이 직관적으로 패턴을 파악하고 검증할 수 있도록 하는 방법입니다. 왜 이 방법이 필요할까요?

예를 들어, 서버 CPU 사용률의 시계열 그래프에서 이상 구간을 빨간색으로 표시하면, 운영자가 한눈에 "언제, 얼마나 심각했는가"를 파악할 수 있습니다. 숫자 로그만 보는 것보다 훨씬 빠르고 정확합니다.

또한 여러 지표를 동시에 시각화하면, "CPU는 정상인데 메모리가 이상하네" 같은 복합적인 패턴을 발견할 수 있습니다. 전통적인 방법에서는 알림 메시지나 로그 파일로만 결과를 확인했다면, 시각화는 패턴, 추세, 관계를 직관적으로 보여줍니다.

사람의 패턴 인식 능력과 기계의 계산 능력을 결합할 수 있습니다. 시각화 기반 탐지의 핵심 특징은 첫째, 복잡한 데이터를 직관적으로 이해할 수 있고, 둘째, false positive를 빠르게 식별하고 제거할 수 있으며, 셋째, 시스템 성능을 지속적으로 모니터링하고 개선할 수 있습니다.

이러한 특징들이 운영 효율성을 크게 높입니다.

코드 예제

import matplotlib.pyplot as plt
import numpy as np
from sklearn.ensemble import IsolationForest

# 시계열 데이터 생성 (예: 서버 응답시간)
np.random.seed(42)
time = np.arange(0, 200)
normal_data = 100 + np.sin(time / 10) * 20 + np.random.randn(200) * 5

# 이상값 주입
normal_data[50:55] = 200  # 급격한 증가
normal_data[120] = 300    # 스파이크

# Isolation Forest로 이상 탐지
X = normal_data.reshape(-1, 1)
model = IsolationForest(contamination=0.05, random_state=42)
predictions = model.fit_predict(X)

# 시각화
plt.figure(figsize=(14, 6))
plt.plot(time, normal_data, label='응답시간(ms)', alpha=0.7)

# 이상 구간 강조
anomaly_indices = np.where(predictions == -1)[0]
plt.scatter(time[anomaly_indices], normal_data[anomaly_indices],
            color='red', s=100, label='이상 탐지', zorder=5)

plt.axhline(y=np.mean(normal_data), color='green',
            linestyle='--', label=f'평균: {np.mean(normal_data):.1f}ms')
plt.xlabel('시간(초)')
plt.ylabel('응답시간(ms)')
plt.title('서버 응답시간 이상 탐지 시각화')
plt.legend()
plt.grid(True, alpha=0.3)
plt.savefig('anomaly_detection_viz.png', dpi=150)
print("시각화 저장 완료: anomaly_detection_viz.png")

설명

이것이 하는 일: 위 코드는 시계열 데이터에서 이상을 자동으로 탐지한 후, 결과를 시각적으로 표현해서 운영자가 한눈에 상황을 파악할 수 있게 합니다. 첫 번째로, 200초 동안의 서버 응답시간 데이터를 생성합니다.

정상 데이터는 평균 100ms 주변에서 사인파 패턴(주기적 변동)을 보이며, 약간의 노이즈가 섞여 있습니다. 그리고 의도적으로 50~54초 구간에 응답시간 200ms(과부하 상황)와 120초에 300ms(일시적 스파이크)를 주입해서, 실제 장애 상황을 시뮬레이션합니다.

그 다음으로, Isolation Forest가 이 데이터를 분석해서 각 시점이 정상인지 이상인지 판정합니다. contamination=0.05는 약 5%(10개 정도)의 이상값을 예상한다는 의미입니다.

모델은 주기적으로 변동하는 패턴은 정상으로 학습하고, 갑자기 튀는 값들은 이상으로 표시합니다. 내부에서 어떤 일이 일어나냐면, matplotlib이 시간에 따른 응답시간을 선 그래프로 그립니다.

파란 선이 전체 데이터의 흐름을 보여주고, 초록 점선이 평균값을 나타냅니다. 여기서 핵심은 predictions == -1인 지점들(이상으로 판정된 곳)을 빨간색 점으로 강조 표시하는 부분입니다.

zorder=5를 설정해서 빨간 점이 다른 요소들 위에 그려지도록 합니다. 마지막으로, 완성된 그래프를 PNG 파일로 저장합니다.

이 그래프를 보면 운영자는 즉시 다음을 파악할 수 있습니다: (1) 50초 근처에 5초간 지속된 성능 저하, (2) 120초에 순간적인 스파이크, (3) 나머지 구간은 안정적인 패턴. 숫자 로그만 봤다면 몇 분이 걸렸을 분석이 몇 초 만에 완료됩니다.

여러분이 이 코드를 사용하면 팀원들과 효과적으로 소통할 수 있습니다. "120초에 이상 발생"이라고 말하는 것보다, 그래프를 공유하는 것이 훨씬 명확합니다.

또한 시각화를 통해 알고리즘의 판단이 합리적인지 검증할 수 있습니다. 만약 정상적인 피크를 이상으로 잘못 표시했다면, 파라미터를 조정하거나 다른 알고리즘을 시도할 수 있습니다.

실전 팁

💡 대시보드를 만드세요. Plotly Dash나 Streamlit으로 실시간 업데이트되는 웹 대시보드를 구축하면, 여러 지표를 동시에 모니터링할 수 있습니다.

💡 인터랙티브 시각화를 활용하세요. Plotly를 사용하면 마우스를 올렸을 때 정확한 값이 표시되고, 줌/팬이 가능해서 상세 분석이 쉽습니다.

💡 히트맵으로 다차원 데이터를 표현하세요. 여러 서버, 여러 지표를 동시에 보려면 seaborn의 히트맵이 효과적입니다. 색깔로 이상의 심각도를 표현할 수 있습니다.

💡 비교 시각화를 만드세요. "이번 주 vs 지난 주", "현재 서버 vs 평균" 같은 비교 그래프는 이상을 더 명확히 드러냅니다.

💡 자동 리포트를 생성하세요. 매일 또는 매주 주요 이상 탐지 결과를 PDF 리포트로 만들어서 이메일로 발송하면, 관련자들이 쉽게 파악할 수 있습니다.

8. 임계값 동적 조정 - 상황에 맞는 탐지 민감도 자동 조절

시작하며

여러분이 전자상거래 사이트의 트래픽을 모니터링한다고 생각해보세요. 평일 오후에는 초당 100명이 접속하는데, 금요일 저녁 세일 시간에는 1000명이 접속합니다.

만약 임계값을 고정해두면, 평일 기준으로 설정하면 세일 기간을 이상으로 오판하고, 세일 기준으로 설정하면 평일의 작은 이상을 놓칩니다. 이런 문제는 트래픽, 판매량, 서버 부하 등 시간대, 요일, 계절에 따라 변하는 모든 데이터에서 발생합니다.

고정된 임계값은 상황의 변화를 고려하지 못해서, false positive(정상을 이상으로 오판)나 false negative(이상을 정상으로 놓침)가 많아집니다. 비즈니스 환경은 계속 변하는데 탐지 시스템은 그대로라면 점점 쓸모없어집니다.

바로 이럴 때 필요한 것이 동적 임계값 조정입니다. 시간, 요일, 계절, 또는 최근 데이터 추세에 따라 자동으로 임계값을 조정해서, 상황에 맞는 정확한 탐지를 할 수 있습니다.

개요

간단히 말해서, 이 개념은 과거 데이터 패턴을 분석해서 현재 상황에 맞는 임계값을 자동으로 계산하고, 이를 기준으로 이상을 판단하는 방법입니다. 왜 이 방법이 필요할까요?

예를 들어, 매주 월요일 오전 9시에는 주간 리포트 생성으로 DB 쿼리가 급증하는데, 이건 정상적인 패턴입니다. 하지만 화요일 새벽 3시에 같은 수준의 쿼리가 발생하면 이상입니다.

동적 임계값은 "이 시간대의 정상 범위"를 학습해서, 같은 값이라도 맥락에 따라 다르게 판단합니다. 이는 계절성 비즈니스(명절 쇼핑몰, 세금 신고 시즌 등)에서 특히 중요합니다.

전통적인 방법에서는 "CPU 80% 이상이면 알림" 같은 고정 임계값을 사용했다면, 동적 방법은 "평소 이 시간대 평균 대비 50% 증가하면 알림" 같은 상대적 기준을 사용합니다. 훨씬 똑똑하고 적응적입니다.

동적 임계값의 핵심 특징은 첫째, 시간에 따른 패턴 변화를 자동으로 학습하고, 둘째, false positive를 크게 줄이며, 셋째, 시스템 확장이나 비즈니스 성장에 자동으로 적응합니다. 이러한 특징들이 장기 운영되는 시스템에서 매우 중요합니다.

코드 예제

import numpy as np
import pandas as pd
from datetime import datetime, timedelta

class DynamicThresholdDetector:
    def __init__(self, window_size=7*24):  # 7일 * 24시간
        self.history = {}  # 시간대별 과거 데이터

    def get_hour_key(self, timestamp):
        """요일_시간 키 생성 (예: 'Mon_09')"""
        return f"{timestamp.strftime('%a')}_{timestamp.hour:02d}"

    def add_data(self, timestamp, value):
        """데이터 추가"""
        key = self.get_hour_key(timestamp)
        if key not in self.history:
            self.history[key] = []
        self.history[key].append(value)
        # 최근 4주치만 유지 (28개 데이터)
        self.history[key] = self.history[key][-28:]

    def check_anomaly(self, timestamp, value, sigma=3):
        """동적 임계값으로 이상 탐지"""
        key = self.get_hour_key(timestamp)

        if key not in self.history or len(self.history[key]) < 3:
            return False, 0  # 데이터 부족

        # 같은 시간대의 과거 데이터로 통계 계산
        historical = np.array(self.history[key])
        mean = np.mean(historical)
        std = np.std(historical)

        # 동적 임계값 계산
        upper_threshold = mean + sigma * std
        lower_threshold = mean - sigma * std

        # 이상 판정
        is_anomaly = value > upper_threshold or value < lower_threshold
        z_score = (value - mean) / std if std > 0 else 0

        return is_anomaly, z_score

# 사용 예시
detector = DynamicThresholdDetector()

# 4주간의 과거 데이터 학습 (평일 오전 9시 = 100명)
start_date = datetime(2024, 1, 1, 9, 0)
for week in range(4):
    for day in range(7):
        ts = start_date + timedelta(weeks=week, days=day)
        value = 100 + np.random.randn() * 10  # 평균 100
        detector.add_data(ts, value)

# 새로운 데이터 테스트
test_time = datetime(2024, 1, 29, 9, 0)  # 월요일 오전 9시
test_value = 200  # 평소의 2배

is_anomaly, z_score = detector.check_anomaly(test_time, test_value)
print(f"시간: {test_time}, 값: {test_value}")
print(f"결과: {'이상' if is_anomaly else '정상'}, Z-Score: {z_score:.2f}")

설명

이것이 하는 일: 위 코드는 요일과 시간대별로 과거 패턴을 학습해서, "지금 이 시간대에 이 값이 정상인가"를 판단하는 스마트한 이상 탐지 시스템을 구현합니다. 첫 번째로, 시간대별 과거 데이터를 저장하는 구조를 만듭니다.

get_hour_key()는 타임스탬프를 "Mon_09"(월요일 오전 9시) 같은 키로 변환합니다. 이렇게 하면 모든 월요일 오전 9시의 데이터가 함께 그룹화됩니다.

총 7일 × 24시간 = 168개의 서로 다른 시간대가 있고, 각각 독립적으로 통계를 유지합니다. 그 다음으로, add_data()가 새 데이터를 받을 때마다 해당 시간대의 히스토리에 추가합니다.

하지만 무한정 쌓지 않고 최근 28개(4주치)만 유지합니다. 이렇게 하면 오래된 패턴은 잊어버리고 최근 추세에 적응합니다.

예를 들어 시스템을 확장해서 트래픽이 전반적으로 증가했다면, 오래된 낮은 값들은 자동으로 제거됩니다. 내부에서 어떤 일이 일어나냐면, check_anomaly()가 호출되면 현재 시간대의 과거 데이터만 가져와서 평균과 표준편차를 계산합니다.

예를 들어 월요일 오전 9시라면, 지난 4주간의 월요일 오전 9시 데이터만 봅니다. 이 데이터들의 평균이 100, 표준편차가 10이라면, 임계값은 평균 ± 3×표준편차 = 70~130이 됩니다.

화요일 오전 9시는 다른 통계를 가질 수 있습니다. 마지막으로, 현재 값이 동적으로 계산된 임계값을 벗어나는지 확인합니다.

테스트에서 월요일 오전 9시에 값 200이 들어오면, Z-Score가 약 10이 나와서 명백한 이상으로 판정됩니다. 하지만 만약 월요일 오전 9시가 원래 트래픽이 높은 시간대였다면(평균 180, 표준편차 20), 같은 값 200이 Z-Score 1로 정상 판정될 수 있습니다.

여러분이 이 코드를 사용하면 계절성, 요일 패턴, 시간대 패턴을 모두 자동으로 고려하는 똑똑한 모니터링 시스템을 만들 수 있습니다. 파라미터를 수동으로 조정할 필요 없이, 시스템이 스스로 학습하고 적응합니다.

또한 비즈니스가 성장하거나 축소될 때도, 자동으로 새로운 정상 범위를 학습합니다.

실전 팁

💡 여러 단위의 패턴을 결합하세요. 시간대별 + 요일별 + 월별 패턴을 계층적으로 사용하면, "12월 마지막 주 월요일 오전 9시" 같은 세밀한 컨텍스트를 고려할 수 있습니다.

💡 이상치 제거 학습을 하세요. 과거 데이터를 저장할 때 명백한 이상값은 제외하고 저장하면, 정상 패턴만으로 더 정확한 임계값을 계산할 수 있습니다.

💡 sigma 값을 상황에 따라 조정하세요. 중요한 지표는 sigma=2로 민감하게, 노이즈가 많은 지표는 sigma=4로 여유롭게 설정합니다.

💡 최소 데이터 요구량을 설정하세요. 새로운 시간대는 데이터가 적어서 신뢰할 수 없으므로, 최소 10~20개 데이터가 쌓일 때까지는 고정 임계값을 사용하세요.

💡 급격한 변화를 감지하세요. 임계값 자체가 급격히 변하면(예: 2주 만에 평균이 2배 증가) 시스템 구조 변화의 신호일 수 있으니, 별도로 알림을 보내세요.

#Python#AnomalyDetection#MachineLearning#IsolationForest#Statistics#AI

이상 탐지 시스템 구축 완벽 가이드

# 이상 탐지 시스템 구축 완벽 가이드 머신러닝과 통계 기법을 활용하여 실시간으로 이상 패턴을 감지하는 시스템을 구축하는 방법을 배워보세요. 실무에서 바로 활용할 수 있는 다양한 이상 탐지 알고리즘과 구현 방법을 친절하게 안내합니다. --- ## 목차 1. [통계 기반 이상 탐지 - Z-Score 방법으로 이상값 찾기](#통계-기반-이상-탐지---z-score-방법으로-이상값-찾기) 2. [Isolation Forest - 고차원 데이터의 이상 탐지](#isolation-forest---고차원-데이터의-이상-탐지) 3. [LSTM 오토인코더 - 시계열 데이터의 이상 패턴 탐지](#lstm-오토인코더---시계열-데이터의-이상-패턴-탐지) 4. [슬라이딩 윈도우 통계 - 실시간 스트리밍 데이터 이상 탐지](#슬라이딩-윈도우-통계---실시간-스트리밍-데이터-이상-탐지) 5. [One-Class SVM - 정상 데이터만으로 경계 학습](#one-class-svm---정상-데이터만으로-경계-학습) 6. [앙상블 이상 탐지 - 여러 방법을 결합하여 정확도 향상](#앙상블-이상-탐지---여러-방법을-결합하여-정확도-향상) 7. [시각화 기반 탐지 - 사람의 직관과 자동화의 결합](#시각화-기반-탐지---사람의-직관과-자동화의-결합) 8. [임계값 동적 조정 - 상황에 맞는 탐지 민감도 자동 조절](#임계값-동적-조정---상황에-맞는-탐지-민감도-자동-조절) --- ## 1. 통계 기반 이상 탐지 - Z-Score 방법으로 이상값 찾기 ### 시작하며 여러분이 웹 서비스를 운영하면서 갑자기 서버 응답 시간이 평소보다 10배나 느려진 상황을 겪어본 적 있나요? 혹은 쇼핑몰에서 특정 상품의 주문량이 갑자기 비정상적으로 증가하는 것을 발견한 적은요? 이런 문제는 실제 개발 현장에서 매일 발생합니다. 정상적인 패턴에서 벗어난 데이터를 빨리 발견하지 못하면, 시스템 장애로 이어지거나 보안 사고가 발생할 수 있습니다. 사람이 24시간 모니터링할 수는 없으니까요. 바로 이럴 때 필요한 것이 통계 기반 이상 탐지입니다. 데이터의 평균과 표준편차를 이용해서, 정상 범위를 벗어난 값들을 자동으로 찾아낼 수 있습니다. ### 개요 간단히 말해서, 이 개념은 숫자 데이터들이 평균에서 얼마나 멀리 떨어져 있는지를 계산해서, 너무 멀리 떨어진 값을 이상하다고 판단하는 방법입니다. 실무에서 왜 이 방법이 필요할까요? 예를 들어, 서버의 CPU 사용률이 평소에는 30~50% 사이인데 갑자기 95%가 된다면 문제가 있다는 신호겠죠. 또는 사용자의 로그인 시도가 평소에는 하루에 2~3번인데 갑자기 100번이 된다면 계정 해킹 시도일 수 있습니다. 이런 상황들을 자동으로 감지할 수 있습니다. 전통적인 방법에서는 임계값을 수동으로 설정했습니다. "CPU가 80% 넘으면 알림 보내기" 같은 방식이죠. 하지만 이제는 데이터의 통계적 특성을 자동으로 분석해서, 상황에 맞게 이상값을 판단할 수 있습니다. Z-Score의 핵심 특징은 첫째, 데이터의 평균과 표준편차만 있으면 쉽게 계산할 수 있고, 둘째, 해석이 직관적이며(Z-Score가 3이면 평균에서 표준편차 3배 떨어진 것), 셋째, 정규분포를 따르는 데이터에 특히 효과적입니다. 이러한 특징들이 실시간 모니터링 시스템에서 매우 유용합니다. ### 코드 예제 ```python import numpy as np from scipy import stats # 서버 응답 시간 데이터 (밀리초 단위) response_times = [120, 130, 125, 128, 132, 129, 500, 127, 131, 126] # 평균과 표준편차 계산 mean = np.mean(response_times) std = np.std(response_times) # 각 데이터의 Z-Score 계산 z_scores = [(x - mean) / std for x in response_times] # 이상값 탐지 (Z-Score가 3보다 크면 이상값) threshold = 3 anomalies = [response_times[i] for i, z in enumerate(z_scores) if abs(z) > threshold] print(f"평균: {mean:.2f}ms, 표준편차: {std:.2f}ms") print(f"이상값 발견: {anomalies}") # 출력: [500] ``` ### 설명 이것이 하는 일: 위 코드는 서버 응답 시간 데이터를 분석해서, 비정상적으로 느린 응답을 자동으로 찾아냅니다. 첫 번째로, numpy를 사용해서 데이터의 평균(mean)과 표준편차(std)를 계산합니다. 평균은 "보통 얼마나 걸리는가"를 나타내고, 표준편차는 "얼마나 들쭉날쭉한가"를 나타냅니다. 예를 들어 평균이 128ms이고 표준편차가 10ms라면, 대부분의 응답 시간이 118~138ms 사이에 있다는 뜻입니다. 그 다음으로, 각 데이터 포인트에 대해 Z-Score를 계산합니다. Z-Score는 "(해당 값 - 평균) / 표준편차"로 계산되는데, 이것은 "평균에서 표준편차 몇 배만큼 떨어져 있는가"를 의미합니다. 500ms의 경우 Z-Score가 약 3.2가 나오는데, 이는 평균에서 표준편차의 3.2배나 떨어져 있다는 뜻입니다. 마지막으로, Z-Score의 절댓값이 3보다 큰 값들을 이상값으로 판단합니다. 통계학에서는 정규분포를 따르는 데이터의 99.7%가 평균 ± 표준편차 3배 범위 안에 들어오기 때문에, 이 범위를 벗어나면 매우 드문 경우라고 볼 수 있습니다. 여러분이 이 코드를 사용하면 수천, 수만 개의 데이터 중에서 정말 문제가 있는 몇 개만 골라낼 수 있습니다. 이렇게 하면 불필요한 알림을 줄이고, 진짜 중요한 이상 상황에만 집중할 수 있습니다. 또한 데이터가 계속 쌓이면서 평균과 표준편차가 자동으로 업데이트되므로, 시스템의 변화에 자연스럽게 적응합니다. ### 실전 팁 💡 Z-Score 방법은 데이터가 정규분포를 따를 때 가장 효과적입니다. 만약 데이터가 심하게 치우쳐 있다면 IQR(Inter-Quartile Range) 방법을 함께 사용하세요. 💡 실시간 시스템에서는 이동 평균(Rolling Mean)과 이동 표준편차를 사용하세요. 최근 100개 데이터만으로 통계를 계산하면 시스템 변화에 더 빠르게 반응합니다. 💡 threshold 값은 데이터 특성에 따라 조정하세요. 민감하게 탐지하려면 2~2.5, 확실한 이상만 잡으려면 3~3.5를 사용합니다. 💡 다변량 데이터(여러 지표를 동시에 모니터링)에서는 Mahalanobis Distance를 사용하면 변수 간 상관관계까지 고려할 수 있습니다. 💡 탐지된 이상값은 반드시 로그에 기록하고, 시각화해서 검토하세요. 가끔 시스템 변화(트래픽 증가 등)를 이상값으로 오판할 수 있습니다. --- ## 2. Isolation Forest - 고차원 데이터의 이상 탐지 ### 시작하며 여러분이 전자상거래 시스템에서 사용자 행동 데이터를 분석할 때를 생각해보세요. 로그인 시간, 클릭 횟수, 페이지 체류 시간, 구매 금액, IP 주소 변경 빈도 등 수십 가지 변수를 동시에 봐야 합니다. 이 모든 것을 일일이 확인하면서 이상한 패턴을 찾기란 거의 불가능하죠. 이런 문제는 보안, 금융, IoT 등 다양한 분야에서 발생합니다. 데이터의 차원(변수 개수)이 많아질수록 통계적 방법만으로는 한계가 있습니다. 정상과 이상을 구분하는 명확한 기준을 찾기가 어려워지기 때문입니다. 바로 이럴 때 필요한 것이 Isolation Forest입니다. 이상값은 '고립시키기 쉽다'는 아이디어를 활용해서, 복잡한 고차원 데이터에서도 효과적으로 이상을 탐지할 수 있습니다. ### 개요 간단히 말해서, 이 개념은 데이터를 무작위로 쪼개나가면서 각 데이터 포인트를 고립시키는데, 이상값은 훨씬 빨리 고립된다는 원리를 이용하는 머신러닝 알고리즘입니다. 왜 이 방법이 필요할까요? 예를 들어, 정상 사용자는 하루에 10~20개 상품을 보고 1~2개를 구매하는데, 봇(bot)은 1시간에 1000개를 보고 아무것도 구매하지 않을 수 있습니다. 이런 봇은 정상 사용자 무리에서 매우 동떨어진 위치에 있어서, 쉽게 '고립'시킬 수 있습니다. 신용카드 사기 탐지, 네트워크 침입 탐지, 제조 불량품 감지 같은 경우에 매우 유용합니다. 전통적인 방법에서는 정상 패턴의 경계를 정의하려고 했다면, Isolation Forest는 이상값이 얼마나 쉽게 분리되는지만 측정합니다. 이 접근법이 훨씬 빠르고 효율적입니다. Isolation Forest의 핵심 특징은 첫째, 학습 속도가 매우 빠르고(O(n log n)), 둘째, 고차원 데이터에서도 잘 작동하며, 셋째, 정상 데이터만으로도 학습이 가능합니다(비지도 학습). 이러한 특징들이 실시간 이상 탐지 시스템에 이상적입니다. ### 코드 예제 ```python from sklearn.ensemble import IsolationForest import numpy as np # 사용자 행동 데이터 [클릭수, 체류시간(분), 구매금액(만원)] user_data = np.array([ [15, 23, 5], [12, 19, 3], [18, 25, 7], # 정상 사용자 [14, 21, 4], [16, 22, 6], [13, 20, 5], [1000, 5, 0], # 봇 - 클릭만 많고 구매 없음 [10, 200, 500] # 이상 거래 - 긴 체류, 고액 구매 ]) # Isolation Forest 모델 생성 및 학습 model = IsolationForest(contamination=0.2, random_state=42) predictions = model.fit_predict(user_data) # 결과 출력 (-1: 이상, 1: 정상) for i, pred in enumerate(predictions): status = "이상" if pred == -1 else "정상" print(f"사용자 {i}: {user_data[i]} -> {status}") ``` ### 설명 이것이 하는 일: 위 코드는 사용자의 클릭, 체류시간, 구매금액 데이터를 분석해서, 봇이나 이상 거래를 자동으로 찾아냅니다. 첫 번째로, 3차원 데이터(클릭수, 체류시간, 구매금액)를 numpy 배열로 준비합니다. 정상 사용자 6명과 의심스러운 사용자 2명의 데이터가 있습니다. Isolation Forest는 이 데이터를 받아서 내부적으로 여러 개의 결정 트리를 만듭니다. 그 다음으로, contamination 파라미터를 0.2로 설정합니다. 이것은 "전체 데이터의 약 20%가 이상값일 것"이라고 알려주는 것입니다. 모델은 이 비율을 참고해서 이상값의 기준점을 조정합니다. fit_predict 메서드가 호출되면, 모델은 각 데이터 포인트를 고립시키는데 평균 몇 번의 분할이 필요한지 계산합니다. 내부에서 어떤 일이 일어나냐면, 각 트리는 무작위로 변수를 선택하고(예: 클릭수), 무작위로 값을 선택해서(예: 500) 데이터를 둘로 나눕니다. 이 과정을 각 데이터가 혼자 남을 때까지 반복합니다. 이상값은 무리에서 멀리 떨어져 있어서 2~3번만에 고립되지만, 정상값은 여러 정상 데이터와 섞여 있어서 10번 이상 분할해야 고립됩니다. 마지막으로, 모델은 각 데이터의 "고립 용이성"을 점수화해서, 쉽게 고립되는 것들을 -1(이상), 어렵게 고립되는 것들을 1(정상)로 분류합니다. 7번째 사용자(1000클릭, 구매 없음)와 8번째 사용자(고액 구매)는 정상 패턴에서 너무 멀리 떨어져 있어서 이상으로 판정됩니다. 여러분이 이 코드를 사용하면 수십 가지 변수를 동시에 고려하면서도 빠르게 이상을 탐지할 수 있습니다. 특히 정상 데이터만 많고 이상 데이터의 예시가 거의 없을 때 매우 효과적입니다. 또한 새로운 유형의 이상도 잘 찾아내는데, 이는 패턴을 암기하는 것이 아니라 고립 용이성을 측정하기 때문입니다. ### 실전 팁 💡 contamination 값은 도메인 지식을 바탕으로 설정하세요. 일반적으로 0.05~0.1(5~10%)이 적절하며, 너무 크면 정상값까지 이상으로 판정합니다. 💡 변수의 스케일을 맞추세요. 클릭수(0~1000)와 구매금액(0~1000만원)처럼 범위가 다르면 StandardScaler로 정규화한 후 사용합니다. 💡 n_estimators(트리 개수)는 기본값 100으로 시작하되, 데이터가 많고 복잡하면 200~300으로 늘리면 더 안정적인 결과를 얻습니다. 💡 decision_function()을 사용하면 -1/1 대신 이상 점수를 얻을 수 있어서, 이상의 정도를 순위화할 수 있습니다. 가장 의심스러운 상위 10건만 검토하는 식으로 활용하세요. 💡 주기적으로 모델을 재학습하세요. 사용자 행동 패턴은 시간이 지나면서 변하므로, 매주 또는 매월 최신 데이터로 모델을 업데이트해야 합니다. --- ## 3. LSTM 오토인코더 - 시계열 데이터의 이상 패턴 탐지 ### 시작하며 여러분이 IoT 센서에서 수집한 온도, 진동, 압력 데이터를 모니터링한다고 생각해보세요. 이 데이터들은 시간에 따라 변하고, 하루 주기, 일주일 주기로 반복되는 패턴이 있습니다. 단순히 현재 값만 보는 것이 아니라, 과거의 흐름과 비교해서 "지금 이 패턴이 정상인가?"를 판단해야 합니다. 이런 문제는 설비 모니터링, 주식 거래, 네트워크 트래픽 분석 등에서 흔히 발생합니다. 시간의 흐름을 고려하지 않으면 정상적인 변동을 이상으로 오판하거나, 미묘한 이상 패턴을 놓칠 수 있습니다. 예를 들어 기계의 진동이 서서히 증가하는 패턴은 고장 전조 증상일 수 있지만, 각 시점의 값만 보면 정상 범위 안에 있을 수 있습니다. 바로 이럴 때 필요한 것이 LSTM 오토인코더입니다. 시계열 데이터의 정상 패턴을 학습한 후, 그 패턴에서 벗어난 구간을 이상으로 탐지할 수 있습니다. ### 개요 간단히 말해서, 이 개념은 시계열 데이터를 압축했다가 복원하는 신경망을 학습시켜서, 복원이 잘 안 되는 구간을 이상으로 판단하는 방법입니다. 왜 이 방법이 필요할까요? 예를 들어, 공장의 모터 진동 데이터가 평소에는 규칙적인 패턴을 보이는데, 베어링이 마모되기 시작하면 미묘하게 불규칙해집니다. LSTM 오토인코더는 정상 패턴을 완벽히 학습했기 때문에, 이런 미묘한 변화를 감지할 수 있습니다. 이는 예지 정비(Predictive Maintenance)에서 매우 중요합니다. 전통적인 방법에서는 임계값 기반 알림(진동이 특정 값 초과 시)을 사용했다면, LSTM 오토인코더는 "정상적인 흐름"을 학습해서 패턴의 변화를 감지합니다. 고장이 일어나기 전에 미리 알 수 있습니다. LSTM 오토인코더의 핵심 특징은 첫째, 시간의 순서와 문맥을 이해할 수 있고, 둘째, 복잡한 주기성과 추세를 자동으로 학습하며, 셋째, 라벨이 없는 정상 데이터만으로 학습 가능합니다. 이러한 특징들이 실제 산업 현장에서 매우 유용합니다. ### 코드 예제 ```python from tensorflow.keras.models import Sequential from tensorflow.keras.layers import LSTM, Dense, RepeatVector, TimeDistributed import numpy as np # 시계열 데이터 준비 (예: 센서 값) timesteps = 10 # 10개 시점을 하나의 시퀀스로 features = 1 # LSTM 오토인코더 구축 model = Sequential([ LSTM(32, activation='relu', input_shape=(timesteps, features)), # 인코더 RepeatVector(timesteps), # 차원 복원 LSTM(32, activation='relu', return_sequences=True), # 디코더 TimeDistributed(Dense(features)) # 출력층 ]) model.compile(optimizer='adam', loss='mse') # 정상 데이터로 학습 (예시) normal_data = np.random.randn(1000, timesteps, features) model.fit(normal_data, normal_data, epochs=50, batch_size=32, verbose=0) # 테스트 데이터 복원 오차 계산 test_data = np.random.randn(10, timesteps, features) reconstructed = model.predict(test_data) mse = np.mean(np.power(test_data - reconstructed, 2), axis=1) # 오차가 큰 것을 이상으로 판단 threshold = np.percentile(mse, 95) anomalies = mse > threshold print(f"이상 구간: {np.where(anomalies)[0]}") ``` ### 설명 이것이 하는 일: 위 코드는 시계열 센서 데이터의 정상 패턴을 학습한 후, 그 패턴에서 벗어난 이상 구간을 자동으로 찾아냅니다. 첫 번째로, LSTM 오토인코더 구조를 만듭니다. 인코더 부분은 10개 시점의 데이터를 받아서 32차원의 압축된 표현으로 만듭니다. 이 압축된 표현이 바로 "이 시계열의 핵심 패턴"을 담고 있습니다. RepeatVector는 이 압축된 정보를 다시 10개 시점으로 펼쳐주고, 디코더 LSTM이 원본 데이터를 복원하려고 시도합니다. 그 다음으로, 정상 데이터만을 사용해서 모델을 학습시킵니다. 학습 과정에서 모델은 입력을 받아서 출력으로 똑같이 복원하려고 노력합니다. MSE(Mean Squared Error) 손실 함수가 "입력과 출력이 얼마나 다른가"를 측정하고, 모델은 이 차이를 최소화하는 방향으로 학습됩니다. 50번의 에폭(epoch) 동안 반복 학습하면서, 정상 패턴의 특징을 완벽히 익힙니다. 내부에서 어떤 일이 일어나냐면, LSTM 셀들이 시계열의 장기 의존성을 학습합니다. 예를 들어 "오전 9시에 값이 올라가면 오후 3시에는 내려간다" 같은 시간적 관계를 파악합니다. 정상 데이터에서 자주 나타나는 패턴은 잘 압축하고 복원할 수 있지만, 학습하지 못한 이상 패턴은 복원 오차가 큽니다. 마지막으로, 테스트 데이터에 대해 복원을 시도하고 MSE를 계산합니다. 각 시퀀스마다 "얼마나 잘 복원했는가"를 점수화하는데, 정상 패턴은 MSE가 낮고 이상 패턴은 높습니다. 95 백분위수를 임계값으로 사용하면, 상위 5%로 복원이 어려웠던 구간을 이상으로 판정합니다. 여러분이 이 코드를 사용하면 육안으로는 발견하기 어려운 미묘한 패턴 변화를 자동으로 감지할 수 있습니다. 특히 고장이 일어나기 전에 나타나는 전조 증상을 조기에 포착해서, 예방 조치를 취할 수 있습니다. 또한 한 번 학습된 모델은 실시간으로 들어오는 데이터를 즉시 평가할 수 있어서, 24시간 무중단 모니터링이 가능합니다. ### 실전 팁 💡 timesteps(시퀀스 길이)는 데이터의 주기를 고려해서 설정하세요. 일일 패턴이 있다면 24시간치, 주간 패턴이 있다면 7일치 데이터를 하나의 시퀀스로 만듭니다. 💡 데이터를 정규화하세요. MinMaxScaler로 0~1 범위로 스케일링하면 LSTM이 더 안정적으로 학습하고, 여러 센서 값을 함께 사용할 때도 균형이 맞습니다. 💡 LSTM 유닛 수는 데이터 복잡도에 따라 조정하세요. 단순한 패턴은 16~32개, 복잡한 패턴은 64~128개를 사용합니다. 너무 많으면 과적합될 수 있습니다. 💡 임계값 설정이 중요합니다. 백분위수 방식(95, 99) 외에도, 학습 데이터의 MSE 분포를 분석해서 "평균 + 3×표준편차" 같은 방식도 효과적입니다. 💡 다변량 시계열(여러 센서 동시 모니터링)에서는 features 차원을 늘려서 모든 센서를 함께 학습하면, 센서 간 상호작용까지 고려할 수 있습니다. --- ## 4. 슬라이딩 윈도우 통계 - 실시간 스트리밍 데이터 이상 탐지 ### 시작하며 여러분이 실시간으로 들어오는 API 요청 수를 모니터링한다고 상상해보세요. 매초 새로운 데이터가 들어오는데, 과거 모든 데이터를 저장하고 분석할 수도 없고, 현재 값만 보는 것도 충분하지 않습니다. 최근 5분, 10분의 추세를 보면서 "지금 급격한 변화가 있는가?"를 판단해야 합니다. 이런 문제는 웹 서비스 모니터링, 주식 거래, 실시간 추천 시스템 등에서 매우 흔합니다. 메모리와 처리 시간은 제한적이지만, 빠르게 변하는 패턴을 놓치지 않아야 합니다. DDoS 공격처럼 갑자기 트래픽이 폭증하는 상황을 1~2초 안에 감지해야 대응할 수 있습니다. 바로 이럴 때 필요한 것이 슬라이딩 윈도우 통계입니다. 최근 일정 시간의 데이터만 유지하면서, 효율적으로 통계를 계산하고 이상을 탐지할 수 있습니다. ### 개요 간단히 말해서, 이 개념은 최근 N개의 데이터만 메모리에 유지하면서, 새 데이터가 들어올 때마다 오래된 데이터를 버리고 통계를 업데이트하는 방법입니다. 왜 이 방법이 필요할까요? 예를 들어, 웹사이트의 초당 요청 수가 평소 100~200인데 갑자기 10,000이 된다면 DDoS 공격일 가능성이 높습니다. 하지만 시작 시점부터의 전체 평균을 보면 이런 급격한 변화가 희석되어 보입니다. 최근 300초(5분) 데이터만 보면 변화를 즉시 감지할 수 있습니다. 이는 클라우드 비용 폭탄, 시스템 다운 같은 재앙을 예방하는 데 중요합니다. 전통적인 방법에서는 모든 데이터를 저장하고 분석했다면, 슬라이딩 윈도우는 필요한 최소한의 데이터만 유지하면서도 최신 추세를 정확히 파악합니다. 메모리 효율적이고 빠릅니다. 슬라이딩 윈도우의 핵심 특징은 첫째, 메모리 사용량이 고정되어 있고(O(N)), 둘째, 각 업데이트가 O(1) 시간에 처리되며, 셋째, 최신 패턴 변화에 즉시 반응합니다. 이러한 특징들이 실시간 시스템에 필수적입니다. ### 코드 예제 ```python from collections import deque import numpy as np import time class SlidingWindowDetector: def __init__(self, window_size=300, threshold=3): self.window = deque(maxlen=window_size) # 최대 300개 유지 self.threshold = threshold def add_and_check(self, value): self.window.append(value) # 윈도우가 충분히 차면 이상 탐지 시작 if len(self.window) 0 else 0 is_anomaly = abs(z_score) > self.threshold return is_anomaly, z_score # 사용 예시 detector = SlidingWindowDetector(window_size=100, threshold=3) # 실시간 데이터 스트림 시뮬레이션 for i in range(150): # 정상 데이터 (평균 100, 표준편차 10) value = np.random.normal(100, 10) # 120번째에 이상값 주입 if i == 120: value = 200 # 급격한 증가 is_anomaly, z_score = detector.add_and_check(value) if is_anomaly: print(f"[경고] 시점 {i}: 값={value:.2f}, Z-Score={z_score:.2f}") ``` ### 설명 이것이 하는 일: 위 코드는 실시간으로 들어오는 데이터 스트림에서, 메모리 효율적으로 이상값을 즉시 탐지하는 시스템을 구현합니다. 첫 번째로, deque(double-ended queue)를 사용해서 슬라이딩 윈도우를 구현합니다. maxlen=window_size로 설정하면, 새 데이터가 추가될 때 자동으로 가장 오래된 데이터를 제거합니다. 이렇게 하면 윈도우 크기를 일정하게 유지하면서도, 수동으로 삭제 작업을 할 필요가 없습니다. deque는 양쪽 끝에서의 추가/삭제가 O(1)로 매우 빠릅니다. 그 다음으로, add_and_check 메서드가 새 데이터를 받을 때마다 호출됩니다. 먼저 윈도우에 데이터를 추가하고, 윈도우가 최소 크기(30개) 이상인지 확인합니다. 너무 적은 데이터로는 신뢰할 수 있는 통계를 계산할 수 없기 때문입니다. 충분한 데이터가 쌓이면, 현재 윈도우 안의 모든 데이터로 평균과 표준편차를 계산합니다. 내부에서 어떤 일이 일어나냐면, 매번 새 데이터가 들어올 때마다 윈도우 전체를 다시 계산하는 것처럼 보이지만, numpy의 최적화된 연산 덕분에 매우 빠릅니다. 예를 들어 윈도우 크기가 100이어도 평균/표준편차 계산이 1ms 이하로 완료됩니다. 윈도우가 시간에 따라 이동하면서, 최근 추세를 항상 정확히 반영합니다. 마지막으로, 새로 들어온 값의 Z-Score를 계산해서 임계값(3)과 비교합니다. 예시 코드에서 120번째 시점에 값 200이 들어오면, 그 직전까지의 윈도우(평균 약 100, 표준편차 약 10)를 기준으로 Z-Score가 약 10이 나옵니다. 이는 임계값 3을 크게 초과하므로 즉시 이상으로 판정되고 경고가 출력됩니다. 여러분이 이 코드를 사용하면 무한히 들어오는 데이터 스트림을 처리하면서도, 메모리 사용량을 일정하게 유지할 수 있습니다. 또한 최신 패턴 변화에 민감하게 반응하므로, 시스템 상태가 변할 때 빠르게 감지할 수 있습니다. 서버 모니터링, 주식 거래 알고리즘, IoT 센서 데이터 분석 등 다양한 실시간 시스템에 적용 가능합니다. ### 실전 팁 💡 윈도우 크기는 데이터의 주기성을 고려하세요. 일일 패턴이 있다면 하루치, 주간 패턴이 있다면 일주일치를 윈도우로 설정하면 계절성을 고려할 수 있습니다. 💡 더 효율적인 통계 계산을 위해 Welford's algorithm을 사용하면, 전체 재계산 없이 평균과 분산을 업데이트할 수 있습니다(O(1) 시간). 💡 여러 레벨의 윈도우를 동시에 운영하세요. 1분, 5분, 1시간 윈도우를 각각 유지하면, 단기/중기/장기 이상을 모두 감지할 수 있습니다. 💡 임계값을 동적으로 조정하세요. 업무 시간에는 threshold=2.5로 민감하게, 야간에는 3.5로 여유롭게 설정하면 false positive를 줄일 수 있습니다. 💡 Redis나 InfluxDB 같은 시계열 데이터베이스를 사용하면, 여러 서버에서 공유하는 분산 슬라이딩 윈도우를 구현할 수 있습니다. --- ## 5. One-Class SVM - 정상 데이터만으로 경계 학습 ### 시작하며 여러분이 새로운 종류의 사이버 공격을 탐지하려고 할 때를 생각해보세요. 정상적인 네트워크 트래픽 데이터는 수백만 건 있지만, 공격 데이터는 거의 없거나 아직 발견되지 않은 유형일 수 있습니다. 전통적인 분류 모델은 "정상"과 "비정상" 둘 다의 예시가 필요한데, 비정상 예시가 없으면 어떻게 학습할까요? 이런 문제는 보안, 품질 검사, 희귀 질병 진단 등에서 매우 흔합니다. 정상 케이스는 풍부하지만, 이상 케이스는 극히 드물거나 아직 발견되지 않았을 수 있습니다. 또한 이상의 종류가 매우 다양해서, 몇 가지 예시만으로는 모든 경우를 커버할 수 없습니다. 바로 이럴 때 필요한 것이 One-Class SVM입니다. 정상 데이터만으로 "정상의 영역"을 학습해서, 그 영역을 벗어난 모든 것을 이상으로 판단할 수 있습니다. ### 개요 간단히 말해서, 이 개념은 정상 데이터를 감싸는 최소한의 경계를 찾아내서, 그 경계 밖에 있는 데이터를 이상으로 판정하는 머신러닝 알고리즘입니다. 왜 이 방법이 필요할까요? 예를 들어, 제조 공정에서 양품의 치수, 무게, 색상 데이터는 수십만 건 있지만, 불량품은 0.1%도 안 될 수 있습니다. 게다가 불량의 종류도 다양합니다(너무 큼, 너무 작음, 색이 다름 등). One-Class SVM은 양품 데이터만으로 "이게 정상적인 범위"라는 경계를 학습해서, 본 적 없는 새로운 유형의 불량도 탐지할 수 있습니다. 전통적인 방법에서는 정상과 이상의 예시를 모두 모아서 분류기를 학습했다면, One-Class SVM은 정상만 보고도 "정상이 아닌 것"을 알아냅니다. 이는 제로데이(zero-day) 공격처럼 완전히 새로운 위협을 탐지하는 데 효과적입니다. One-Class SVM의 핵심 특징은 첫째, 정상 데이터만 있으면 학습 가능하고, 둘째, 커널 트릭을 사용해 복잡한 경계를 표현할 수 있으며, 셋째, 고차원 데이터에서도 잘 작동합니다. 이러한 특징들이 실제 보안과 품질 관리 시스템에서 매우 가치 있습니다. ### 코드 예제 ```python from sklearn.svm import OneClassSVM import numpy as np from sklearn.preprocessing import StandardScaler # 정상 네트워크 트래픽 데이터 [패킷크기, 연결시간, 요청빈도] normal_traffic = np.array([ [64, 0.5, 10], [72, 0.6, 12], [68, 0.55, 11], [70, 0.52, 10], [66, 0.58, 13], [71, 0.54, 11], [69, 0.56, 12], [67, 0.53, 10], [73, 0.59, 12] ]) # 데이터 정규화 scaler = StandardScaler() normal_scaled = scaler.fit_transform(normal_traffic) # One-Class SVM 모델 학습 (nu: 이상값 비율 추정) model = OneClassSVM(kernel='rbf', gamma='auto', nu=0.1) model.fit(normal_scaled) # 테스트 데이터 (정상 + 의심스러운 패턴) test_data = np.array([ [70, 0.55, 11], # 정상 [500, 10, 1000], # DDoS 공격 - 비정상적인 패킷 [65, 0.52, 10] # 정상 ]) test_scaled = scaler.transform(test_data) # 예측 (-1: 이상, 1: 정상) predictions = model.predict(test_scaled) for i, pred in enumerate(predictions): status = "이상" if pred == -1 else "정상" print(f"트래픽 {i+1}: {test_data[i]} -> {status}") ``` ### 설명 이것이 하는 일: 위 코드는 정상 네트워크 트래픽 패턴만 학습한 후, 본 적 없는 DDoS 공격 같은 이상 트래픽을 자동으로 감지합니다. 첫 번째로, 정상 트래픽 데이터를 StandardScaler로 정규화합니다. 패킷 크기(64~73), 연결 시간(0.5~0.6초), 요청 빈도(10~13)는 단위와 범위가 다르므로, 평균 0, 표준편차 1로 맞춰줍니다. 이렇게 하면 SVM이 모든 변수를 공평하게 고려할 수 있습니다. 그 다음으로, One-Class SVM 모델을 생성합니다. kernel='rbf'는 방사형 기저 함수를 사용한다는 뜻으로, 직선이 아닌 곡선으로 경계를 그릴 수 있게 합니다. nu=0.1은 "전체 데이터의 약 10%가 경계 밖에 있을 것"이라고 알려주는 파라미터입니다. 모델은 정상 데이터만 받아서, 이 데이터들을 감싸는 최적의 경계를 찾습니다. 내부에서 어떤 일이 일어나냐면, SVM은 고차원 공간에서 정상 데이터를 원점 주변에 모으려고 시도합니다. RBF 커널을 통해 데이터를 더 높은 차원으로 투영하면, 복잡한 모양의 정상 영역도 표현할 수 있습니다. 예를 들어 2차원에서는 타원 모양으로, 3차원에서는 구 모양으로 정상 영역이 그려집니다. 학습이 완료되면, 이 경계가 "정상의 기준"이 됩니다. 마지막으로, 테스트 데이터를 같은 방식으로 정규화한 후 모델에 넣어 예측합니다. 첫 번째 데이터 [70, 0.55, 11]은 학습 데이터와 매우 유사하므로 경계 안에 있어 정상(1)으로 판정됩니다. 하지만 두 번째 데이터 [500, 10, 1000]은 모든 값이 정상 범위를 훨씬 벗어나므로 경계 밖에 위치해 이상(-1)으로 판정됩니다. 모델은 이런 패턴을 본 적이 없지만, "정상 영역 밖"이라는 이유로 정확히 감지합니다. 여러분이 이 코드를 사용하면 레이블링된 이상 데이터 없이도 강력한 이상 탐지 시스템을 구축할 수 있습니다. 특히 이상의 종류가 계속 진화하는 환경(사이버 보안, 사기 탐지)에서, 과거에 본 적 없는 새로운 공격도 탐지할 수 있습니다. 또한 정상 데이터만 필요하므로, 데이터 수집과 라벨링 비용을 크게 절감할 수 있습니다. ### 실전 팁 💡 nu 파라미터를 신중하게 설정하세요. 너무 작으면(0.01) 거의 모든 것을 정상으로 판단하고, 너무 크면(0.3) false positive가 많아집니다. 0.05~0.15가 일반적으로 적절합니다. 💡 커널 선택이 중요합니다. 데이터가 선형 분리 가능하면 'linear', 복잡한 패턴이면 'rbf'를 사용하세요. rbf의 경우 gamma 값으로 경계의 유연성을 조절할 수 있습니다. 💡 반드시 정상 데이터만으로 학습하세요. 만약 학습 데이터에 이상값이 섞여 있으면, 모델이 잘못된 경계를 학습합니다. 사전에 명백한 이상값은 제거하세요. 💡 decision_function()을 사용하면 경계로부터의 거리를 얻을 수 있어서, 이상의 심각도를 측정할 수 있습니다. 거리가 멀수록 더 심각한 이상입니다. 💡 주기적으로 재학습하세요. 정상 패턴이 시간에 따라 변하면(서비스 확장, 사용자 행동 변화), 모델도 업데이트해야 합니다. 최근 1개월 정상 데이터로 매주 재학습하는 것을 권장합니다. --- ## 6. 앙상블 이상 탐지 - 여러 방법을 결합하여 정확도 향상 ### 시작하며 여러분이 신용카드 사기 탐지 시스템을 구축한다고 상상해보세요. Z-Score 방법은 거래 금액이 비정상적으로 큰 경우를 잘 잡지만, 자주 사용되지 않는 국가에서의 결제는 놓칠 수 있습니다. Isolation Forest는 이상한 지역 패턴은 잘 잡지만, 금액 이상은 덜 민감할 수 있습니다. 하나의 방법만 쓰면 어떤 유형의 사기는 빠져나갑니다. 이런 문제는 복잡한 실제 환경에서 항상 발생합니다. 이상의 종류가 다양하고, 각 탐지 방법은 특정 유형에 강점이 있기 때문입니다. 하나의 완벽한 방법은 존재하지 않습니다. 또한 단일 방법은 false positive(정상을 이상으로 오판)가 많을 수 있습니다. 바로 이럴 때 필요한 것이 앙상블 이상 탐지입니다. 여러 가지 탐지 방법을 동시에 사용하고, 그 결과를 종합해서 최종 판단을 내리면, 각 방법의 장점은 살리고 단점은 보완할 수 있습니다. ### 개요 간단히 말해서, 이 개념은 여러 개의 이상 탐지 알고리즘을 독립적으로 실행한 후, 투표나 평균 같은 방식으로 결과를 결합하여 최종 판단을 내리는 방법입니다. 왜 이 방법이 필요할까요? 예를 들어, 웹 애플리케이션 공격 탐지에서 통계 방법은 요청 빈도 이상을 잡고, Isolation Forest는 비정상적인 URL 패턴을 잡고, LSTM은 시간적 패턴 이상을 잡을 수 있습니다. 이 세 가지 중 두 개 이상이 "이상"이라고 하면, 정말 문제가 있을 가능성이 매우 높습니다. 이렇게 하면 false positive를 크게 줄이면서도 다양한 유형의 공격을 모두 감지할 수 있습니다. 전통적인 방법에서는 하나의 알고리즘을 선택하고 파라미터를 튜닝했다면, 앙상블 방법은 여러 알고리즘의 강점을 모두 활용합니다. 의사결정도 더 안정적이고 신뢰할 수 있습니다. 앙상블 이상 탐지의 핵심 특징은 첫째, 다양한 유형의 이상을 포괄적으로 탐지하고, 둘째, 개별 모델의 오류를 상쇄시켜 정확도가 높으며, 셋째, 모델 하나가 실패해도 시스템은 계속 작동합니다. 이러한 특징들이 미션 크리티컬한 시스템에서 필수적입니다. ### 코드 예제 ```python from sklearn.ensemble import IsolationForest from sklearn.svm import OneClassSVM from sklearn.preprocessing import StandardScaler import numpy as np # 거래 데이터 [금액(만원), 거래시간(시), 해외여부(0/1)] transactions = np.array([ [5, 14, 0], [8, 15, 0], [6, 13, 0], # 정상 [7, 16, 0], [9, 14, 0], [5, 15, 0], [500, 3, 1], # 사기: 고액 + 새벽 + 해외 [10, 14, 0] # 정상 ]) # 데이터 정규화 scaler = StandardScaler() X_scaled = scaler.fit_transform(transactions) # 여러 모델 생성 및 학습 models = { 'isolation_forest': IsolationForest(contamination=0.15, random_state=42), 'one_class_svm': OneClassSVM(nu=0.15, kernel='rbf', gamma='auto') } # 각 모델의 예측 수집 predictions = {} for name, model in models.items(): pred = model.fit_predict(X_scaled) predictions[name] = pred # 앙상블 투표: 과반수가 이상(-1)이면 최종 이상 판정 ensemble_pred = [] for i in range(len(transactions)): votes = [predictions[name][i] for name in predictions] # -1이 더 많으면 이상, 아니면 정상 final = -1 if votes.count(-1) > len(votes) / 2 else 1 ensemble_pred.append(final) # 결과 출력 for i, pred in enumerate(ensemble_pred): status = "이상" if pred == -1 else "정상" print(f"거래 {i+1}: {transactions[i]} -> {status}") ``` ### 설명 이것이 하는 일: 위 코드는 Isolation Forest와 One-Class SVM 두 가지 알고리즘을 동시에 사용해서, 각각의 판단을 종합하여 더 정확한 사기 거래 탐지를 수행합니다. 첫 번째로, 거래 데이터를 표준화합니다. 금액(만원 단위), 시간(0~23시), 해외 여부(0 또는 1)는 스케일이 다르므로 정규화가 필요합니다. 그 다음 두 가지 모델을 생성하는데, Isolation Forest는 고립 용이성 기반으로, One-Class SVM은 경계 기반으로 이상을 탐지합니다. 이 두 방법은 원리가 완전히 다르므로, 서로 다른 유형의 이상에 민감합니다. 그 다음으로, 각 모델을 독립적으로 학습시키고 예측을 수행합니다. fit_predict()가 호출되면 각 모델은 자신만의 방식으로 데이터를 분석합니다. Isolation Forest는 "이 거래가 얼마나 쉽게 고립되는가"를, One-Class SVM은 "이 거래가 정상 영역 안에 있는가"를 평가합니다. 각 모델의 예측 결과를 딕셔너리에 저장합니다. 내부에서 어떤 일이 일어나냐면, 7번째 거래 [500, 3, 1](고액, 새벽, 해외)의 경우를 보면, Isolation Forest는 금액이 다른 거래들과 너무 달라서 이상(-1)으로 판정하고, One-Class SVM도 3차원 공간에서 정상 영역을 크게 벗어나므로 이상(-1)으로 판정합니다. 반면 8번째 거래 [10, 14, 0]은 두 모델 모두 정상(1)으로 판정합니다. 마지막으로, 앙상블 투표가 진행됩니다. 각 거래에 대해 모든 모델의 투표를 수집하고, 과반수 이상이 이상(-1)이라고 하면 최종적으로 이상으로 판정합니다. 이 경우 두 모델이 모두 동의해야 이상으로 판정되므로, 매우 확실한 경우만 걸러집니다. 만약 세 개 이상의 모델을 사용한다면, "3개 중 2개 이상" 같은 유연한 기준을 적용할 수 있습니다. 여러분이 이 코드를 사용하면 단일 모델의 실수를 보완할 수 있습니다. 예를 들어 Isolation Forest가 정상을 이상으로 오판해도, 다른 모델들이 정상이라고 하면 최종 판단은 정상이 됩니다. 또한 각 모델이 다른 관점에서 데이터를 보므로, 더 많은 종류의 이상을 감지할 수 있습니다. 실무에서는 3~5개의 다양한 모델을 조합하면 매우 강력한 시스템을 만들 수 있습니다. ### 실전 팁 💡 모델을 다양하게 구성하세요. 통계 기반(Z-Score), 트리 기반(Isolation Forest), 거리 기반(One-Class SVM), 딥러닝(LSTM) 등 원리가 다른 모델을 조합하면 효과가 극대화됩니다. 💡 가중 투표를 사용하세요. 성능이 더 좋은 모델에 더 큰 가중치를 주면(예: IF 0.4, SVM 0.3, Z-Score 0.3) 정확도가 향상됩니다. 검증 데이터로 각 모델의 성능을 평가해서 가중치를 결정하세요. 💡 soft voting을 고려하세요. -1/1 이진 판단 대신, 각 모델의 이상 점수(decision_function)를 평균내면 더 세밀한 판단이 가능합니다. 💡 계산 비용을 고려하세요. 실시간 시스템에서는 빠른 모델(Z-Score, Isolation Forest)을 먼저 실행하고, 의심스러운 경우만 느린 모델(LSTM, Deep SVM)을 추가로 실행하는 단계적 접근을 사용하세요. 💡 모델 간 상관관계를 확인하세요. 만약 두 모델이 항상 똑같은 결과를 낸다면, 하나는 중복입니다. 다양성이 앙상블의 핵심이므로, 서로 다른 판단을 하는 모델들을 조합하세요. --- ## 7. 시각화 기반 탐지 - 사람의 직관과 자동화의 결합 ### 시작하며 여러분이 자동화된 이상 탐지 시스템을 운영하면서 매일 수십 개의 알림을 받는다고 상상해보세요. 알고리즘이 "이상"이라고 표시하지만, 실제로 확인해보면 대부분 false positive입니다. 반대로 중요한 이상은 놓치고 있을 수도 있습니다. 어떻게 하면 알고리즘의 판단을 신뢰하고, 개선할 수 있을까요? 이런 문제는 실제 운영 환경에서 매우 흔합니다. 완전 자동화는 편리하지만, 컨텍스트를 이해하지 못하고 오판할 수 있습니다. 반대로 사람이 모든 데이터를 일일이 확인하는 것은 불가능합니다. 특히 고차원 데이터는 숫자만 봐서는 패턴을 파악하기 어렵습니다. 바로 이럴 때 필요한 것이 시각화 기반 탐지입니다. 자동화된 알고리즘으로 후보를 추려내고, 시각화를 통해 사람이 빠르게 검토하고 판단할 수 있습니다. 또한 시각화는 시스템의 성능을 모니터링하고 개선하는 데도 필수적입니다. ### 개요 간단히 말해서, 이 개념은 이상 탐지 알고리즘의 결과를 그래프, 차트, 히트맵 등으로 시각화해서, 사람이 직관적으로 패턴을 파악하고 검증할 수 있도록 하는 방법입니다. 왜 이 방법이 필요할까요? 예를 들어, 서버 CPU 사용률의 시계열 그래프에서 이상 구간을 빨간색으로 표시하면, 운영자가 한눈에 "언제, 얼마나 심각했는가"를 파악할 수 있습니다. 숫자 로그만 보는 것보다 훨씬 빠르고 정확합니다. 또한 여러 지표를 동시에 시각화하면, "CPU는 정상인데 메모리가 이상하네" 같은 복합적인 패턴을 발견할 수 있습니다. 전통적인 방법에서는 알림 메시지나 로그 파일로만 결과를 확인했다면, 시각화는 패턴, 추세, 관계를 직관적으로 보여줍니다. 사람의 패턴 인식 능력과 기계의 계산 능력을 결합할 수 있습니다. 시각화 기반 탐지의 핵심 특징은 첫째, 복잡한 데이터를 직관적으로 이해할 수 있고, 둘째, false positive를 빠르게 식별하고 제거할 수 있으며, 셋째, 시스템 성능을 지속적으로 모니터링하고 개선할 수 있습니다. 이러한 특징들이 운영 효율성을 크게 높입니다. ### 코드 예제 ```python import matplotlib.pyplot as plt import numpy as np from sklearn.ensemble import IsolationForest # 시계열 데이터 생성 (예: 서버 응답시간) np.random.seed(42) time = np.arange(0, 200) normal_data = 100 + np.sin(time / 10) * 20 + np.random.randn(200) * 5 # 이상값 주입 normal_data[50:55] = 200 # 급격한 증가 normal_data[120] = 300 # 스파이크 # Isolation Forest로 이상 탐지 X = normal_data.reshape(-1, 1) model = IsolationForest(contamination=0.05, random_state=42) predictions = model.fit_predict(X) # 시각화 plt.figure(figsize=(14, 6)) plt.plot(time, normal_data, label='응답시간(ms)', alpha=0.7) # 이상 구간 강조 anomaly_indices = np.where(predictions == -1)[0] plt.scatter(time[anomaly_indices], normal_data[anomaly_indices], color='red', s=100, label='이상 탐지', zorder=5) plt.axhline(y=np.mean(normal_data), color='green', linestyle='--', label=f'평균: {np.mean(normal_data):.1f}ms') plt.xlabel('시간(초)') plt.ylabel('응답시간(ms)') plt.title('서버 응답시간 이상 탐지 시각화') plt.legend() plt.grid(True, alpha=0.3) plt.savefig('anomaly_detection_viz.png', dpi=150) print("시각화 저장 완료: anomaly_detection_viz.png") ``` ### 설명 이것이 하는 일: 위 코드는 시계열 데이터에서 이상을 자동으로 탐지한 후, 결과를 시각적으로 표현해서 운영자가 한눈에 상황을 파악할 수 있게 합니다. 첫 번째로, 200초 동안의 서버 응답시간 데이터를 생성합니다. 정상 데이터는 평균 100ms 주변에서 사인파 패턴(주기적 변동)을 보이며, 약간의 노이즈가 섞여 있습니다. 그리고 의도적으로 50~54초 구간에 응답시간 200ms(과부하 상황)와 120초에 300ms(일시적 스파이크)를 주입해서, 실제 장애 상황을 시뮬레이션합니다. 그 다음으로, Isolation Forest가 이 데이터를 분석해서 각 시점이 정상인지 이상인지 판정합니다. contamination=0.05는 약 5%(10개 정도)의 이상값을 예상한다는 의미입니다. 모델은 주기적으로 변동하는 패턴은 정상으로 학습하고, 갑자기 튀는 값들은 이상으로 표시합니다. 내부에서 어떤 일이 일어나냐면, matplotlib이 시간에 따른 응답시간을 선 그래프로 그립니다. 파란 선이 전체 데이터의 흐름을 보여주고, 초록 점선이 평균값을 나타냅니다. 여기서 핵심은 predictions == -1인 지점들(이상으로 판정된 곳)을 빨간색 점으로 강조 표시하는 부분입니다. zorder=5를 설정해서 빨간 점이 다른 요소들 위에 그려지도록 합니다. 마지막으로, 완성된 그래프를 PNG 파일로 저장합니다. 이 그래프를 보면 운영자는 즉시 다음을 파악할 수 있습니다: (1) 50초 근처에 5초간 지속된 성능 저하, (2) 120초에 순간적인 스파이크, (3) 나머지 구간은 안정적인 패턴. 숫자 로그만 봤다면 몇 분이 걸렸을 분석이 몇 초 만에 완료됩니다. 여러분이 이 코드를 사용하면 팀원들과 효과적으로 소통할 수 있습니다. "120초에 이상 발생"이라고 말하는 것보다, 그래프를 공유하는 것이 훨씬 명확합니다. 또한 시각화를 통해 알고리즘의 판단이 합리적인지 검증할 수 있습니다. 만약 정상적인 피크를 이상으로 잘못 표시했다면, 파라미터를 조정하거나 다른 알고리즘을 시도할 수 있습니다. ### 실전 팁 💡 대시보드를 만드세요. Plotly Dash나 Streamlit으로 실시간 업데이트되는 웹 대시보드를 구축하면, 여러 지표를 동시에 모니터링할 수 있습니다. 💡 인터랙티브 시각화를 활용하세요. Plotly를 사용하면 마우스를 올렸을 때 정확한 값이 표시되고, 줌/팬이 가능해서 상세 분석이 쉽습니다. 💡 히트맵으로 다차원 데이터를 표현하세요. 여러 서버, 여러 지표를 동시에 보려면 seaborn의 히트맵이 효과적입니다. 색깔로 이상의 심각도를 표현할 수 있습니다. 💡 비교 시각화를 만드세요. "이번 주 vs 지난 주", "현재 서버 vs 평균" 같은 비교 그래프는 이상을 더 명확히 드러냅니다. 💡 자동 리포트를 생성하세요. 매일 또는 매주 주요 이상 탐지 결과를 PDF 리포트로 만들어서 이메일로 발송하면, 관련자들이 쉽게 파악할 수 있습니다. --- ## 8. 임계값 동적 조정 - 상황에 맞는 탐지 민감도 자동 조절 ### 시작하며 여러분이 전자상거래 사이트의 트래픽을 모니터링한다고 생각해보세요. 평일 오후에는 초당 100명이 접속하는데, 금요일 저녁 세일 시간에는 1000명이 접속합니다. 만약 임계값을 고정해두면, 평일 기준으로 설정하면 세일 기간을 이상으로 오판하고, 세일 기준으로 설정하면 평일의 작은 이상을 놓칩니다. 이런 문제는 트래픽, 판매량, 서버 부하 등 시간대, 요일, 계절에 따라 변하는 모든 데이터에서 발생합니다. 고정된 임계값은 상황의 변화를 고려하지 못해서, false positive(정상을 이상으로 오판)나 false negative(이상을 정상으로 놓침)가 많아집니다. 비즈니스 환경은 계속 변하는데 탐지 시스템은 그대로라면 점점 쓸모없어집니다. 바로 이럴 때 필요한 것이 동적 임계값 조정입니다. 시간, 요일, 계절, 또는 최근 데이터 추세에 따라 자동으로 임계값을 조정해서, 상황에 맞는 정확한 탐지를 할 수 있습니다. ### 개요 간단히 말해서, 이 개념은 과거 데이터 패턴을 분석해서 현재 상황에 맞는 임계값을 자동으로 계산하고, 이를 기준으로 이상을 판단하는 방법입니다. 왜 이 방법이 필요할까요? 예를 들어, 매주 월요일 오전 9시에는 주간 리포트 생성으로 DB 쿼리가 급증하는데, 이건 정상적인 패턴입니다. 하지만 화요일 새벽 3시에 같은 수준의 쿼리가 발생하면 이상입니다. 동적 임계값은 "이 시간대의 정상 범위"를 학습해서, 같은 값이라도 맥락에 따라 다르게 판단합니다. 이는 계절성 비즈니스(명절 쇼핑몰, 세금 신고 시즌 등)에서 특히 중요합니다. 전통적인 방법에서는 "CPU 80% 이상이면 알림" 같은 고정 임계값을 사용했다면, 동적 방법은 "평소 이 시간대 평균 대비 50% 증가하면 알림" 같은 상대적 기준을 사용합니다. 훨씬 똑똑하고 적응적입니다. 동적 임계값의 핵심 특징은 첫째, 시간에 따른 패턴 변화를 자동으로 학습하고, 둘째, false positive를 크게 줄이며, 셋째, 시스템 확장이나 비즈니스 성장에 자동으로 적응합니다. 이러한 특징들이 장기 운영되는 시스템에서 매우 중요합니다. ### 코드 예제 ```python import numpy as np import pandas as pd from datetime import datetime, timedelta class DynamicThresholdDetector: def __init__(self, window_size=7*24): # 7일 * 24시간 self.history = {} # 시간대별 과거 데이터 def get_hour_key(self, timestamp): """요일_시간 키 생성 (예: 'Mon_09')""" return f"{timestamp.strftime('%a')}_{timestamp.hour:02d}" def add_data(self, timestamp, value): """데이터 추가""" key = self.get_hour_key(timestamp) if key not in self.history: self.history[key] = [] self.history[key].append(value) # 최근 4주치만 유지 (28개 데이터) self.history[key] = self.history[key][-28:] def check_anomaly(self, timestamp, value, sigma=3): """동적 임계값으로 이상 탐지""" key = self.get_hour_key(timestamp) if key not in self.history or len(self.history[key]) upper_threshold or value 0 else 0 return is_anomaly, z_score # 사용 예시 detector = DynamicThresholdDetector() # 4주간의 과거 데이터 학습 (평일 오전 9시 = 100명) start_date = datetime(2024, 1, 1, 9, 0) for week in range(4): for day in range(7): ts = start_date + timedelta(weeks=week, days=day) value = 100 + np.random.randn() * 10 # 평균 100 detector.add_data(ts, value) # 새로운 데이터 테스트 test_time = datetime(2024, 1, 29, 9, 0) # 월요일 오전 9시 test_value = 200 # 평소의 2배 is_anomaly, z_score = detector.check_anomaly(test_time, test_value) print(f"시간: {test_time}, 값: {test_value}") print(f"결과: {'이상' if is_anomaly else '정상'}, Z-Score: {z_score:.2f}") ``` ### 설명 이것이 하는 일: 위 코드는 요일과 시간대별로 과거 패턴을 학습해서, "지금 이 시간대에 이 값이 정상인가"를 판단하는 스마트한 이상 탐지 시스템을 구현합니다. 첫 번째로, 시간대별 과거 데이터를 저장하는 구조를 만듭니다. get_hour_key()는 타임스탬프를 "Mon_09"(월요일 오전 9시) 같은 키로 변환합니다. 이렇게 하면 모든 월요일 오전 9시의 데이터가 함께 그룹화됩니다. 총 7일 × 24시간 = 168개의 서로 다른 시간대가 있고, 각각 독립적으로 통계를 유지합니다. 그 다음으로, add_data()가 새 데이터를 받을 때마다 해당 시간대의 히스토리에 추가합니다. 하지만 무한정 쌓지 않고 최근 28개(4주치)만 유지합니다. 이렇게 하면 오래된 패턴은 잊어버리고 최근 추세에 적응합니다. 예를 들어 시스템을 확장해서 트래픽이 전반적으로 증가했다면, 오래된 낮은 값들은 자동으로 제거됩니다. 내부에서 어떤 일이 일어나냐면, check_anomaly()가 호출되면 현재 시간대의 과거 데이터만 가져와서 평균과 표준편차를 계산합니다. 예를 들어 월요일 오전 9시라면, 지난 4주간의 월요일 오전 9시 데이터만 봅니다. 이 데이터들의 평균이 100, 표준편차가 10이라면, 임계값은 평균 ± 3×표준편차 = 70~130이 됩니다. 화요일 오전 9시는 다른 통계를 가질 수 있습니다. 마지막으로, 현재 값이 동적으로 계산된 임계값을 벗어나는지 확인합니다. 테스트에서 월요일 오전 9시에 값 200이 들어오면, Z-Score가 약 10이 나와서 명백한 이상으로 판정됩니다. 하지만 만약 월요일 오전 9시가 원래 트래픽이 높은 시간대였다면(평균 180, 표준편차 20), 같은 값 200이 Z-Score 1로 정상 판정될 수 있습니다. 여러분이 이 코드를 사용하면 계절성, 요일 패턴, 시간대 패턴을 모두 자동으로 고려하는 똑똑한 모니터링 시스템을 만들 수 있습니다. 파라미터를 수동으로 조정할 필요 없이, 시스템이 스스로 학습하고 적응합니다. 또한 비즈니스가 성장하거나 축소될 때도, 자동으로 새로운 정상 범위를 학습합니다. ### 실전 팁 💡 여러 단위의 패턴을 결합하세요. 시간대별 + 요일별 + 월별 패턴을 계층적으로 사용하면, "12월 마지막 주 월요일 오전 9시" 같은 세밀한 컨텍스트를 고려할 수 있습니다. 💡 이상치 제거 학습을 하세요. 과거 데이터를 저장할 때 명백한 이상값은 제외하고 저장하면, 정상 패턴만으로 더 정확한 임계값을 계산할 수 있습니다. 💡 sigma 값을 상황에 따라 조정하세요. 중요한 지표는 sigma=2로 민감하게, 노이즈가 많은 지표는 sigma=4로 여유롭게 설정합니다. 💡 최소 데이터 요구량을 설정하세요. 새로운 시간대는 데이터가 적어서 신뢰할 수 없으므로, 최소 10~20개 데이터가 쌓일 때까지는 고정 임계값을 사용하세요. 💡 급격한 변화를 감지하세요. 임계값 자체가 급격히 변하면(예: 2주 만에 평균이 2배 증가) 시스템 구조 변화의 신호일 수 있으니, 별도로 알림을 보내세요. ---

카테고리: AI

언어: Python

태그: Python, AnomalyDetection, MachineLearning, IsolationForest, Statistics, AI

작성자: AI Generated

프리미엄 콘텐츠 - 3개월 무료 체험 가능

이상 탐지 시스템 구축 완벽 가이드

목차

1. 통계 기반 이상 탐지 - Z-Score 방법으로 이상값 찾기

시작하며

개요

코드 예제

설명

실전 팁

2. Isolation Forest - 고차원 데이터의 이상 탐지

시작하며

개요

코드 예제

설명

실전 팁

3. LSTM 오토인코더 - 시계열 데이터의 이상 패턴 탐지

시작하며

개요

코드 예제

설명

실전 팁

4. 슬라이딩 윈도우 통계 - 실시간 스트리밍 데이터 이상 탐지

시작하며

개요

코드 예제

설명

실전 팁

5. One-Class SVM - 정상 데이터만으로 경계 학습

시작하며

개요

코드 예제

설명

실전 팁

6. 앙상블 이상 탐지 - 여러 방법을 결합하여 정확도 향상

시작하며

개요

코드 예제

설명

실전 팁

7. 시각화 기반 탐지 - 사람의 직관과 자동화의 결합

시작하며

개요

코드 예제

설명

실전 팁

8. 임계값 동적 조정 - 상황에 맞는 탐지 민감도 자동 조절

시작하며

개요

코드 예제

설명

실전 팁

이 카드뉴스가 포함된 코스

임베딩 & 벡터 데이터베이스 완전 정복

댓글 (0)

함께 보면 좋은 카드 뉴스

대규모 데이터셋 처리 완벽 가이드

Ansible Ad-hoc 명령어 실습 완벽 가이드

데이터 증강으로 LLM 학습 데이터 늘리기

LLM 훈련 데이터 정제 완벽 가이드

LLM 디자인 패턴 완벽 가이드