LLM 서빙 전략 완벽 가이드

대규모 언어 모델을 실제 서비스에 배포하고 운영하는 방법을 다룹니다. vLLM, TGI 같은 서빙 프레임워크부터 스트리밍 응답, 비용 최적화까지 실무에서 바로 적용할 수 있는 전략을 담았습니다.

1. LLM 서빙의 특수성

김개발 씨는 회사에서 ChatGPT 같은 AI 챗봇을 직접 만들어보라는 업무를 받았습니다. "모델 학습은 어떻게든 했는데, 이걸 어떻게 서비스로 만들지?" 일반적인 웹 서비스와는 뭔가 다른 것 같은데, 정확히 무엇이 다른 걸까요?

LLM 서빙은 일반적인 API 서버와 근본적으로 다릅니다. 한 번의 요청이 수십 초가 걸릴 수 있고, GPU 메모리를 GB 단위로 사용하며, 응답 길이를 미리 예측하기 어렵습니다.

마치 뷔페 레스토랑과 고급 코스 요리 전문점의 차이와 같습니다.

다음 코드를 살펴봅시다.

# 일반 API vs LLM API의 차이점
import time
import torch

# 일반 API: 즉시 응답, 예측 가능한 리소스
def normal_api(request):
    result = database.query(request)  # 밀리초 단위
    return result  # 응답 크기 예측 가능

# LLM API: 긴 응답 시간, 동적 리소스 사용
def llm_api(prompt):
    # GPU 메모리 수 GB 사용
    # 토큰 하나씩 생성 (autoregressive)
    tokens = []
    for _ in range(max_tokens):  # 반복 횟수 미정
        next_token = model.generate_next(tokens)
        tokens.append(next_token)
        if next_token == EOS:  # 언제 끝날지 모름
            break
    return tokens  # 수 초 ~ 수십 초 소요

김개발 씨는 입사 2년 차 백엔드 개발자입니다. 평소처럼 REST API를 만들면 될 줄 알았는데, LLM 서�스는 뭔가 달랐습니다.

첫 번째 테스트에서 서버가 30초 동안 응답하지 않자, 로드밸런서가 타임아웃 에러를 뿜어냈습니다. 선배 개발자 박시니어 씨가 다가와 말했습니다.

"LLM 서빙은 일반 API와 완전히 다른 세계야. 세 가지 특수성을 이해해야 해." 그렇다면 LLM 서빙만의 특수성은 무엇일까요?

첫 번째는 긴 응답 시간입니다. 일반적인 데이터베이스 쿼리는 밀리초 단위로 완료됩니다.

하지만 LLM은 토큰을 하나씩 순차적으로 생성합니다. 1000개의 토큰을 생성하려면 1000번의 forward pass가 필요합니다.

이것을 autoregressive generation이라고 부릅니다. 쉽게 비유하자면, 일반 API는 자판기와 같습니다.

버튼을 누르면 즉시 음료가 나옵니다. 반면 LLM은 바리스타가 직접 내리는 핸드드립 커피와 같습니다.

한 방울 한 방울 정성스럽게 내리기 때문에 시간이 걸립니다. 두 번째 특수성은 막대한 GPU 메모리 사용량입니다.

GPT-3 급 모델은 파라미터만 350GB에 달합니다. 이를 메모리에 올리려면 고성능 GPU 여러 대가 필요합니다.

게다가 추론 과정에서 발생하는 KV Cache까지 고려하면 메모리 관리가 핵심 과제가 됩니다. 세 번째는 예측 불가능한 출력 길이입니다.

"오늘 날씨 어때?"라는 질문에는 짧은 답변이, "소설을 써줘"라는 요청에는 긴 답변이 생성됩니다. 시스템은 사전에 얼마나 많은 리소스가 필요한지 알 수 없습니다.

이런 특수성 때문에 전통적인 웹 서버 아키텍처로는 LLM을 효율적으로 서빙할 수 없습니다. Nginx의 기본 타임아웃 설정으로는 LLM 응답을 기다릴 수 없고, 일반적인 스레드 풀 방식으로는 GPU 리소스를 효율적으로 활용할 수 없습니다.

실제 현업에서는 어떤 문제가 발생할까요? 동시에 10명의 사용자가 요청을 보내면, 각 요청이 GPU를 점유하려고 경쟁합니다.

메모리가 부족하면 OOM(Out of Memory) 에러가 발생하고, 서버가 죽습니다. 요청을 순차적으로 처리하면 뒤에 있는 사용자는 한참을 기다려야 합니다.

이런 문제들을 해결하기 위해 batching, paged attention, continuous batching 같은 기법들이 등장했습니다. 다음 장에서 배울 vLLM과 TGI는 이런 기법들을 구현한 전문 서빙 프레임워크입니다.

다시 김개발 씨 이야기로 돌아가봅시다. 박시니어 씨의 설명을 들은 후, 김개발 씨는 LLM 서빙이 왜 특별한 접근이 필요한지 이해했습니다.

이제 본격적으로 서빙 프레임워크를 살펴볼 준비가 되었습니다.

실전 팁

💡 - LLM 서빙 시 기본 HTTP 타임아웃을 최소 60초 이상으로 설정하세요

GPU 메모리 모니터링은 필수입니다. nvidia-smi를 항상 확인하세요
동시 요청 수를 GPU 메모리에 맞게 제한해야 OOM을 방지할 수 있습니다

2. vLLM 활용

김개발 씨는 직접 모델 서빙 코드를 작성하다가 곧 한계에 부딪혔습니다. 동시 요청이 조금만 늘어도 메모리가 터지고, 처리 속도는 기대에 한참 못 미쳤습니다.

그때 박시니어 씨가 말했습니다. "vLLM 써봤어?

같은 GPU로 처리량을 몇 배로 늘릴 수 있어."

vLLM은 UC Berkeley에서 개발한 고성능 LLM 서빙 엔진입니다. 핵심 기술인 PagedAttention을 통해 GPU 메모리를 운영체제의 가상 메모리처럼 효율적으로 관리합니다.

기존 대비 최대 24배 높은 처리량을 달성할 수 있습니다.

다음 코드를 살펴봅시다.

# vLLM 기본 서버 실행
from vllm import LLM, SamplingParams

# 모델 로드 (자동으로 GPU 메모리 최적화)
llm = LLM(
    model="meta-llama/Llama-2-7b-chat-hf",
    tensor_parallel_size=1,  # GPU 개수
    gpu_memory_utilization=0.9,  # GPU 메모리 90% 사용
)

# 샘플링 파라미터 설정
sampling_params = SamplingParams(
    temperature=0.7,
    top_p=0.95,
    max_tokens=512,
)

# 여러 요청을 한번에 처리 (continuous batching)
prompts = ["안녕하세요", "오늘 날씨는", "파이썬이란"]
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    print(f"생성된 텍스트: {output.outputs[0].text}")

김개발 씨는 vLLM이라는 이름을 처음 들었습니다. "v가 뭐의 약자예요?" 박시니어 씨가 웃으며 답했습니다.

"virtual memory에서 따온 거야. 이 프레임워크의 핵심 아이디어거든." vLLM의 핵심 기술인 PagedAttention을 이해하려면 먼저 KV Cache를 알아야 합니다.

LLM이 토큰을 생성할 때마다 이전 토큰들의 Key와 Value 값을 저장해둡니다. 이것이 KV Cache입니다.

문제는 이 캐시가 엄청난 메모리를 차지한다는 것입니다. 마치 도서관에서 책을 복사하는 상황을 상상해보세요.

전통적인 방식은 한 사람이 복사기를 독점하는 것과 같습니다. 복사가 끝날 때까지 다른 사람은 기다려야 합니다.

vLLM의 PagedAttention은 복사기를 시간 단위로 나눠 쓰는 것과 같습니다. 한 페이지 복사하고, 다른 사람 차례, 다시 돌아와서 복사.

이렇게 하면 여러 사람이 동시에 작업할 수 있습니다. 기술적으로 설명하면, PagedAttention은 KV Cache를 작은 블록으로 나눕니다.

운영체제가 가상 메모리를 페이지 단위로 관리하는 것과 같은 원리입니다. 이를 통해 메모리 낭비를 최소화하고, 여러 요청을 동시에 효율적으로 처리할 수 있습니다.

vLLM의 또 다른 강점은 continuous batching입니다. 전통적인 batching은 요청들을 모아서 한번에 처리합니다.

하지만 요청마다 생성 길이가 다르면 짧은 요청도 긴 요청이 끝날 때까지 기다려야 합니다. continuous batching은 다릅니다.

짧은 요청이 끝나면 바로 결과를 반환하고, 그 자리에 새로운 요청을 넣습니다. 놀이공원 자유이용권처럼, 빈자리가 나면 바로 다음 손님이 탈 수 있는 것입니다.

설치와 사용법도 간단합니다. pip install vllm 명령 하나로 설치가 완료됩니다.

코드 몇 줄이면 바로 서버를 띄울 수 있습니다. OpenAI API와 호환되는 서버도 제공하므로, 기존에 OpenAI API를 사용하던 코드를 거의 수정 없이 vLLM으로 전환할 수 있습니다.

실무에서 vLLM을 도입하면 어떤 이점이 있을까요? 같은 GPU로 더 많은 동시 사용자를 처리할 수 있습니다.

이는 곧 인프라 비용 절감으로 이어집니다. A100 GPU 한 대로 처리하던 부하를 vLLM으로 최적화하면, GPU 대수를 줄일 수 있습니다.

주의할 점도 있습니다. vLLM은 NVIDIA GPU에 최적화되어 있습니다.

AMD GPU나 Apple Silicon에서는 제한적으로 동작합니다. 또한 모든 모델을 지원하지는 않으므로, 사용하려는 모델이 지원 목록에 있는지 확인해야 합니다.

김개발 씨는 기존 코드를 vLLM으로 교체한 후, 같은 하드웨어에서 처리량이 4배나 증가한 것을 확인했습니다. "이게 바로 올바른 도구를 쓰는 것의 힘이구나." 김개발 씨는 감탄했습니다.

실전 팁

💡 - gpu_memory_utilization을 0.9로 설정하면 메모리를 최대한 활용할 수 있습니다

OpenAI 호환 서버는 python -m vllm.entrypoints.openai.api_server 명령으로 실행합니다
모델 로드 시간이 길다면 --dtype half 옵션으로 FP16을 사용해보세요

3. Text Generation Inference

"vLLM 말고 다른 옵션은 없나요?" 김개발 씨가 물었습니다. 박시니어 씨가 답했습니다.

"Hugging Face에서 만든 TGI도 있어. 특히 Hugging Face 생태계를 많이 쓴다면 TGI가 더 편할 수 있어."

**Text Generation Inference(TGI)**는 Hugging Face에서 개발한 프로덕션 레벨의 LLM 서빙 솔루션입니다. Rust로 작성되어 높은 성능을 제공하며, Docker 기반으로 배포가 간편합니다.

Flash Attention, Paged Attention을 지원하고 Hugging Face Hub와 원활하게 통합됩니다.

다음 코드를 살펴봅시다.

# Docker로 TGI 서버 실행
# docker run --gpus all -p 8080:80 \
#   ghcr.io/huggingface/text-generation-inference:latest \
#   --model-id meta-llama/Llama-2-7b-chat-hf

# Python 클라이언트로 TGI 서버 호출
from huggingface_hub import InferenceClient

client = InferenceClient(model="http://localhost:8080")

# 일반 생성
response = client.text_generation(
    prompt="인공지능의 미래는",
    max_new_tokens=256,
    temperature=0.7,
)
print(response)

# 스트리밍 생성
for token in client.text_generation(
    prompt="파이썬 함수 작성법을 설명해주세요",
    max_new_tokens=512,
    stream=True,
):
    print(token, end="", flush=True)

김개발 씨의 회사는 Hugging Face를 적극 활용하고 있었습니다. 모델도 Hub에서 가져오고, 데이터셋도 Hub에 올려두고 있었습니다.

이런 환경에서 TGI는 자연스러운 선택이었습니다. TGI의 가장 큰 장점은 Hugging Face 생태계와의 통합입니다.

Hub에 있는 모델 ID만 지정하면 자동으로 다운로드하고 서빙합니다. 별도의 모델 변환 작업이 필요 없습니다.

마치 앱스토어에서 앱을 설치하는 것처럼 간단합니다. 모델 이름만 알면 한 줄 명령으로 서버가 뜹니다.

복잡한 설정 파일도, 모델 가중치 다운로드 스크립트도 필요 없습니다. TGI는 Rust로 작성되었습니다.

Python보다 메모리 관리가 효율적이고, 동시성 처리가 뛰어납니다. 네트워크 I/O나 요청 처리 같은 CPU 바운드 작업에서 높은 성능을 발휘합니다.

Docker 기반 배포도 큰 장점입니다. Kubernetes 환경에서 TGI 컨테이너를 쉽게 스케일아웃할 수 있습니다.

Health check 엔드포인트도 기본 제공되어 로드밸런서 연동이 간편합니다. TGI가 지원하는 최적화 기술들을 살펴봅시다.

Flash Attention은 어텐션 연산의 메모리 사용량을 줄이고 속도를 높입니다. Paged Attention은 앞서 배운 것처럼 KV Cache를 효율적으로 관리합니다.

Quantization을 통해 모델 크기를 줄이고 추론 속도를 높일 수 있습니다. TGI의 API는 직관적입니다.

REST API로 호출하거나, Python 클라이언트 라이브러리를 사용할 수 있습니다. 스트리밍도 기본 지원되어 ChatGPT처럼 토큰이 생성되는 대로 응답을 받을 수 있습니다.

vLLM과 비교하면 어떨까요? 벤치마크 결과는 워크로드에 따라 다릅니다.

일반적으로 vLLM이 처리량에서 약간 앞서지만, TGI도 충분히 경쟁력 있는 성능을 보여줍니다. 선택의 기준은 성능보다는 생태계 호환성과 운영 편의성이 될 때가 많습니다.

주의할 점도 있습니다. TGI는 모든 모델 아키텍처를 지원하지 않습니다.

지원 모델 목록을 공식 문서에서 확인해야 합니다. 또한 일부 고급 기능은 특정 하드웨어에서만 동작합니다.

김개발 씨는 팀과 상의 끝에 TGI를 선택했습니다. 이미 Hugging Face 기반으로 MLOps 파이프라인이 구축되어 있었고, Docker 기반 배포 프로세스도 갖춰져 있었기 때문입니다.

"도구는 환경에 맞게 선택하는 거야." 박시니어 씨의 조언이 떠올랐습니다.

실전 팁

💡 - 프로덕션에서는 --sharded true 옵션으로 멀티 GPU 샤딩을 활성화하세요

메모리가 부족하면 --quantize bitsandbytes로 양자화를 적용해보세요
/health 엔드포인트로 서버 상태를 모니터링하세요

4. 스트리밍 응답 구현

"서버는 잘 돌아가는데, 사용자들이 불만이에요." 김개발 씨가 고민을 털어놓았습니다. "응답이 한번에 뿅 하고 나와서, 그 전까지는 아무것도 안 보여요.

ChatGPT처럼 글자가 하나씩 나오게 할 수 없나요?"

스트리밍 응답은 LLM이 토큰을 생성하는 즉시 클라이언트로 전송하는 방식입니다. 전체 응답이 완성될 때까지 기다리지 않아도 되므로 사용자 경험이 크게 향상됩니다.

Server-Sent Events(SSE)나 WebSocket으로 구현합니다.

다음 코드를 살펴봅시다.

# FastAPI로 스트리밍 응답 구현
from fastapi import FastAPI
from fastapi.responses import StreamingResponse
from vllm import LLM, SamplingParams
import asyncio

app = FastAPI()
llm = LLM(model="meta-llama/Llama-2-7b-chat-hf")

async def generate_stream(prompt: str):
    sampling_params = SamplingParams(
        temperature=0.7,
        max_tokens=512,
    )

    # vLLM 스트리밍 생성
    outputs = llm.generate(prompt, sampling_params, use_tqdm=False)

    for output in outputs:
        for token in output.outputs[0].token_ids:
            text = tokenizer.decode([token])
            yield f"data: {text}\n\n"  # SSE 형식
            await asyncio.sleep(0.01)

    yield "data: [DONE]\n\n"

@app.get("/chat")
async def chat(prompt: str):
    return StreamingResponse(
        generate_stream(prompt),
        media_type="text/event-stream"
    )

김개발 씨는 회사 서비스의 사용자 피드백을 분석하다가 흥미로운 사실을 발견했습니다. 실제 응답 시간은 같은데, 스트리밍으로 보여주면 사용자들이 더 빠르다고 느낀다는 것이었습니다.

이것은 체감 응답 시간과 실제 응답 시간의 차이입니다. 레스토랑에서 음식이 나오기 전에 빵과 물을 먼저 주는 것과 같은 원리입니다.

기다리는 동안 뭔가 보이면 덜 지루하게 느껴집니다. 스트리밍의 기술적 원리를 살펴봅시다.

LLM은 토큰을 순차적으로 생성합니다. 첫 번째 토큰이 생성되면 바로 클라이언트로 보내고, 두 번째 토큰이 생성되면 또 보냅니다.

전체 응답을 기다릴 필요가 없습니다. HTTP에서 스트리밍을 구현하는 방법은 크게 세 가지입니다.

Server-Sent Events(SSE), WebSocket, HTTP/2 Server Push입니다. LLM 서비스에서는 주로 SSE를 사용합니다.

SSE는 단방향 통신에 적합합니다. 클라이언트가 요청을 보내면 서버가 지속적으로 데이터를 푸시합니다.

HTTP 기반이므로 방화벽 문제가 적고, 구현도 간단합니다. ChatGPT, Claude 같은 대부분의 AI 서비스가 SSE를 사용합니다.

코드를 살펴보면, FastAPI의 StreamingResponse를 사용합니다. 제너레이터 함수에서 yield로 데이터를 반환하면, 클라이언트는 데이터가 올 때마다 받아볼 수 있습니다.

media_type을 "text/event-stream"으로 지정하면 SSE 프로토콜을 따릅니다. 클라이언트 측 구현도 중요합니다.

브라우저에서는 EventSource API를 사용합니다. JavaScript로 몇 줄이면 스트리밍 응답을 받아 화면에 표시할 수 있습니다.

React나 Vue 같은 프레임워크에서도 쉽게 통합할 수 있습니다. 스트리밍 구현 시 주의할 점이 있습니다.

버퍼링 문제입니다. 중간에 있는 프록시나 로드밸런서가 응답을 버퍼링하면 스트리밍 효과가 사라집니다.

Nginx를 사용한다면 proxy_buffering off 설정이 필요합니다. 에러 처리도 고려해야 합니다.

스트리밍 중에 에러가 발생하면 어떻게 할까요? 이미 일부 응답이 전송된 상태이므로 HTTP 상태 코드로 에러를 알릴 수 없습니다.

보통 특별한 에러 메시지를 스트림에 포함시키는 방식을 사용합니다. 실무에서 스트리밍은 거의 필수입니다.

특히 긴 응답을 생성하는 경우, 스트리밍 없이는 사용자가 수십 초를 빈 화면만 보고 기다려야 합니다. 스트리밍을 적용하면 첫 토큰이 100ms 안에 보이기 시작합니다.

김개발 씨는 스트리밍을 적용한 후, 사용자 만족도 점수가 눈에 띄게 상승한 것을 확인했습니다. 실제 성능은 같지만, 사용자 경험은 완전히 달라졌습니다.

실전 팁

💡 - Nginx 뒤에서 스트리밍을 사용한다면 proxy_buffering off 설정을 잊지 마세요

프론트엔드에서 EventSource 대신 fetch API의 ReadableStream을 사용할 수도 있습니다
토큰 사이에 약간의 딜레이를 주면 타이핑 효과를 연출할 수 있습니다

5. 토큰 사용량 관리

"이번 달 GPU 비용이 예상의 3배가 나왔어요." 김개발 씨는 청구서를 보고 깜짝 놀랐습니다. 박시니어 씨가 물었습니다.

"토큰 사용량 모니터링은 하고 있어?" 김개발 씨는 고개를 저었습니다. 토큰이 뭔지는 알지만, 관리는 전혀 하고 있지 않았습니다.

토큰은 LLM이 텍스트를 처리하는 기본 단위입니다. 입력 토큰과 출력 토큰 모두 비용과 지연 시간에 영향을 미칩니다.

토큰 사용량을 측정하고 제한하는 것은 비용 관리와 시스템 안정성의 핵심입니다.

다음 코드를 살펴봅시다.

# 토큰 카운팅 및 제한 구현
import tiktoken
from functools import wraps

# 토큰 카운터 초기화 (GPT 모델 기준)
encoder = tiktoken.get_encoding("cl100k_base")

def count_tokens(text: str) -> int:
    """텍스트의 토큰 수를 계산합니다"""
    return len(encoder.encode(text))

# 토큰 제한 데코레이터
def limit_tokens(max_input: int = 4000, max_output: int = 2000):
    def decorator(func):
        @wraps(func)
        async def wrapper(prompt: str, *args, **kwargs):
            input_tokens = count_tokens(prompt)
            if input_tokens > max_input:
                raise ValueError(f"입력이 {max_input} 토큰을 초과했습니다")

            # 출력 토큰 제한을 파라미터로 전달
            kwargs['max_tokens'] = min(
                kwargs.get('max_tokens', max_output),
                max_output
            )
            return await func(prompt, *args, **kwargs)
        return wrapper
    return decorator

@limit_tokens(max_input=4000, max_output=1000)
async def generate(prompt: str, max_tokens: int = 500):
    # LLM 호출 로직
    pass

김개발 씨는 토큰이라는 개념을 다시 한번 정리해보기로 했습니다. 토큰은 LLM이 이해하는 텍스트의 최소 단위입니다.

영어에서는 대략 단어 하나가 1~~2 토큰, 한국어에서는 한 글자가 1~~3 토큰 정도입니다. 쉽게 비유하자면, 토큰은 택시 미터기의 기본 요금 단위와 같습니다.

거리가 늘어날수록 요금이 올라가듯, 토큰 수가 늘어날수록 비용이 증가합니다. 토큰 비용은 입력과 출력으로 나뉩니다.

보통 출력 토큰이 입력 토큰보다 비쌉니다. OpenAI GPT-4 기준으로 출력 토큰 비용이 입력의 2~3배입니다.

따라서 출력 길이를 관리하는 것이 비용 절감의 핵심입니다. 토큰 사용량은 어떻게 측정할까요?

tiktoken 라이브러리를 사용하면 텍스트의 토큰 수를 정확히 계산할 수 있습니다. OpenAI 모델의 토크나이저를 그대로 사용하므로 신뢰할 수 있습니다.

코드에서 count_tokens 함수를 보면, tiktoken encoder로 텍스트를 인코딩한 후 길이를 반환합니다. 이 값을 로깅하고 집계하면 사용량을 추적할 수 있습니다.

토큰 제한도 중요합니다. 악의적인 사용자가 엄청나게 긴 프롬프트를 보내면 어떻게 될까요?

서버 리소스가 고갈되고 다른 사용자에게 영향을 줍니다. 입력 토큰 제한은 이런 공격을 방어합니다.

출력 토큰 제한도 필수입니다. max_tokens 파라미터 없이 생성하면, 모델이 stop 토큰을 생성할 때까지 계속 출력합니다.

예상치 못하게 수천 토큰의 응답이 생성될 수 있습니다. 실무에서는 사용자별 할당량 시스템을 구축합니다.

무료 사용자는 하루 10,000 토큰, 유료 사용자는 100,000 토큰 같은 식입니다. Redis를 사용해 실시간으로 사용량을 추적하고 제한합니다.

모니터링 대시보드도 갖춰야 합니다. Prometheus와 Grafana를 연동하면 토큰 사용량 추이, 사용자별 분포, 비용 예측 등을 시각화할 수 있습니다.

이상 패턴이 감지되면 알림을 보내도록 설정합니다. 주의할 점도 있습니다.

토큰 카운팅은 정확한 토크나이저를 사용해야 합니다. 모델마다 토크나이저가 다르므로, 사용하는 모델에 맞는 토크나이저를 선택해야 합니다.

Llama 모델은 tiktoken이 아닌 SentencePiece를 사용합니다. 김개발 씨는 토큰 모니터링 시스템을 구축한 후, 어떤 기능이 토큰을 가장 많이 소비하는지 파악할 수 있게 되었습니다.

데이터를 기반으로 프롬프트를 최적화하자 비용이 30% 줄었습니다.

실전 팁

💡 - 프롬프트 템플릿의 토큰 수를 미리 계산해두면 런타임 오버헤드를 줄일 수 있습니다

시스템 프롬프트가 길다면, 자주 바뀌지 않는 부분을 캐싱하는 것을 고려하세요
한국어는 영어보다 토큰 효율이 낮으므로, 비용 계획 시 이를 반영해야 합니다

6. 비용 최적화 전략

"토큰 관리도 하고 있는데, 아직도 비용이 만만치 않아요." 김개발 씨의 고민은 깊어졌습니다. 박시니어 씨가 말했습니다.

"비용 최적화는 토큰만의 문제가 아니야. 모델 선택, 캐싱, 배치 처리까지 전체적인 전략이 필요해."

LLM 비용 최적화는 단순히 토큰을 줄이는 것을 넘어 전체 시스템 관점에서 접근해야 합니다. 적절한 모델 선택, 프롬프트 최적화, 응답 캐싱, 양자화 적용 등 다양한 기법을 조합하여 품질을 유지하면서 비용을 절감합니다.

다음 코드를 살펴봅시다.

# 종합적인 비용 최적화 시스템
import hashlib
from functools import lru_cache
import redis

redis_client = redis.Redis(host='localhost', port=6379)

class CostOptimizedLLM:
    def __init__(self):
        # 용도별 모델 분리
        self.models = {
            'simple': 'llama-7b',      # 간단한 작업용 (저비용)
            'standard': 'llama-13b',    # 일반 작업용
            'complex': 'llama-70b',     # 복잡한 작업용 (고비용)
        }

    def _get_cache_key(self, prompt: str) -> str:
        return f"llm:{hashlib.md5(prompt.encode()).hexdigest()}"

    async def generate(self, prompt: str, complexity: str = 'standard'):
        # 1단계: 캐시 확인
        cache_key = self._get_cache_key(prompt)
        cached = redis_client.get(cache_key)
        if cached:
            return cached.decode()  # 캐시 히트: 비용 0

        # 2단계: 복잡도에 맞는 모델 선택
        model = self.models[complexity]

        # 3단계: 생성 및 캐싱
        result = await self._call_model(model, prompt)
        redis_client.setex(cache_key, 3600, result)  # 1시간 캐싱

        return result

김개발 씨는 비용 최적화의 세계로 들어섰습니다. 단순히 토큰을 줄이는 것만으로는 한계가 있었습니다.

더 근본적인 접근이 필요했습니다. 첫 번째 전략은 응답 캐싱입니다.

같은 질문에 같은 답을 반복해서 생성할 필요가 있을까요? "파이썬이란 무엇인가요?"라는 질문에 매번 새로운 응답을 생성하는 것은 낭비입니다.

캐싱은 마치 단골손님 전용 메뉴판과 같습니다. 자주 오는 손님이 항상 시키는 메뉴는 미리 준비해두면 빠르게 제공할 수 있습니다.

캐시 히트율이 30%만 되어도 비용이 30% 절감됩니다. 두 번째 전략은 모델 티어링입니다.

모든 요청에 가장 큰 모델을 사용할 필요는 없습니다. "안녕"에 대한 응답에 GPT-4를 쓸 필요가 있을까요?

간단한 인사말은 작은 모델로도 충분합니다. 실무에서는 요청을 분류하는 라우터를 만듭니다.

간단한 질문은 7B 모델로, 복잡한 분석은 70B 모델로 라우팅합니다. 작은 모델의 비용은 큰 모델의 1/10 수준이므로 효과가 큽니다.

세 번째 전략은 프롬프트 최적화입니다. 같은 의미를 더 적은 토큰으로 전달할 수 있다면 그렇게 해야 합니다.

시스템 프롬프트에서 불필요한 설명을 제거하고, 핵심만 남깁니다. 프롬프트 압축 기법도 있습니다.

긴 문서를 요약하거나, 중요한 부분만 추출하여 프롬프트에 포함시킵니다. RAG(Retrieval-Augmented Generation) 시스템에서 특히 효과적입니다.

네 번째 전략은 **양자화(Quantization)**입니다. 모델의 가중치를 FP16에서 INT8, 심지어 INT4로 줄이면 메모리 사용량과 연산 비용이 크게 감소합니다.

품질 저하는 생각보다 적습니다. 다섯 번째 전략은 배치 처리입니다.

실시간 응답이 필요 없는 작업은 모아서 처리합니다. 야간에 배치로 처리하면 GPU를 더 효율적으로 활용할 수 있습니다.

여섯 번째 전략은 스팟 인스턴스 활용입니다. AWS나 GCP의 스팟 인스턴스는 온디맨드 대비 70~90% 저렴합니다.

중단에 대비한 체크포인팅만 잘 구현하면 큰 비용 절감이 가능합니다. 주의할 점도 있습니다.

비용 최적화가 품질 저하로 이어지면 안 됩니다. 사용자 경험을 모니터링하면서 최적의 균형점을 찾아야 합니다.

A/B 테스트로 작은 모델이 충분한지 검증하세요. 또한 캐싱 전략을 잘못 설계하면 오히려 문제가 됩니다.

개인화된 응답을 캐싱하면 다른 사용자에게 잘못된 정보가 전달될 수 있습니다. 캐시 키 설계가 중요합니다.

김개발 씨는 6개월에 걸쳐 이 모든 전략을 단계적으로 도입했습니다. 결과는 놀라웠습니다.

서비스 품질은 유지하면서 비용이 60% 줄었습니다. "비용 최적화는 마라톤이야.

꾸준히 개선해 나가는 거지." 박시니어 씨의 말이 떠올랐습니다.

실전 팁

💡 - 캐시 TTL은 콘텐츠 특성에 맞게 설정하세요. 정적 정보는 길게, 시의성 있는 정보는 짧게

모델 티어링을 위한 분류 모델은 규칙 기반으로 시작해서 점진적으로 고도화하세요
비용 대시보드를 만들어 팀 전체가 비용을 인식하도록 하세요

이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

#Python#LLM#vLLM#TGI#Streaming#TokenManagement#CostOptimization#LLM,Serving,MLOps

LLM 서빙 전략 완벽 가이드

# LLM 서빙 전략 완벽 가이드 대규모 언어 모델을 실제 서비스에 배포하고 운영하는 방법을 다룹니다. vLLM, TGI 같은 서빙 프레임워크부터 스트리밍 응답, 비용 최적화까지 실무에서 바로 적용할 수 있는 전략을 담았습니다. --- ## 목차 1. [LLM_서빙의_특수성](#llm-서빙의-특수성) 2. [vLLM_활용](#vllm-활용) 3. [Text_Generation_Inference](#text-generation-inference) 4. [스트리밍_응답_구현](#스트리밍-응답-구현) 5. [토큰_사용량_관리](#토큰-사용량-관리) 6. [비용_최적화_전략](#비용-최적화-전략) --- ## 1. LLM_서빙의_특수성 김개발 씨는 회사에서 ChatGPT 같은 AI 챗봇을 직접 만들어보라는 업무를 받았습니다. "모델 학습은 어떻게든 했는데, 이걸 어떻게 서비스로 만들지?" 일반적인 웹 서비스와는 뭔가 다른 것 같은데, 정확히 무엇이 다른 걸까요? **LLM 서빙**은 일반적인 API 서버와 근본적으로 다릅니다. 한 번의 요청이 수십 초가 걸릴 수 있고, GPU 메모리를 GB 단위로 사용하며, 응답 길이를 미리 예측하기 어렵습니다. 마치 뷔페 레스토랑과 고급 코스 요리 전문점의 차이와 같습니다. 다음 코드를 살펴봅시다. ```python # 일반 API vs LLM API의 차이점 import time import torch # 일반 API: 즉시 응답, 예측 가능한 리소스 def normal_api(request): result = database.query(request) # 밀리초 단위 return result # 응답 크기 예측 가능 # LLM API: 긴 응답 시간, 동적 리소스 사용 def llm_api(prompt): # GPU 메모리 수 GB 사용 # 토큰 하나씩 생성 (autoregressive) tokens = [] for _ in range(max_tokens): # 반복 횟수 미정 next_token = model.generate_next(tokens) tokens.append(next_token) if next_token == EOS: # 언제 끝날지 모름 break return tokens # 수 초 ~ 수십 초 소요 ``` 김개발 씨는 입사 2년 차 백엔드 개발자입니다. 평소처럼 REST API를 만들면 될 줄 알았는데, LLM 서�스는 뭔가 달랐습니다. 첫 번째 테스트에서 서버가 30초 동안 응답하지 않자, 로드밸런서가 타임아웃 에러를 뿜어냈습니다. 선배 개발자 박시니어 씨가 다가와 말했습니다. "LLM 서빙은 일반 API와 완전히 다른 세계야. 세 가지 특수성을 이해해야 해." 그렇다면 LLM 서빙만의 특수성은 무엇일까요? 첫 번째는 **긴 응답 시간**입니다. 일반적인 데이터베이스 쿼리는 밀리초 단위로 완료됩니다. 하지만 LLM은 토큰을 하나씩 순차적으로 생성합니다. 1000개의 토큰을 생성하려면 1000번의 forward pass가 필요합니다. 이것을 **autoregressive generation**이라고 부릅니다. 쉽게 비유하자면, 일반 API는 자판기와 같습니다. 버튼을 누르면 즉시 음료가 나옵니다. 반면 LLM은 바리스타가 직접 내리는 핸드드립 커피와 같습니다. 한 방울 한 방울 정성스럽게 내리기 때문에 시간이 걸립니다. 두 번째 특수성은 **막대한 GPU 메모리 사용량**입니다. GPT-3 급 모델은 파라미터만 350GB에 달합니다. 이를 메모리에 올리려면 고성능 GPU 여러 대가 필요합니다. 게다가 추론 과정에서 발생하는 **KV Cache**까지 고려하면 메모리 관리가 핵심 과제가 됩니다. 세 번째는 **예측 불가능한 출력 길이**입니다. "오늘 날씨 어때?"라는 질문에는 짧은 답변이, "소설을 써줘"라는 요청에는 긴 답변이 생성됩니다. 시스템은 사전에 얼마나 많은 리소스가 필요한지 알 수 없습니다. 이런 특수성 때문에 전통적인 웹 서버 아키텍처로는 LLM을 효율적으로 서빙할 수 없습니다. Nginx의 기본 타임아웃 설정으로는 LLM 응답을 기다릴 수 없고, 일반적인 스레드 풀 방식으로는 GPU 리소스를 효율적으로 활용할 수 없습니다. 실제 현업에서는 어떤 문제가 발생할까요? 동시에 10명의 사용자가 요청을 보내면, 각 요청이 GPU를 점유하려고 경쟁합니다. 메모리가 부족하면 OOM(Out of Memory) 에러가 발생하고, 서버가 죽습니다. 요청을 순차적으로 처리하면 뒤에 있는 사용자는 한참을 기다려야 합니다. 이런 문제들을 해결하기 위해 **batching**, **paged attention**, **continuous batching** 같은 기법들이 등장했습니다. 다음 장에서 배울 vLLM과 TGI는 이런 기법들을 구현한 전문 서빙 프레임워크입니다. 다시 김개발 씨 이야기로 돌아가봅시다. 박시니어 씨의 설명을 들은 후, 김개발 씨는 LLM 서빙이 왜 특별한 접근이 필요한지 이해했습니다. 이제 본격적으로 서빙 프레임워크를 살펴볼 준비가 되었습니다. **실전 팁** 💡 - LLM 서빙 시 기본 HTTP 타임아웃을 최소 60초 이상으로 설정하세요 - GPU 메모리 모니터링은 필수입니다. nvidia-smi를 항상 확인하세요 - 동시 요청 수를 GPU 메모리에 맞게 제한해야 OOM을 방지할 수 있습니다 --- ## 2. vLLM_활용 김개발 씨는 직접 모델 서빙 코드를 작성하다가 곧 한계에 부딪혔습니다. 동시 요청이 조금만 늘어도 메모리가 터지고, 처리 속도는 기대에 한참 못 미쳤습니다. 그때 박시니어 씨가 말했습니다. "vLLM 써봤어? 같은 GPU로 처리량을 몇 배로 늘릴 수 있어." **vLLM**은 UC Berkeley에서 개발한 고성능 LLM 서빙 엔진입니다. 핵심 기술인 **PagedAttention**을 통해 GPU 메모리를 운영체제의 가상 메모리처럼 효율적으로 관리합니다. 기존 대비 최대 24배 높은 처리량을 달성할 수 있습니다. 다음 코드를 살펴봅시다. ```python # vLLM 기본 서버 실행 from vllm import LLM, SamplingParams # 모델 로드 (자동으로 GPU 메모리 최적화) llm = LLM( model="meta-llama/Llama-2-7b-chat-hf", tensor_parallel_size=1, # GPU 개수 gpu_memory_utilization=0.9, # GPU 메모리 90% 사용 ) # 샘플링 파라미터 설정 sampling_params = SamplingParams( temperature=0.7, top_p=0.95, max_tokens=512, ) # 여러 요청을 한번에 처리 (continuous batching) prompts = ["안녕하세요", "오늘 날씨는", "파이썬이란"] outputs = llm.generate(prompts, sampling_params) for output in outputs: print(f"생성된 텍스트: {output.outputs[0].text}") ``` 김개발 씨는 vLLM이라는 이름을 처음 들었습니다. "v가 뭐의 약자예요?" 박시니어 씨가 웃으며 답했습니다. "virtual memory에서 따온 거야. 이 프레임워크의 핵심 아이디어거든." vLLM의 핵심 기술인 **PagedAttention**을 이해하려면 먼저 KV Cache를 알아야 합니다. LLM이 토큰을 생성할 때마다 이전 토큰들의 Key와 Value 값을 저장해둡니다. 이것이 KV Cache입니다. 문제는 이 캐시가 엄청난 메모리를 차지한다는 것입니다. 마치 도서관에서 책을 복사하는 상황을 상상해보세요. 전통적인 방식은 한 사람이 복사기를 독점하는 것과 같습니다. 복사가 끝날 때까지 다른 사람은 기다려야 합니다. vLLM의 PagedAttention은 복사기를 시간 단위로 나눠 쓰는 것과 같습니다. 한 페이지 복사하고, 다른 사람 차례, 다시 돌아와서 복사. 이렇게 하면 여러 사람이 동시에 작업할 수 있습니다. 기술적으로 설명하면, PagedAttention은 KV Cache를 작은 블록으로 나눕니다. 운영체제가 가상 메모리를 페이지 단위로 관리하는 것과 같은 원리입니다. 이를 통해 메모리 낭비를 최소화하고, 여러 요청을 동시에 효율적으로 처리할 수 있습니다. vLLM의 또 다른 강점은 **continuous batching**입니다. 전통적인 batching은 요청들을 모아서 한번에 처리합니다. 하지만 요청마다 생성 길이가 다르면 짧은 요청도 긴 요청이 끝날 때까지 기다려야 합니다. continuous batching은 다릅니다. 짧은 요청이 끝나면 바로 결과를 반환하고, 그 자리에 새로운 요청을 넣습니다. 놀이공원 자유이용권처럼, 빈자리가 나면 바로 다음 손님이 탈 수 있는 것입니다. 설치와 사용법도 간단합니다. pip install vllm 명령 하나로 설치가 완료됩니다. 코드 몇 줄이면 바로 서버를 띄울 수 있습니다. OpenAI API와 호환되는 서버도 제공하므로, 기존에 OpenAI API를 사용하던 코드를 거의 수정 없이 vLLM으로 전환할 수 있습니다. 실무에서 vLLM을 도입하면 어떤 이점이 있을까요? 같은 GPU로 더 많은 동시 사용자를 처리할 수 있습니다. 이는 곧 인프라 비용 절감으로 이어집니다. A100 GPU 한 대로 처리하던 부하를 vLLM으로 최적화하면, GPU 대수를 줄일 수 있습니다. 주의할 점도 있습니다. vLLM은 NVIDIA GPU에 최적화되어 있습니다. AMD GPU나 Apple Silicon에서는 제한적으로 동작합니다. 또한 모든 모델을 지원하지는 않으므로, 사용하려는 모델이 지원 목록에 있는지 확인해야 합니다. 김개발 씨는 기존 코드를 vLLM으로 교체한 후, 같은 하드웨어에서 처리량이 4배나 증가한 것을 확인했습니다. "이게 바로 올바른 도구를 쓰는 것의 힘이구나." 김개발 씨는 감탄했습니다. **실전 팁** 💡 - gpu_memory_utilization을 0.9로 설정하면 메모리를 최대한 활용할 수 있습니다 - OpenAI 호환 서버는 python -m vllm.entrypoints.openai.api_server 명령으로 실행합니다 - 모델 로드 시간이 길다면 --dtype half 옵션으로 FP16을 사용해보세요 --- ## 3. Text_Generation_Inference "vLLM 말고 다른 옵션은 없나요?" 김개발 씨가 물었습니다. 박시니어 씨가 답했습니다. "Hugging Face에서 만든 TGI도 있어. 특히 Hugging Face 생태계를 많이 쓴다면 TGI가 더 편할 수 있어." **Text Generation Inference(TGI)**는 Hugging Face에서 개발한 프로덕션 레벨의 LLM 서빙 솔루션입니다. Rust로 작성되어 높은 성능을 제공하며, Docker 기반으로 배포가 간편합니다. Flash Attention, Paged Attention을 지원하고 Hugging Face Hub와 원활하게 통합됩니다. 다음 코드를 살펴봅시다. ```python # Docker로 TGI 서버 실행 # docker run --gpus all -p 8080:80 \ # ghcr.io/huggingface/text-generation-inference:latest \ # --model-id meta-llama/Llama-2-7b-chat-hf # Python 클라이언트로 TGI 서버 호출 from huggingface_hub import InferenceClient client = InferenceClient(model="http://localhost:8080") # 일반 생성 response = client.text_generation( prompt="인공지능의 미래는", max_new_tokens=256, temperature=0.7, ) print(response) # 스트리밍 생성 for token in client.text_generation( prompt="파이썬 함수 작성법을 설명해주세요", max_new_tokens=512, stream=True, ): print(token, end="", flush=True) ``` 김개발 씨의 회사는 Hugging Face를 적극 활용하고 있었습니다. 모델도 Hub에서 가져오고, 데이터셋도 Hub에 올려두고 있었습니다. 이런 환경에서 TGI는 자연스러운 선택이었습니다. TGI의 가장 큰 장점은 **Hugging Face 생태계와의 통합**입니다. Hub에 있는 모델 ID만 지정하면 자동으로 다운로드하고 서빙합니다. 별도의 모델 변환 작업이 필요 없습니다. 마치 앱스토어에서 앱을 설치하는 것처럼 간단합니다. 모델 이름만 알면 한 줄 명령으로 서버가 뜹니다. 복잡한 설정 파일도, 모델 가중치 다운로드 스크립트도 필요 없습니다. TGI는 **Rust**로 작성되었습니다. Python보다 메모리 관리가 효율적이고, 동시성 처리가 뛰어납니다. 네트워크 I/O나 요청 처리 같은 CPU 바운드 작업에서 높은 성능을 발휘합니다. Docker 기반 배포도 큰 장점입니다. Kubernetes 환경에서 TGI 컨테이너를 쉽게 스케일아웃할 수 있습니다. Health check 엔드포인트도 기본 제공되어 로드밸런서 연동이 간편합니다. TGI가 지원하는 최적화 기술들을 살펴봅시다. **Flash Attention**은 어텐션 연산의 메모리 사용량을 줄이고 속도를 높입니다. **Paged Attention**은 앞서 배운 것처럼 KV Cache를 효율적으로 관리합니다. **Quantization**을 통해 모델 크기를 줄이고 추론 속도를 높일 수 있습니다. TGI의 API는 직관적입니다. REST API로 호출하거나, Python 클라이언트 라이브러리를 사용할 수 있습니다. 스트리밍도 기본 지원되어 ChatGPT처럼 토큰이 생성되는 대로 응답을 받을 수 있습니다. vLLM과 비교하면 어떨까요? 벤치마크 결과는 워크로드에 따라 다릅니다. 일반적으로 vLLM이 처리량에서 약간 앞서지만, TGI도 충분히 경쟁력 있는 성능을 보여줍니다. 선택의 기준은 성능보다는 생태계 호환성과 운영 편의성이 될 때가 많습니다. 주의할 점도 있습니다. TGI는 모든 모델 아키텍처를 지원하지 않습니다. 지원 모델 목록을 공식 문서에서 확인해야 합니다. 또한 일부 고급 기능은 특정 하드웨어에서만 동작합니다. 김개발 씨는 팀과 상의 끝에 TGI를 선택했습니다. 이미 Hugging Face 기반으로 MLOps 파이프라인이 구축되어 있었고, Docker 기반 배포 프로세스도 갖춰져 있었기 때문입니다. "도구는 환경에 맞게 선택하는 거야." 박시니어 씨의 조언이 떠올랐습니다. **실전 팁** 💡 - 프로덕션에서는 --sharded true 옵션으로 멀티 GPU 샤딩을 활성화하세요 - 메모리가 부족하면 --quantize bitsandbytes로 양자화를 적용해보세요 - /health 엔드포인트로 서버 상태를 모니터링하세요 --- ## 4. 스트리밍_응답_구현 "서버는 잘 돌아가는데, 사용자들이 불만이에요." 김개발 씨가 고민을 털어놓았습니다. "응답이 한번에 뿅 하고 나와서, 그 전까지는 아무것도 안 보여요. ChatGPT처럼 글자가 하나씩 나오게 할 수 없나요?" **스트리밍 응답**은 LLM이 토큰을 생성하는 즉시 클라이언트로 전송하는 방식입니다. 전체 응답이 완성될 때까지 기다리지 않아도 되므로 사용자 경험이 크게 향상됩니다. Server-Sent Events(SSE)나 WebSocket으로 구현합니다. 다음 코드를 살펴봅시다. ```python # FastAPI로 스트리밍 응답 구현 from fastapi import FastAPI from fastapi.responses import StreamingResponse from vllm import LLM, SamplingParams import asyncio app = FastAPI() llm = LLM(model="meta-llama/Llama-2-7b-chat-hf") async def generate_stream(prompt: str): sampling_params = SamplingParams( temperature=0.7, max_tokens=512, ) # vLLM 스트리밍 생성 outputs = llm.generate(prompt, sampling_params, use_tqdm=False) for output in outputs: for token in output.outputs[0].token_ids: text = tokenizer.decode([token]) yield f"data: {text}\n\n" # SSE 형식 await asyncio.sleep(0.01) yield "data: [DONE]\n\n" @app.get("/chat") async def chat(prompt: str): return StreamingResponse( generate_stream(prompt), media_type="text/event-stream" ) ``` 김개발 씨는 회사 서비스의 사용자 피드백을 분석하다가 흥미로운 사실을 발견했습니다. 실제 응답 시간은 같은데, 스트리밍으로 보여주면 사용자들이 더 빠르다고 느낀다는 것이었습니다. 이것은 **체감 응답 시간**과 **실제 응답 시간**의 차이입니다. 레스토랑에서 음식이 나오기 전에 빵과 물을 먼저 주는 것과 같은 원리입니다. 기다리는 동안 뭔가 보이면 덜 지루하게 느껴집니다. 스트리밍의 기술적 원리를 살펴봅시다. LLM은 토큰을 **순차적으로** 생성합니다. 첫 번째 토큰이 생성되면 바로 클라이언트로 보내고, 두 번째 토큰이 생성되면 또 보냅니다. 전체 응답을 기다릴 필요가 없습니다. HTTP에서 스트리밍을 구현하는 방법은 크게 세 가지입니다. **Server-Sent Events(SSE)**, **WebSocket**, **HTTP/2 Server Push**입니다. LLM 서비스에서는 주로 SSE를 사용합니다. SSE는 단방향 통신에 적합합니다. 클라이언트가 요청을 보내면 서버가 지속적으로 데이터를 푸시합니다. HTTP 기반이므로 방화벽 문제가 적고, 구현도 간단합니다. ChatGPT, Claude 같은 대부분의 AI 서비스가 SSE를 사용합니다. 코드를 살펴보면, FastAPI의 StreamingResponse를 사용합니다. 제너레이터 함수에서 yield로 데이터를 반환하면, 클라이언트는 데이터가 올 때마다 받아볼 수 있습니다. media_type을 "text/event-stream"으로 지정하면 SSE 프로토콜을 따릅니다. 클라이언트 측 구현도 중요합니다. 브라우저에서는 EventSource API를 사용합니다. JavaScript로 몇 줄이면 스트리밍 응답을 받아 화면에 표시할 수 있습니다. React나 Vue 같은 프레임워크에서도 쉽게 통합할 수 있습니다. 스트리밍 구현 시 주의할 점이 있습니다. **버퍼링** 문제입니다. 중간에 있는 프록시나 로드밸런서가 응답을 버퍼링하면 스트리밍 효과가 사라집니다. Nginx를 사용한다면 proxy_buffering off 설정이 필요합니다. 에러 처리도 고려해야 합니다. 스트리밍 중에 에러가 발생하면 어떻게 할까요? 이미 일부 응답이 전송된 상태이므로 HTTP 상태 코드로 에러를 알릴 수 없습니다. 보통 특별한 에러 메시지를 스트림에 포함시키는 방식을 사용합니다. 실무에서 스트리밍은 거의 필수입니다. 특히 긴 응답을 생성하는 경우, 스트리밍 없이는 사용자가 수십 초를 빈 화면만 보고 기다려야 합니다. 스트리밍을 적용하면 첫 토큰이 100ms 안에 보이기 시작합니다. 김개발 씨는 스트리밍을 적용한 후, 사용자 만족도 점수가 눈에 띄게 상승한 것을 확인했습니다. 실제 성능은 같지만, 사용자 경험은 완전히 달라졌습니다. **실전 팁** 💡 - Nginx 뒤에서 스트리밍을 사용한다면 proxy_buffering off 설정을 잊지 마세요 - 프론트엔드에서 EventSource 대신 fetch API의 ReadableStream을 사용할 수도 있습니다 - 토큰 사이에 약간의 딜레이를 주면 타이핑 효과를 연출할 수 있습니다 --- ## 5. 토큰_사용량_관리 "이번 달 GPU 비용이 예상의 3배가 나왔어요." 김개발 씨는 청구서를 보고 깜짝 놀랐습니다. 박시니어 씨가 물었습니다. "토큰 사용량 모니터링은 하고 있어?" 김개발 씨는 고개를 저었습니다. 토큰이 뭔지는 알지만, 관리는 전혀 하고 있지 않았습니다. **토큰**은 LLM이 텍스트를 처리하는 기본 단위입니다. 입력 토큰과 출력 토큰 모두 비용과 지연 시간에 영향을 미칩니다. 토큰 사용량을 측정하고 제한하는 것은 비용 관리와 시스템 안정성의 핵심입니다. 다음 코드를 살펴봅시다. ```python # 토큰 카운팅 및 제한 구현 import tiktoken from functools import wraps # 토큰 카운터 초기화 (GPT 모델 기준) encoder = tiktoken.get_encoding("cl100k_base") def count_tokens(text: str) -> int: """텍스트의 토큰 수를 계산합니다""" return len(encoder.encode(text)) # 토큰 제한 데코레이터 def limit_tokens(max_input: int = 4000, max_output: int = 2000): def decorator(func): @wraps(func) async def wrapper(prompt: str, *args, **kwargs): input_tokens = count_tokens(prompt) if input_tokens > max_input: raise ValueError(f"입력이 {max_input} 토큰을 초과했습니다") # 출력 토큰 제한을 파라미터로 전달 kwargs['max_tokens'] = min( kwargs.get('max_tokens', max_output), max_output ) return await func(prompt, *args, **kwargs) return wrapper return decorator @limit_tokens(max_input=4000, max_output=1000) async def generate(prompt: str, max_tokens: int = 500): # LLM 호출 로직 pass ``` 김개발 씨는 토큰이라는 개념을 다시 한번 정리해보기로 했습니다. 토큰은 LLM이 이해하는 텍스트의 최소 단위입니다. 영어에서는 대략 단어 하나가 1~2 토큰, 한국어에서는 한 글자가 1~3 토큰 정도입니다. 쉽게 비유하자면, 토큰은 택시 미터기의 기본 요금 단위와 같습니다. 거리가 늘어날수록 요금이 올라가듯, 토큰 수가 늘어날수록 비용이 증가합니다. 토큰 비용은 **입력**과 **출력**으로 나뉩니다. 보통 출력 토큰이 입력 토큰보다 비쌉니다. OpenAI GPT-4 기준으로 출력 토큰 비용이 입력의 2~3배입니다. 따라서 출력 길이를 관리하는 것이 비용 절감의 핵심입니다. 토큰 사용량은 어떻게 측정할까요? **tiktoken** 라이브러리를 사용하면 텍스트의 토큰 수를 정확히 계산할 수 있습니다. OpenAI 모델의 토크나이저를 그대로 사용하므로 신뢰할 수 있습니다. 코드에서 count_tokens 함수를 보면, tiktoken encoder로 텍스트를 인코딩한 후 길이를 반환합니다. 이 값을 로깅하고 집계하면 사용량을 추적할 수 있습니다. 토큰 제한도 중요합니다. 악의적인 사용자가 엄청나게 긴 프롬프트를 보내면 어떻게 될까요? 서버 리소스가 고갈되고 다른 사용자에게 영향을 줍니다. 입력 토큰 제한은 이런 공격을 방어합니다. 출력 토큰 제한도 필수입니다. max_tokens 파라미터 없이 생성하면, 모델이 stop 토큰을 생성할 때까지 계속 출력합니다. 예상치 못하게 수천 토큰의 응답이 생성될 수 있습니다. 실무에서는 **사용자별 할당량** 시스템을 구축합니다. 무료 사용자는 하루 10,000 토큰, 유료 사용자는 100,000 토큰 같은 식입니다. Redis를 사용해 실시간으로 사용량을 추적하고 제한합니다. 모니터링 대시보드도 갖춰야 합니다. Prometheus와 Grafana를 연동하면 토큰 사용량 추이, 사용자별 분포, 비용 예측 등을 시각화할 수 있습니다. 이상 패턴이 감지되면 알림을 보내도록 설정합니다. 주의할 점도 있습니다. 토큰 카운팅은 정확한 토크나이저를 사용해야 합니다. 모델마다 토크나이저가 다르므로, 사용하는 모델에 맞는 토크나이저를 선택해야 합니다. Llama 모델은 tiktoken이 아닌 SentencePiece를 사용합니다. 김개발 씨는 토큰 모니터링 시스템을 구축한 후, 어떤 기능이 토큰을 가장 많이 소비하는지 파악할 수 있게 되었습니다. 데이터를 기반으로 프롬프트를 최적화하자 비용이 30% 줄었습니다. **실전 팁** 💡 - 프롬프트 템플릿의 토큰 수를 미리 계산해두면 런타임 오버헤드를 줄일 수 있습니다 - 시스템 프롬프트가 길다면, 자주 바뀌지 않는 부분을 캐싱하는 것을 고려하세요 - 한국어는 영어보다 토큰 효율이 낮으므로, 비용 계획 시 이를 반영해야 합니다 --- ## 6. 비용_최적화_전략 "토큰 관리도 하고 있는데, 아직도 비용이 만만치 않아요." 김개발 씨의 고민은 깊어졌습니다. 박시니어 씨가 말했습니다. "비용 최적화는 토큰만의 문제가 아니야. 모델 선택, 캐싱, 배치 처리까지 전체적인 전략이 필요해." **LLM 비용 최적화**는 단순히 토큰을 줄이는 것을 넘어 전체 시스템 관점에서 접근해야 합니다. 적절한 모델 선택, 프롬프트 최적화, 응답 캐싱, 양자화 적용 등 다양한 기법을 조합하여 품질을 유지하면서 비용을 절감합니다. 다음 코드를 살펴봅시다. ```python # 종합적인 비용 최적화 시스템 import hashlib from functools import lru_cache import redis redis_client = redis.Redis(host='localhost', port=6379) class CostOptimizedLLM: def __init__(self): # 용도별 모델 분리 self.models = { 'simple': 'llama-7b', # 간단한 작업용 (저비용) 'standard': 'llama-13b', # 일반 작업용 'complex': 'llama-70b', # 복잡한 작업용 (고비용) } def _get_cache_key(self, prompt: str) -> str: return f"llm:{hashlib.md5(prompt.encode()).hexdigest()}" async def generate(self, prompt: str, complexity: str = 'standard'): # 1단계: 캐시 확인 cache_key = self._get_cache_key(prompt) cached = redis_client.get(cache_key) if cached: return cached.decode() # 캐시 히트: 비용 0 # 2단계: 복잡도에 맞는 모델 선택 model = self.models[complexity] # 3단계: 생성 및 캐싱 result = await self._call_model(model, prompt) redis_client.setex(cache_key, 3600, result) # 1시간 캐싱 return result ``` 김개발 씨는 비용 최적화의 세계로 들어섰습니다. 단순히 토큰을 줄이는 것만으로는 한계가 있었습니다. 더 근본적인 접근이 필요했습니다. 첫 번째 전략은 **응답 캐싱**입니다. 같은 질문에 같은 답을 반복해서 생성할 필요가 있을까요? "파이썬이란 무엇인가요?"라는 질문에 매번 새로운 응답을 생성하는 것은 낭비입니다. 캐싱은 마치 단골손님 전용 메뉴판과 같습니다. 자주 오는 손님이 항상 시키는 메뉴는 미리 준비해두면 빠르게 제공할 수 있습니다. 캐시 히트율이 30%만 되어도 비용이 30% 절감됩니다. 두 번째 전략은 **모델 티어링**입니다. 모든 요청에 가장 큰 모델을 사용할 필요는 없습니다. "안녕"에 대한 응답에 GPT-4를 쓸 필요가 있을까요? 간단한 인사말은 작은 모델로도 충분합니다. 실무에서는 요청을 분류하는 라우터를 만듭니다. 간단한 질문은 7B 모델로, 복잡한 분석은 70B 모델로 라우팅합니다. 작은 모델의 비용은 큰 모델의 1/10 수준이므로 효과가 큽니다. 세 번째 전략은 **프롬프트 최적화**입니다. 같은 의미를 더 적은 토큰으로 전달할 수 있다면 그렇게 해야 합니다. 시스템 프롬프트에서 불필요한 설명을 제거하고, 핵심만 남깁니다. 프롬프트 압축 기법도 있습니다. 긴 문서를 요약하거나, 중요한 부분만 추출하여 프롬프트에 포함시킵니다. RAG(Retrieval-Augmented Generation) 시스템에서 특히 효과적입니다. 네 번째 전략은 **양자화(Quantization)**입니다. 모델의 가중치를 FP16에서 INT8, 심지어 INT4로 줄이면 메모리 사용량과 연산 비용이 크게 감소합니다. 품질 저하는 생각보다 적습니다. 다섯 번째 전략은 **배치 처리**입니다. 실시간 응답이 필요 없는 작업은 모아서 처리합니다. 야간에 배치로 처리하면 GPU를 더 효율적으로 활용할 수 있습니다. 여섯 번째 전략은 **스팟 인스턴스 활용**입니다. AWS나 GCP의 스팟 인스턴스는 온디맨드 대비 70~90% 저렴합니다. 중단에 대비한 체크포인팅만 잘 구현하면 큰 비용 절감이 가능합니다. 주의할 점도 있습니다. 비용 최적화가 품질 저하로 이어지면 안 됩니다. 사용자 경험을 모니터링하면서 최적의 균형점을 찾아야 합니다. A/B 테스트로 작은 모델이 충분한지 검증하세요. 또한 캐싱 전략을 잘못 설계하면 오히려 문제가 됩니다. 개인화된 응답을 캐싱하면 다른 사용자에게 잘못된 정보가 전달될 수 있습니다. 캐시 키 설계가 중요합니다. 김개발 씨는 6개월에 걸쳐 이 모든 전략을 단계적으로 도입했습니다. 결과는 놀라웠습니다. 서비스 품질은 유지하면서 비용이 60% 줄었습니다. "비용 최적화는 마라톤이야. 꾸준히 개선해 나가는 거지." 박시니어 씨의 말이 떠올랐습니다. **실전 팁** 💡 - 캐시 TTL은 콘텐츠 특성에 맞게 설정하세요. 정적 정보는 길게, 시의성 있는 정보는 짧게 - 모델 티어링을 위한 분류 모델은 규칙 기반으로 시작해서 점진적으로 고도화하세요 - 비용 대시보드를 만들어 팀 전체가 비용을 인식하도록 하세요 --- 이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

카테고리: LLM,Serving,MLOps

언어: Python

태그: Python, LLM, vLLM, TGI, Streaming, TokenManagement, CostOptimization, LLM,Serving,MLOps

작성자: AI Generated

프리미엄 콘텐츠 - 3개월 무료 체험 가능

CodeDeck

LLM 서빙 전략 완벽 가이드

목차

1. LLM 서빙의 특수성

2. vLLM 활용

3. Text Generation Inference

4. 스트리밍 응답 구현

5. 토큰 사용량 관리

6. 비용 최적화 전략

이 카드뉴스가 포함된 코스

MLOps & 모델 배포

댓글 (0)

함께 보면 좋은 카드 뉴스

vLLM 통합 완벽 가이드

Web UI Demo 구축 완벽 가이드

Sandboxing & Execution Control 완벽 가이드

Voice Design then Clone 워크플로우 완벽 가이드

Tool Use 완벽 가이드 - Shell, Browser, DB 실전 활용