LLM 라우팅 완벽 가이드

AI 시스템에서 사용자 요청을 적절한 처리 경로로 안내하는 라우팅의 개념부터 실무 설계까지, 초급 개발자도 쉽게 이해할 수 있도록 이북 스타일로 풀어낸 가이드입니다.

1. 라우팅이란 무엇인가

어느 날 김개발 씨는 회사에서 챗봇 시스템을 담당하게 되었습니다. 고객이 "환불해주세요"라고 입력하면 환불 담당 시스템으로, "배송 어디까지 왔어요?"라고 물으면 배송 조회 시스템으로 연결해야 했습니다.

그런데 하나의 입구로 들어온 요청을 어떻게 각각 다른 곳으로 보낼 수 있을까요?

라우팅은 한마디로 사용자의 요청을 가장 적합한 처리 경로로 안내하는 것입니다. 마치 공항의 안내 데스크처럼, 승객이 "국내선 타려고요"라고 하면 국내선 터미널로, "국제선이요"라고 하면 국제선 터미널로 안내해주는 것과 같습니다.

LLM 시스템에서 라우팅을 제대로 구현하면 각 요청이 최적의 전문가에게 전달되어 정확하고 빠른 응답을 받을 수 있습니다.

다음 코드를 살펴봅시다.

# 기본적인 라우팅 시스템 구조
class SimpleRouter:
    def __init__(self):
        # 각 경로별 처리 담당자 등록
        self.routes = {
            "refund": self.handle_refund,
            "delivery": self.handle_delivery,
            "product": self.handle_product_inquiry
        }

    def route(self, user_input: str, intent: str):
        # 분류된 의도에 따라 적절한 핸들러로 연결
        handler = self.routes.get(intent, self.handle_general)
        return handler(user_input)

    def handle_refund(self, query):
        return "환불 처리 시스템으로 연결합니다"

김개발 씨는 입사 2년 차 백엔드 개발자입니다. 최근 회사에서 AI 챗봇 프로젝트를 맡게 되었는데, 생각보다 복잡한 문제에 부딪혔습니다.

고객들은 하나의 채팅창에서 온갖 종류의 질문을 쏟아냅니다. 환불 요청, 배송 조회, 상품 문의, 심지어 날씨까지 물어보는 사람도 있었습니다.

처음에 김개발 씨는 단순하게 생각했습니다. 그냥 모든 질문을 하나의 거대한 AI 모델에 넣으면 되지 않을까?

하지만 곧 문제가 드러났습니다. 환불 처리에는 회사의 환불 정책 데이터베이스가 필요하고, 배송 조회에는 물류 시스템 연동이 필요했습니다.

하나의 모델이 모든 것을 처리하기에는 너무 복잡했습니다. 그때 선배 개발자 박시니어 씨가 조언해주었습니다.

"김개발 씨, 라우팅 개념을 알아야 해요. 큰 백화점을 생각해보세요." 박시니어 씨의 설명은 이랬습니다.

백화점에 들어서면 가장 먼저 안내 데스크가 있습니다. 손님이 "화장품 사려고요"라고 하면 1층으로, "가전제품이요"라고 하면 5층으로 안내해줍니다.

안내 데스크 직원이 직접 물건을 팔지는 않습니다. 단지 손님을 가장 적합한 매장으로 연결해주는 역할만 합니다.

라우팅도 마찬가지입니다. 사용자의 요청이 들어오면, 라우터는 그 요청의 성격을 파악하여 가장 적합한 처리 시스템으로 연결해줍니다.

환불 관련 요청은 환불 전문 모듈로, 배송 관련 요청은 물류 시스템으로 보내는 것입니다. 위의 코드를 살펴보면 그 구조가 명확해집니다.

SimpleRouter 클래스는 routes라는 딕셔너리를 가지고 있습니다. 이 딕셔너리는 각 의도(intent)와 그에 맞는 처리 함수를 연결해놓은 지도와 같습니다.

route 메서드가 호출되면, 전달받은 intent에 따라 적절한 핸들러 함수를 찾아서 실행합니다. 라우팅이 없다면 어떻게 될까요?

모든 요청을 하나의 거대한 조건문으로 처리해야 합니다. 코드는 금세 스파게티처럼 엉키고, 새로운 기능을 추가할 때마다 기존 코드를 건드려야 합니다.

유지보수는 악몽이 됩니다. 라우팅을 도입하면 각 기능이 독립적인 모듈로 분리됩니다.

환불 시스템을 수정해도 배송 조회 시스템에는 영향이 없습니다. 새로운 기능을 추가할 때도 기존 코드를 건드리지 않고 새 라우트만 등록하면 됩니다.

김개발 씨는 고개를 끄덕였습니다. "아, 그래서 대형 서비스들이 마이크로서비스 아키텍처를 쓰는 거군요.

라우팅이 그 핵심이었네요!"

실전 팁

💡 - 라우터는 최대한 가볍게 유지하고, 실제 처리 로직은 각 핸들러에 위임하세요

기본 라우트(default route)를 항상 준비해두어 예상치 못한 요청도 처리할 수 있게 하세요

2. 의도 분류와 라우팅의 관계

김개발 씨가 라우팅 개념을 이해하고 나니 새로운 의문이 생겼습니다. "사용자가 환불해주세요라고 하면 환불 시스템으로 보내면 되는데, 돈 돌려받고 싶어요라고 하면요?

이것도 환불인데 어떻게 알죠?" 바로 여기서 의도 분류가 등장합니다.

**의도 분류(Intent Classification)**는 사용자의 자연어 입력에서 실제 의도를 파악하는 과정입니다. 라우팅의 전 단계로, 마치 통역사가 외국어를 우리말로 번역해주는 것처럼, 사람의 다양한 표현을 시스템이 이해할 수 있는 명확한 카테고리로 변환해줍니다.

의도 분류가 정확해야 라우팅도 정확해집니다.

다음 코드를 살펴봅시다.

from openai import OpenAI

class IntentClassifier:
    def __init__(self):
        self.client = OpenAI()
        # 분류할 의도 목록 정의
        self.intents = ["refund", "delivery", "product", "general"]

    def classify(self, user_input: str) -> str:
        # LLM을 활용한 의도 분류
        response = self.client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[
                {"role": "system", "content": f"다음 중 하나로 분류: {self.intents}"},
                {"role": "user", "content": user_input}
            ]
        )
        intent = response.choices[0].message.content.strip()
        return intent if intent in self.intents else "general"

박시니어 씨가 화이트보드 앞에 섰습니다. "김개발 씨, 라우팅을 하려면 먼저 사용자가 뭘 원하는지 알아야 해요.

이걸 의도 분류라고 합니다." 생각해보면 사람들은 같은 의도를 정말 다양하게 표현합니다. "환불해주세요", "돈 돌려받고 싶어요", "구매 취소하려고요", "반품 가능한가요?" 모두 환불이라는 같은 의도를 담고 있습니다.

하지만 컴퓨터는 이 표현들이 같은 의미인지 알지 못합니다. 과거에는 이런 문제를 키워드 매칭으로 해결했습니다.

"환불"이라는 단어가 들어가면 환불로 분류하는 식이었습니다. 하지만 이 방식은 한계가 명확했습니다.

"환불"이라는 단어 없이 "돈 돌려받고 싶어요"라고 하면 분류에 실패했습니다. LLM의 등장으로 상황이 완전히 바뀌었습니다.

LLM은 문맥을 이해합니다. "지난주에 산 신발이 마음에 안 드는데 어떻게 해야 하나요?"라는 복잡한 문장에서도 환불 의도를 파악해낼 수 있습니다.

위 코드에서 IntentClassifier는 사용자 입력을 받아 미리 정의된 의도 중 하나로 분류합니다. LLM에게 시스템 프롬프트로 분류할 의도 목록을 알려주고, 사용자 입력을 전달하면 LLM이 가장 적합한 의도를 반환합니다.

여기서 중요한 점이 있습니다. 분류 결과가 미리 정의된 의도 목록에 없으면 "general"로 처리한다는 것입니다.

이것이 바로 폴백(fallback) 전략입니다. 예상치 못한 입력이 들어와도 시스템이 멈추지 않도록 안전장치를 마련해두는 것입니다.

의도 분류와 라우팅은 마치 두 사람이 릴레이 경주를 하는 것과 같습니다. 의도 분류기가 바통을 받아 사용자의 의도를 파악하고, 그 결과를 라우터에게 넘겨줍니다.

라우터는 전달받은 의도에 따라 적절한 처리 시스템으로 요청을 보냅니다. 김개발 씨가 물었습니다.

"그런데 의도 분류가 틀리면 어떻게 해요?" 좋은 질문이었습니다. 의도 분류의 정확도가 전체 시스템의 품질을 좌우합니다.

따라서 의도 분류 모델은 지속적으로 모니터링하고 개선해야 합니다. 실무에서는 분류 결과와 함께 신뢰도 점수를 반환하도록 설계합니다.

신뢰도가 낮으면 사용자에게 다시 확인하거나, 더 일반적인 처리 경로로 보내는 것입니다.

실전 팁

💡 - 의도 목록은 서로 겹치지 않고 명확하게 구분되도록 설계하세요

신뢰도가 낮은 분류 결과는 로깅해두고 주기적으로 분석하여 모델을 개선하세요

3. 라우팅의 장점

김개발 씨가 의도 분류와 라우팅을 구현하고 나니, 시스템이 눈에 띄게 좋아졌습니다. 그런데 팀장님이 물었습니다.

"이거 굳이 이렇게 복잡하게 나눠야 해요? 그냥 하나로 처리하면 안 되나요?" 김개발 씨는 라우팅의 장점을 설명해야 했습니다.

라우팅 아키텍처는 전문성, 효율성, 확장성이라는 세 가지 핵심 장점을 제공합니다. 마치 대형 병원이 응급실, 내과, 외과로 나뉘어 각 분야 전문의가 환자를 담당하는 것처럼, 라우팅을 통해 각 요청 유형에 최적화된 처리가 가능해집니다.

다음 코드를 살펴봅시다.

class SpecializedRouter:
    def __init__(self):
        # 각 도메인에 최적화된 전문 에이전트 등록
        self.agents = {
            "code": CodeExpertAgent(model="gpt-4o"),       # 코딩은 강력한 모델
            "chat": ChatAgent(model="gpt-4o-mini"),        # 일반 대화는 경량 모델
            "math": MathAgent(model="o1-preview"),         # 수학은 추론 모델
            "search": SearchAgent(tools=["web_search"])    # 검색은 도구 연동
        }

    def route_and_execute(self, query: str, intent: str):
        # 의도에 맞는 전문 에이전트 선택
        agent = self.agents.get(intent, self.agents["chat"])
        # 전문 에이전트가 처리하고 결과 반환
        return agent.process(query)

팀장님의 질문에 김개발 씨는 잠시 생각했습니다. 어떻게 설명해야 비개발자도 이해할 수 있을까요?

"팀장님, 동네 작은 병원 하나랑 대학병원을 비교해보시면 어떨까요?"라고 김개발 씨가 말문을 열었습니다. 동네 병원은 한 명의 의사가 모든 환자를 봅니다.

감기 환자도, 골절 환자도 같은 의사가 진료합니다. 환자가 적을 때는 문제없습니다.

하지만 환자가 많아지면 어떻게 될까요? 골절 환자가 감기 환자 때문에 오래 기다려야 합니다.

더 심각한 문제는, 한 명의 의사가 모든 분야를 완벽하게 다루기 어렵다는 것입니다. 감기는 잘 봐도 골절은 서툴 수 있습니다.

대학병원은 다릅니다. 응급실, 내과, 외과, 정형외과가 나뉘어 있습니다.

환자가 들어오면 먼저 접수처에서 증상을 파악하고 해당 과로 안내합니다. 이것이 바로 라우팅입니다.

첫 번째 장점은 전문성입니다. 위 코드를 보면, 코딩 질문은 강력한 GPT-4o 모델이 처리하고, 수학 문제는 추론에 특화된 o1-preview가 처리합니다.

각 분야의 전문가가 담당하니 응답 품질이 올라갑니다. 두 번째 장점은 효율성입니다.

간단한 인사말에 비싼 GPT-4o를 쓸 필요가 있을까요? 경량 모델인 gpt-4o-mini로 충분합니다.

라우팅을 통해 요청의 복잡도에 맞는 모델을 선택하면 비용을 크게 절감할 수 있습니다. 세 번째 장점은 확장성입니다.

나중에 이미지 분석 기능을 추가하고 싶다면 어떻게 해야 할까요? 라우팅 구조에서는 ImageAgent를 새로 만들어서 등록하기만 하면 됩니다.

기존 코드를 건드릴 필요가 없습니다. 팀장님이 고개를 끄덕였습니다.

"그러니까 처음엔 좀 복잡해 보여도, 길게 보면 이득이라는 거죠?" 정확한 이해였습니다. 실제로 대형 AI 서비스들은 모두 라우팅 아키텍처를 사용합니다.

OpenAI의 ChatGPT도 내부적으로 여러 모델과 시스템을 조합하여 사용합니다. 코드 인터프리터, 웹 검색, 이미지 생성 등 각 기능이 별도의 전문 시스템으로 구현되어 있고, 라우터가 사용자 요청에 따라 적절한 시스템을 호출합니다.

주의할 점도 있습니다. 라우팅 자체에도 비용이 듭니다.

의도를 분류하는 데 LLM 호출이 필요하고, 라우팅 로직도 유지보수해야 합니다. 따라서 요청 유형이 단순하고 트래픽이 적다면 오히려 단일 모델이 효율적일 수 있습니다.

상황에 맞게 판단해야 합니다.

실전 팁

💡 - 비용 대비 효과를 측정하여 라우팅 도입 여부를 결정하세요

처음부터 완벽한 라우팅을 구현하려 하지 말고, 가장 필요한 곳부터 점진적으로 적용하세요

4. 라우팅 전략 설계

김개발 씨는 이제 라우팅의 필요성을 완전히 이해했습니다. 그런데 막상 설계를 시작하려니 막막했습니다.

의도를 어떻게 나눠야 할까요? 몇 개의 라우트가 적당할까요?

박시니어 씨가 라우팅 전략 설계의 핵심을 알려주었습니다.

라우팅 전략 설계는 의도 분류 체계 정의, 라우트별 처리기 매핑, 폴백 전략 수립의 세 단계로 이루어집니다. 마치 도시 교통 시스템을 설계하는 것처럼, 모든 차량이 목적지에 효율적으로 도달할 수 있도록 도로와 신호 체계를 계획하는 것입니다.

다음 코드를 살펴봅시다.

# 체계적인 라우팅 전략 설계
class RouterConfig:
    # 1단계: 의도 분류 체계 정의
    INTENT_HIERARCHY = {
        "customer_service": ["refund", "delivery", "complaint"],
        "product": ["inquiry", "recommendation", "comparison"],
        "general": ["greeting", "farewell", "unknown"]
    }

    # 2단계: 라우트별 처리기 매핑
    ROUTE_HANDLERS = {
        "refund": {"handler": "refund_agent", "priority": "high"},
        "delivery": {"handler": "logistics_agent", "priority": "medium"},
        "greeting": {"handler": "chat_agent", "priority": "low"}
    }

    # 3단계: 폴백 전략
    FALLBACK_CHAIN = ["clarification", "human_handoff", "apology"]

박시니어 씨가 화이트보드에 그림을 그리기 시작했습니다. "라우팅 전략 설계는 도시 교통 시스템을 만드는 것과 비슷해요." 도시를 설계한다고 상상해보세요.

먼저 어떤 종류의 차량이 다닐지 파악해야 합니다. 승용차, 버스, 트럭, 오토바이.

이것이 의도 분류 체계 정의입니다. 우리 시스템에 들어올 수 있는 모든 종류의 요청을 정리하는 것입니다.

위 코드의 INTENT_HIERARCHY를 보세요. 의도를 계층 구조로 정리했습니다.

최상위에는 customer_service, product, general이라는 큰 카테고리가 있고, 그 아래에 세부 의도가 있습니다. 이렇게 계층 구조로 만들면 관리가 쉬워집니다.

다음은 각 차량이 어느 도로로 가야 하는지 정하는 것입니다. 라우트별 처리기 매핑입니다.

ROUTE_HANDLERS를 보면 각 의도에 대해 어떤 처리기가 담당할지, 우선순위는 어떤지 정의되어 있습니다. 환불 요청은 우선순위가 high입니다.

고객이 돈 문제로 불만을 가지면 빠르게 처리해야 하니까요. 마지막으로 중요한 것이 폴백 전략입니다.

도로에 사고가 나면 우회로가 필요하듯이, 시스템에서 예상치 못한 상황이 발생했을 때 어떻게 대응할지 미리 계획해야 합니다. FALLBACK_CHAIN을 보세요.

첫 번째 시도는 "clarification", 즉 사용자에게 다시 질문하는 것입니다. "죄송합니다, 환불 문의이신가요, 배송 문의이신가요?" 이렇게요.

그래도 해결이 안 되면 "human_handoff", 상담원에게 연결합니다. 최후의 수단은 "apology", 정중하게 사과하고 다른 채널로 안내하는 것입니다.

김개발 씨가 질문했습니다. "의도를 너무 세분화하면 오히려 복잡해지지 않나요?" 날카로운 질문이었습니다.

맞습니다. 의도가 너무 많으면 분류 정확도가 떨어지고, 너무 적으면 처리가 부정확해집니다.

경험적으로, 한 시스템에서 관리하기 적당한 의도 수는 10~20개 정도입니다. 그 이상이 필요하면 상위 카테고리로 먼저 라우팅하고, 하위에서 다시 세부 라우팅하는 계층 구조를 고려해야 합니다.

또한 의도 간에 겹침이 없어야 합니다. "상품 문의"와 "상품 추천"이 비슷해 보여도, 처리 방식이 다르다면 명확히 구분해야 합니다.

반대로 처리 방식이 같다면 하나로 합치는 것이 낫습니다.

실전 팁

💡 - 의도 분류 체계는 실제 사용자 로그를 분석하여 데이터 기반으로 설계하세요

폴백 전략은 반드시 테스트하여 실제로 동작하는지 확인하세요

5. 동적 라우팅과 정적 라우팅

라우팅 전략을 설계하던 김개발 씨에게 박시니어 씨가 물었습니다. "그런데 라우팅 규칙을 코드에 하드코딩할 거야, 아니면 실시간으로 판단하게 할 거야?" 김개발 씨는 처음 듣는 개념이었습니다.

정적 라우팅과 동적 라우팅, 이 둘의 차이는 무엇일까요?

정적 라우팅은 미리 정해진 규칙에 따라 경로를 결정하고, 동적 라우팅은 실시간으로 상황을 판단하여 경로를 결정합니다. 지하철과 택시의 차이와 같습니다.

지하철은 정해진 노선만 달리지만, 택시는 교통 상황에 따라 경로를 바꿉니다. 각각 장단점이 있어 상황에 맞게 선택해야 합니다.

다음 코드를 살펴봅시다.

# 정적 라우팅: 키워드 기반
class StaticRouter:
    KEYWORD_RULES = {
        "환불|반품|취소": "refund_handler",
        "배송|택배|도착": "delivery_handler"
    }

    def route(self, query: str) -> str:
        for pattern, handler in self.KEYWORD_RULES.items():
            if re.search(pattern, query):
                return handler
        return "default_handler"

# 동적 라우팅: LLM 기반 실시간 판단
class DynamicRouter:
    def route(self, query: str, context: dict) -> str:
        # LLM이 문맥을 고려하여 최적 경로 결정
        response = self.llm.analyze(
            query=query,
            context=context,  # 대화 이력, 사용자 정보 등
            available_routes=self.routes
        )
        return response.best_route

박시니어 씨가 두 가지 상황을 예로 들었습니다. "김개발 씨, 지하철 타본 적 있지?" 지하철은 정적 라우팅과 같습니다.

노선이 정해져 있습니다. 강남역에서 홍대입구역으로 가려면 2호선을 타야 합니다.

어떤 상황에서도 2호선은 그 노선만 달립니다. 예측 가능하고 안정적입니다.

위 코드의 StaticRouter가 바로 이 방식입니다. "환불"이라는 키워드가 있으면 무조건 refund_handler로 보냅니다.

규칙이 명확하고, 실행 속도가 빠르고, 결과가 예측 가능합니다. 하지만 한계도 있습니다.

"지난번에 산 거 그거 있잖아, 그거 좀..."이라는 요청은 어떨까요? 키워드만으로는 이게 환불인지, 배송 조회인지, 상품 문의인지 알 수 없습니다.

이럴 때 동적 라우팅이 필요합니다. 택시를 생각해보세요.

택시 기사는 목적지를 듣고, 현재 교통 상황을 고려해서 최적의 경로를 선택합니다. 정체가 심하면 우회하고, 뚫리면 직진합니다.

DynamicRouter는 LLM을 활용해 실시간으로 판단합니다. 단순히 현재 질문만 보는 게 아니라, 대화 이력(context)도 함께 분석합니다.

"지난번에 산 거"라는 표현이 나오면 이전 대화에서 무엇을 샀는지 확인하고, 그에 맞는 라우트를 선택합니다. 그렇다면 무조건 동적 라우팅이 좋을까요?

그렇지 않습니다. 동적 라우팅은 LLM 호출이 필요하므로 비용이 들고 시간이 걸립니다.

또한 LLM의 판단이 항상 일관되지 않을 수 있습니다. 실무에서는 두 방식을 하이브리드로 사용합니다.

먼저 정적 라우팅으로 명확한 케이스를 빠르게 처리하고, 애매한 경우에만 동적 라우팅을 적용하는 것입니다. 이렇게 하면 비용과 품질 사이에서 균형을 잡을 수 있습니다.

김개발 씨가 고개를 끄덕였습니다. "그러니까 지하철로 갈 수 있으면 지하철 타고, 지하철이 안 가는 곳은 택시를 타는 거네요." 정확한 비유였습니다.

대부분의 요청은 정적 라우팅으로 빠르게 처리하고, 복잡하거나 애매한 요청만 동적 라우팅으로 정교하게 처리하는 것이 효율적인 전략입니다.

실전 팁

💡 - 트래픽의 80%를 차지하는 주요 요청은 정적 라우팅으로 빠르게 처리하세요

동적 라우팅 결과를 모니터링하여 자주 나오는 패턴은 정적 규칙으로 전환하세요

6. 주요 활용 사례 분석

이론은 충분히 배웠으니 이제 실제 사례를 살펴볼 차례입니다. 김개발 씨는 유명 AI 서비스들이 라우팅을 어떻게 활용하는지 궁금했습니다.

박시니어 씨가 업계의 대표적인 세 가지 활용 사례를 분석해주었습니다.

라우팅은 고객 서비스 챗봇, 멀티모달 AI 시스템, 에이전트 오케스트레이션에서 핵심적으로 활용됩니다. 각 분야에서 라우팅이 어떻게 시스템의 품질과 효율성을 높이는지 이해하면, 자신의 프로젝트에도 적용할 수 있습니다.

다음 코드를 살펴봅시다.

# 사례 1: 고객 서비스 멀티에이전트 시스템
class CustomerServiceOrchestrator:
    def __init__(self):
        self.agents = {
            "faq": FAQAgent(),           # 자주 묻는 질문 처리
            "order": OrderAgent(),        # 주문 조회/관리
            "refund": RefundAgent(),      # 환불 처리
            "escalation": HumanAgent()    # 상담원 연결
        }

    async def handle_request(self, request: CustomerRequest):
        # 1단계: 의도 분류
        intent = await self.classifier.classify(request.message)

        # 2단계: 감정 분석으로 긴급도 판단
        sentiment = await self.analyzer.get_sentiment(request.message)

        # 3단계: 라우팅 결정
        if sentiment.is_angry and intent != "faq":
            return await self.agents["escalation"].handle(request)
        return await self.agents[intent].handle(request)

박시니어 씨가 노트북을 펼쳐 실제 서비스 사례를 보여주었습니다. "업계에서 라우팅을 어떻게 쓰는지 보여줄게요." 첫 번째 사례는 고객 서비스 챗봇입니다.

위 코드를 보세요. 단순히 의도만으로 라우팅하지 않습니다.

감정 분석도 함께 수행합니다. 고객이 화가 난 상태라면, FAQ 질문이 아닌 이상 바로 상담원에게 연결합니다.

이것이 실무에서 중요한 포인트입니다. 고객이 "배송 언제 와요?"라고 물었을 때, 차분하게 물었다면 자동 응답으로 충분합니다.

하지만 "배송 도대체 언제 오는 거예요!!!"라면 상황이 다릅니다. 이미 화가 난 고객에게 로봇 같은 응답을 보내면 더 화가 납니다.

두 번째 사례는 멀티모달 AI 시스템입니다. ChatGPT나 Claude같은 서비스를 생각해보세요.

사용자가 텍스트를 보내면 텍스트 처리 모델이, 이미지를 보내면 비전 모델이, 코드를 보내면 코드 분석 모델이 처리합니다. 하나의 인터페이스 뒤에서 여러 전문 모델이 협력하는 것입니다.

세 번째 사례는 에이전트 오케스트레이션입니다. 복잡한 작업을 여러 AI 에이전트가 협력하여 처리하는 시스템입니다.

예를 들어 "지난달 매출 분석해서 보고서 만들어줘"라는 요청이 들어오면, 데이터 조회 에이전트가 데이터를 가져오고, 분석 에이전트가 분석하고, 문서 작성 에이전트가 보고서를 만듭니다. 김개발 씨가 감탄했습니다.

"와, 생각보다 훨씬 복잡한 구조네요." 맞습니다. 사용자 입장에서는 하나의 대화창일 뿐이지만, 그 뒤에는 정교한 라우팅 시스템이 동작하고 있습니다.

이런 사례들에서 공통적으로 발견되는 패턴이 있습니다. 첫째, 다단계 판단입니다.

의도만 보는 게 아니라 감정, 긴급도, 사용자 등급 등을 종합합니다. 둘째, 전문화된 처리기입니다.

각 라우트마다 해당 분야에 최적화된 에이전트가 있습니다. 셋째, 유연한 폴백입니다.

자동화가 실패하면 사람에게 넘기는 경로가 항상 있습니다. 여러분의 프로젝트도 이 패턴을 참고하면 좋습니다.

처음부터 완벽할 필요는 없습니다. 가장 중요한 분기점부터 시작해서 점진적으로 확장해나가면 됩니다.

실전 팁

💡 - 실제 서비스의 대화 로그를 분석하면 어떤 라우팅이 필요한지 파악할 수 있습니다

자동화와 휴먼 폴백의 균형점을 찾는 것이 중요합니다

7. 라우팅 설계 베스트 프랙티스

드디어 마지막 장입니다. 김개발 씨는 지금까지 배운 내용을 정리하며 실전에 적용할 준비를 했습니다.

박시니어 씨가 마지막으로 현업에서 검증된 베스트 프랙티스를 전수해주었습니다.

라우팅 설계의 베스트 프랙티스는 명확한 경계 정의, 모니터링과 개선, 점진적 복잡성 추가입니다. 처음부터 완벽한 시스템을 만들려 하지 말고, 단순하게 시작해서 데이터를 보며 개선하는 것이 성공의 핵심입니다.

다음 코드를 살펴봅시다.

# 실전 라우팅 시스템 완성 예제
class ProductionRouter:
    def __init__(self):
        self.classifier = IntentClassifier()
        self.routes = {}
        self.metrics = RoutingMetrics()

    def register_route(self, intent: str, handler, threshold=0.7):
        """라우트 등록 - 신뢰도 임계값 설정"""
        self.routes[intent] = {"handler": handler, "threshold": threshold}

    async def route(self, query: str) -> RouteResult:
        # 1. 의도 분류 및 신뢰도 측정
        classification = await self.classifier.classify(query)

        # 2. 메트릭 기록 (모니터링용)
        self.metrics.record(classification)

        # 3. 신뢰도 기반 라우팅 결정
        route_config = self.routes.get(classification.intent)
        if classification.confidence >= route_config["threshold"]:
            return await route_config["handler"](query)

        # 4. 신뢰도 낮으면 확인 요청
        return await self.request_clarification(query, classification)

박시니어 씨가 마지막 조언을 시작했습니다. "김개발 씨, 지금까지 배운 건 이론이야.

이제 실전에서 성공하는 방법을 알려줄게." 첫 번째 원칙은 명확한 경계 정의입니다. 각 라우트의 책임을 명확하게 나눠야 합니다.

"이 요청은 A가 처리해야 할까, B가 처리해야 할까?" 이런 고민이 생긴다면 경계가 불명확한 것입니다. 경계가 흐리면 분류 정확도가 떨어지고, 나중에 유지보수도 어려워집니다.

위 코드에서 threshold 개념을 주목하세요. 분류 신뢰도가 0.7 미만이면 자동 처리하지 않고 사용자에게 확인을 요청합니다.

이것이 신뢰도 기반 라우팅입니다. 확실할 때만 자동화하고, 불확실하면 사람의 판단을 구합니다.

두 번째 원칙은 모니터링과 개선입니다. self.metrics.record()를 보세요.

모든 분류 결과를 기록합니다. 이 데이터가 쌓이면 패턴이 보입니다.

어떤 의도가 자주 혼동되는지, 어떤 표현이 분류 실패를 유발하는지 알 수 있습니다. 실무에서는 주간 단위로 라우팅 성능을 리뷰합니다.

잘못 라우팅된 케이스를 분석하고, 규칙을 개선하거나 학습 데이터에 추가합니다. 이 과정을 반복하면 시스템이 점점 똑똑해집니다.

세 번째 원칙은 점진적 복잡성 추가입니다. 처음부터 10개의 라우트를 만들지 마세요.

가장 중요한 2~3개부터 시작하세요. 그것이 안정화되면 하나씩 추가합니다.

"얼마나 잘 동작할지 모르니까 일단 다 만들어놓자"는 접근은 실패의 지름길입니다. 김개발 씨가 정리했습니다.

"결국 완벽한 시스템은 한 번에 만들어지는 게 아니라, 데이터를 보면서 계속 다듬어가는 거네요." 정확합니다. 소프트웨어는 살아있는 유기체와 같습니다.

출시 후에도 계속 성장하고 변화해야 합니다. 마지막으로 박시니어 씨가 덧붙였습니다.

"그리고 가장 중요한 건, 사용자 경험이야. 내부 구조가 아무리 멋져도 사용자가 불편하면 의미 없어." 라우팅은 수단이지 목적이 아닙니다.

궁극적으로는 사용자에게 더 빠르고 정확한 응답을 제공하기 위한 것입니다. 기술에 매몰되지 말고 항상 사용자 관점에서 생각해야 합니다.

김개발 씨는 이제 자신감이 생겼습니다. 내일부터 회사의 챗봇 시스템에 라우팅을 적용해볼 것입니다.

작게 시작해서 점진적으로 확장하면서요. 여러분도 오늘 배운 내용을 실제 프로젝트에 적용해보세요.

처음엔 어색하더라도 경험이 쌓이면 자연스러워질 것입니다.

실전 팁

💡 - 출시 전에 다양한 엣지 케이스로 테스트하고, 폴백이 제대로 동작하는지 확인하세요

사용자 피드백을 수집하는 채널을 만들어 지속적으로 개선하세요
복잡한 로직보다 단순하고 예측 가능한 동작이 유지보수에 유리합니다

이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

#Python#LLM#Routing#IntentClassification#AIArchitecture#Python,AI,LLM

LLM 라우팅 완벽 가이드

# LLM 라우팅 완벽 가이드 AI 시스템에서 사용자 요청을 적절한 처리 경로로 안내하는 라우팅의 개념부터 실무 설계까지, 초급 개발자도 쉽게 이해할 수 있도록 이북 스타일로 풀어낸 가이드입니다. --- ## 목차 1. [라우팅이란_무엇인가](#라우팅이란-무엇인가) 2. [의도_분류와_라우팅의_관계](#의도-분류와-라우팅의-관계) 3. [라우팅의_장점](#라우팅의-장점) 4. [라우팅_전략_설계](#라우팅-전략-설계) 5. [동적_라우팅과_정적_라우팅](#동적-라우팅과-정적-라우팅) 6. [주요_활용_사례_분석](#주요-활용-사례-분석) 7. [라우팅_설계_베스트_프랙티스](#라우팅-설계-베스트-프랙티스) --- ## 1. 라우팅이란_무엇인가 어느 날 김개발 씨는 회사에서 챗봇 시스템을 담당하게 되었습니다. 고객이 "환불해주세요"라고 입력하면 환불 담당 시스템으로, "배송 어디까지 왔어요?"라고 물으면 배송 조회 시스템으로 연결해야 했습니다. 그런데 하나의 입구로 들어온 요청을 어떻게 각각 다른 곳으로 보낼 수 있을까요? **라우팅**은 한마디로 사용자의 요청을 가장 적합한 처리 경로로 안내하는 것입니다. 마치 공항의 안내 데스크처럼, 승객이 "국내선 타려고요"라고 하면 국내선 터미널로, "국제선이요"라고 하면 국제선 터미널로 안내해주는 것과 같습니다. LLM 시스템에서 라우팅을 제대로 구현하면 각 요청이 최적의 전문가에게 전달되어 정확하고 빠른 응답을 받을 수 있습니다. 다음 코드를 살펴봅시다. ```python # 기본적인 라우팅 시스템 구조 class SimpleRouter: def __init__(self): # 각 경로별 처리 담당자 등록 self.routes = { "refund": self.handle_refund, "delivery": self.handle_delivery, "product": self.handle_product_inquiry } def route(self, user_input: str, intent: str): # 분류된 의도에 따라 적절한 핸들러로 연결 handler = self.routes.get(intent, self.handle_general) return handler(user_input) def handle_refund(self, query): return "환불 처리 시스템으로 연결합니다" ``` 김개발 씨는 입사 2년 차 백엔드 개발자입니다. 최근 회사에서 AI 챗봇 프로젝트를 맡게 되었는데, 생각보다 복잡한 문제에 부딪혔습니다. 고객들은 하나의 채팅창에서 온갖 종류의 질문을 쏟아냅니다. 환불 요청, 배송 조회, 상품 문의, 심지어 날씨까지 물어보는 사람도 있었습니다. 처음에 김개발 씨는 단순하게 생각했습니다. 그냥 모든 질문을 하나의 거대한 AI 모델에 넣으면 되지 않을까? 하지만 곧 문제가 드러났습니다. 환불 처리에는 회사의 환불 정책 데이터베이스가 필요하고, 배송 조회에는 물류 시스템 연동이 필요했습니다. 하나의 모델이 모든 것을 처리하기에는 너무 복잡했습니다. 그때 선배 개발자 박시니어 씨가 조언해주었습니다. "김개발 씨, **라우팅** 개념을 알아야 해요. 큰 백화점을 생각해보세요." 박시니어 씨의 설명은 이랬습니다. 백화점에 들어서면 가장 먼저 안내 데스크가 있습니다. 손님이 "화장품 사려고요"라고 하면 1층으로, "가전제품이요"라고 하면 5층으로 안내해줍니다. 안내 데스크 직원이 직접 물건을 팔지는 않습니다. 단지 손님을 가장 적합한 매장으로 연결해주는 역할만 합니다. **라우팅**도 마찬가지입니다. 사용자의 요청이 들어오면, 라우터는 그 요청의 성격을 파악하여 가장 적합한 처리 시스템으로 연결해줍니다. 환불 관련 요청은 환불 전문 모듈로, 배송 관련 요청은 물류 시스템으로 보내는 것입니다. 위의 코드를 살펴보면 그 구조가 명확해집니다. SimpleRouter 클래스는 routes라는 딕셔너리를 가지고 있습니다. 이 딕셔너리는 각 의도(intent)와 그에 맞는 처리 함수를 연결해놓은 지도와 같습니다. route 메서드가 호출되면, 전달받은 intent에 따라 적절한 핸들러 함수를 찾아서 실행합니다. 라우팅이 없다면 어떻게 될까요? 모든 요청을 하나의 거대한 조건문으로 처리해야 합니다. 코드는 금세 스파게티처럼 엉키고, 새로운 기능을 추가할 때마다 기존 코드를 건드려야 합니다. 유지보수는 악몽이 됩니다. 라우팅을 도입하면 각 기능이 독립적인 모듈로 분리됩니다. 환불 시스템을 수정해도 배송 조회 시스템에는 영향이 없습니다. 새로운 기능을 추가할 때도 기존 코드를 건드리지 않고 새 라우트만 등록하면 됩니다. 김개발 씨는 고개를 끄덕였습니다. "아, 그래서 대형 서비스들이 마이크로서비스 아키텍처를 쓰는 거군요. 라우팅이 그 핵심이었네요!" **실전 팁** 💡 - 라우터는 최대한 가볍게 유지하고, 실제 처리 로직은 각 핸들러에 위임하세요 - 기본 라우트(default route)를 항상 준비해두어 예상치 못한 요청도 처리할 수 있게 하세요 --- ## 2. 의도_분류와_라우팅의_관계 김개발 씨가 라우팅 개념을 이해하고 나니 새로운 의문이 생겼습니다. "사용자가 환불해주세요라고 하면 환불 시스템으로 보내면 되는데, 돈 돌려받고 싶어요라고 하면요? 이것도 환불인데 어떻게 알죠?" 바로 여기서 **의도 분류**가 등장합니다. **의도 분류(Intent Classification)**는 사용자의 자연어 입력에서 실제 의도를 파악하는 과정입니다. 라우팅의 전 단계로, 마치 통역사가 외국어를 우리말로 번역해주는 것처럼, 사람의 다양한 표현을 시스템이 이해할 수 있는 명확한 카테고리로 변환해줍니다. 의도 분류가 정확해야 라우팅도 정확해집니다. 다음 코드를 살펴봅시다. ```python from openai import OpenAI class IntentClassifier: def __init__(self): self.client = OpenAI() # 분류할 의도 목록 정의 self.intents = ["refund", "delivery", "product", "general"] def classify(self, user_input: str) -> str: # LLM을 활용한 의도 분류 response = self.client.chat.completions.create( model="gpt-4o-mini", messages=[ {"role": "system", "content": f"다음 중 하나로 분류: {self.intents}"}, {"role": "user", "content": user_input} ] ) intent = response.choices[0].message.content.strip() return intent if intent in self.intents else "general" ``` 박시니어 씨가 화이트보드 앞에 섰습니다. "김개발 씨, 라우팅을 하려면 먼저 사용자가 뭘 원하는지 알아야 해요. 이걸 **의도 분류**라고 합니다." 생각해보면 사람들은 같은 의도를 정말 다양하게 표현합니다. "환불해주세요", "돈 돌려받고 싶어요", "구매 취소하려고요", "반품 가능한가요?" 모두 환불이라는 같은 의도를 담고 있습니다. 하지만 컴퓨터는 이 표현들이 같은 의미인지 알지 못합니다. 과거에는 이런 문제를 키워드 매칭으로 해결했습니다. "환불"이라는 단어가 들어가면 환불로 분류하는 식이었습니다. 하지만 이 방식은 한계가 명확했습니다. "환불"이라는 단어 없이 "돈 돌려받고 싶어요"라고 하면 분류에 실패했습니다. LLM의 등장으로 상황이 완전히 바뀌었습니다. LLM은 문맥을 이해합니다. "지난주에 산 신발이 마음에 안 드는데 어떻게 해야 하나요?"라는 복잡한 문장에서도 환불 의도를 파악해낼 수 있습니다. 위 코드에서 IntentClassifier는 사용자 입력을 받아 미리 정의된 의도 중 하나로 분류합니다. LLM에게 시스템 프롬프트로 분류할 의도 목록을 알려주고, 사용자 입력을 전달하면 LLM이 가장 적합한 의도를 반환합니다. 여기서 중요한 점이 있습니다. 분류 결과가 미리 정의된 의도 목록에 없으면 "general"로 처리한다는 것입니다. 이것이 바로 **폴백(fallback)** 전략입니다. 예상치 못한 입력이 들어와도 시스템이 멈추지 않도록 안전장치를 마련해두는 것입니다. 의도 분류와 라우팅은 마치 두 사람이 릴레이 경주를 하는 것과 같습니다. 의도 분류기가 바통을 받아 사용자의 의도를 파악하고, 그 결과를 라우터에게 넘겨줍니다. 라우터는 전달받은 의도에 따라 적절한 처리 시스템으로 요청을 보냅니다. 김개발 씨가 물었습니다. "그런데 의도 분류가 틀리면 어떻게 해요?" 좋은 질문이었습니다. 의도 분류의 정확도가 전체 시스템의 품질을 좌우합니다. 따라서 의도 분류 모델은 지속적으로 모니터링하고 개선해야 합니다. 실무에서는 분류 결과와 함께 **신뢰도 점수**를 반환하도록 설계합니다. 신뢰도가 낮으면 사용자에게 다시 확인하거나, 더 일반적인 처리 경로로 보내는 것입니다. **실전 팁** 💡 - 의도 목록은 서로 겹치지 않고 명확하게 구분되도록 설계하세요 - 신뢰도가 낮은 분류 결과는 로깅해두고 주기적으로 분석하여 모델을 개선하세요 --- ## 3. 라우팅의_장점 김개발 씨가 의도 분류와 라우팅을 구현하고 나니, 시스템이 눈에 띄게 좋아졌습니다. 그런데 팀장님이 물었습니다. "이거 굳이 이렇게 복잡하게 나눠야 해요? 그냥 하나로 처리하면 안 되나요?" 김개발 씨는 라우팅의 장점을 설명해야 했습니다. 라우팅 아키텍처는 **전문성**, **효율성**, **확장성**이라는 세 가지 핵심 장점을 제공합니다. 마치 대형 병원이 응급실, 내과, 외과로 나뉘어 각 분야 전문의가 환자를 담당하는 것처럼, 라우팅을 통해 각 요청 유형에 최적화된 처리가 가능해집니다. 다음 코드를 살펴봅시다. ```python class SpecializedRouter: def __init__(self): # 각 도메인에 최적화된 전문 에이전트 등록 self.agents = { "code": CodeExpertAgent(model="gpt-4o"), # 코딩은 강력한 모델 "chat": ChatAgent(model="gpt-4o-mini"), # 일반 대화는 경량 모델 "math": MathAgent(model="o1-preview"), # 수학은 추론 모델 "search": SearchAgent(tools=["web_search"]) # 검색은 도구 연동 } def route_and_execute(self, query: str, intent: str): # 의도에 맞는 전문 에이전트 선택 agent = self.agents.get(intent, self.agents["chat"]) # 전문 에이전트가 처리하고 결과 반환 return agent.process(query) ``` 팀장님의 질문에 김개발 씨는 잠시 생각했습니다. 어떻게 설명해야 비개발자도 이해할 수 있을까요? "팀장님, 동네 작은 병원 하나랑 대학병원을 비교해보시면 어떨까요?"라고 김개발 씨가 말문을 열었습니다. 동네 병원은 한 명의 의사가 모든 환자를 봅니다. 감기 환자도, 골절 환자도 같은 의사가 진료합니다. 환자가 적을 때는 문제없습니다. 하지만 환자가 많아지면 어떻게 될까요? 골절 환자가 감기 환자 때문에 오래 기다려야 합니다. 더 심각한 문제는, 한 명의 의사가 모든 분야를 완벽하게 다루기 어렵다는 것입니다. 감기는 잘 봐도 골절은 서툴 수 있습니다. 대학병원은 다릅니다. 응급실, 내과, 외과, 정형외과가 나뉘어 있습니다. 환자가 들어오면 먼저 접수처에서 증상을 파악하고 해당 과로 안내합니다. 이것이 바로 **라우팅**입니다. 첫 번째 장점은 **전문성**입니다. 위 코드를 보면, 코딩 질문은 강력한 GPT-4o 모델이 처리하고, 수학 문제는 추론에 특화된 o1-preview가 처리합니다. 각 분야의 전문가가 담당하니 응답 품질이 올라갑니다. 두 번째 장점은 **효율성**입니다. 간단한 인사말에 비싼 GPT-4o를 쓸 필요가 있을까요? 경량 모델인 gpt-4o-mini로 충분합니다. 라우팅을 통해 요청의 복잡도에 맞는 모델을 선택하면 비용을 크게 절감할 수 있습니다. 세 번째 장점은 **확장성**입니다. 나중에 이미지 분석 기능을 추가하고 싶다면 어떻게 해야 할까요? 라우팅 구조에서는 ImageAgent를 새로 만들어서 등록하기만 하면 됩니다. 기존 코드를 건드릴 필요가 없습니다. 팀장님이 고개를 끄덕였습니다. "그러니까 처음엔 좀 복잡해 보여도, 길게 보면 이득이라는 거죠?" 정확한 이해였습니다. 실제로 대형 AI 서비스들은 모두 라우팅 아키텍처를 사용합니다. OpenAI의 ChatGPT도 내부적으로 여러 모델과 시스템을 조합하여 사용합니다. 코드 인터프리터, 웹 검색, 이미지 생성 등 각 기능이 별도의 전문 시스템으로 구현되어 있고, 라우터가 사용자 요청에 따라 적절한 시스템을 호출합니다. 주의할 점도 있습니다. 라우팅 자체에도 비용이 듭니다. 의도를 분류하는 데 LLM 호출이 필요하고, 라우팅 로직도 유지보수해야 합니다. 따라서 요청 유형이 단순하고 트래픽이 적다면 오히려 단일 모델이 효율적일 수 있습니다. 상황에 맞게 판단해야 합니다. **실전 팁** 💡 - 비용 대비 효과를 측정하여 라우팅 도입 여부를 결정하세요 - 처음부터 완벽한 라우팅을 구현하려 하지 말고, 가장 필요한 곳부터 점진적으로 적용하세요 --- ## 4. 라우팅_전략_설계 김개발 씨는 이제 라우팅의 필요성을 완전히 이해했습니다. 그런데 막상 설계를 시작하려니 막막했습니다. 의도를 어떻게 나눠야 할까요? 몇 개의 라우트가 적당할까요? 박시니어 씨가 라우팅 전략 설계의 핵심을 알려주었습니다. 라우팅 전략 설계는 **의도 분류 체계 정의**, **라우트별 처리기 매핑**, **폴백 전략 수립**의 세 단계로 이루어집니다. 마치 도시 교통 시스템을 설계하는 것처럼, 모든 차량이 목적지에 효율적으로 도달할 수 있도록 도로와 신호 체계를 계획하는 것입니다. 다음 코드를 살펴봅시다. ```python # 체계적인 라우팅 전략 설계 class RouterConfig: # 1단계: 의도 분류 체계 정의 INTENT_HIERARCHY = { "customer_service": ["refund", "delivery", "complaint"], "product": ["inquiry", "recommendation", "comparison"], "general": ["greeting", "farewell", "unknown"] } # 2단계: 라우트별 처리기 매핑 ROUTE_HANDLERS = { "refund": {"handler": "refund_agent", "priority": "high"}, "delivery": {"handler": "logistics_agent", "priority": "medium"}, "greeting": {"handler": "chat_agent", "priority": "low"} } # 3단계: 폴백 전략 FALLBACK_CHAIN = ["clarification", "human_handoff", "apology"] ``` 박시니어 씨가 화이트보드에 그림을 그리기 시작했습니다. "라우팅 전략 설계는 도시 교통 시스템을 만드는 것과 비슷해요." 도시를 설계한다고 상상해보세요. 먼저 어떤 종류의 차량이 다닐지 파악해야 합니다. 승용차, 버스, 트럭, 오토바이. 이것이 **의도 분류 체계 정의**입니다. 우리 시스템에 들어올 수 있는 모든 종류의 요청을 정리하는 것입니다. 위 코드의 INTENT_HIERARCHY를 보세요. 의도를 계층 구조로 정리했습니다. 최상위에는 customer_service, product, general이라는 큰 카테고리가 있고, 그 아래에 세부 의도가 있습니다. 이렇게 계층 구조로 만들면 관리가 쉬워집니다. 다음은 각 차량이 어느 도로로 가야 하는지 정하는 것입니다. **라우트별 처리기 매핑**입니다. ROUTE_HANDLERS를 보면 각 의도에 대해 어떤 처리기가 담당할지, 우선순위는 어떤지 정의되어 있습니다. 환불 요청은 우선순위가 high입니다. 고객이 돈 문제로 불만을 가지면 빠르게 처리해야 하니까요. 마지막으로 중요한 것이 **폴백 전략**입니다. 도로에 사고가 나면 우회로가 필요하듯이, 시스템에서 예상치 못한 상황이 발생했을 때 어떻게 대응할지 미리 계획해야 합니다. FALLBACK_CHAIN을 보세요. 첫 번째 시도는 "clarification", 즉 사용자에게 다시 질문하는 것입니다. "죄송합니다, 환불 문의이신가요, 배송 문의이신가요?" 이렇게요. 그래도 해결이 안 되면 "human_handoff", 상담원에게 연결합니다. 최후의 수단은 "apology", 정중하게 사과하고 다른 채널로 안내하는 것입니다. 김개발 씨가 질문했습니다. "의도를 너무 세분화하면 오히려 복잡해지지 않나요?" 날카로운 질문이었습니다. 맞습니다. 의도가 너무 많으면 분류 정확도가 떨어지고, 너무 적으면 처리가 부정확해집니다. 경험적으로, 한 시스템에서 관리하기 적당한 의도 수는 10~20개 정도입니다. 그 이상이 필요하면 상위 카테고리로 먼저 라우팅하고, 하위에서 다시 세부 라우팅하는 계층 구조를 고려해야 합니다. 또한 의도 간에 겹침이 없어야 합니다. "상품 문의"와 "상품 추천"이 비슷해 보여도, 처리 방식이 다르다면 명확히 구분해야 합니다. 반대로 처리 방식이 같다면 하나로 합치는 것이 낫습니다. **실전 팁** 💡 - 의도 분류 체계는 실제 사용자 로그를 분석하여 데이터 기반으로 설계하세요 - 폴백 전략은 반드시 테스트하여 실제로 동작하는지 확인하세요 --- ## 5. 동적_라우팅과_정적_라우팅 라우팅 전략을 설계하던 김개발 씨에게 박시니어 씨가 물었습니다. "그런데 라우팅 규칙을 코드에 하드코딩할 거야, 아니면 실시간으로 판단하게 할 거야?" 김개발 씨는 처음 듣는 개념이었습니다. **정적 라우팅**과 **동적 라우팅**, 이 둘의 차이는 무엇일까요? **정적 라우팅**은 미리 정해진 규칙에 따라 경로를 결정하고, **동적 라우팅**은 실시간으로 상황을 판단하여 경로를 결정합니다. 지하철과 택시의 차이와 같습니다. 지하철은 정해진 노선만 달리지만, 택시는 교통 상황에 따라 경로를 바꿉니다. 각각 장단점이 있어 상황에 맞게 선택해야 합니다. 다음 코드를 살펴봅시다. ```python # 정적 라우팅: 키워드 기반 class StaticRouter: KEYWORD_RULES = { "환불|반품|취소": "refund_handler", "배송|택배|도착": "delivery_handler" } def route(self, query: str) -> str: for pattern, handler in self.KEYWORD_RULES.items(): if re.search(pattern, query): return handler return "default_handler" # 동적 라우팅: LLM 기반 실시간 판단 class DynamicRouter: def route(self, query: str, context: dict) -> str: # LLM이 문맥을 고려하여 최적 경로 결정 response = self.llm.analyze( query=query, context=context, # 대화 이력, 사용자 정보 등 available_routes=self.routes ) return response.best_route ``` 박시니어 씨가 두 가지 상황을 예로 들었습니다. "김개발 씨, 지하철 타본 적 있지?" 지하철은 **정적 라우팅**과 같습니다. 노선이 정해져 있습니다. 강남역에서 홍대입구역으로 가려면 2호선을 타야 합니다. 어떤 상황에서도 2호선은 그 노선만 달립니다. 예측 가능하고 안정적입니다. 위 코드의 StaticRouter가 바로 이 방식입니다. "환불"이라는 키워드가 있으면 무조건 refund_handler로 보냅니다. 규칙이 명확하고, 실행 속도가 빠르고, 결과가 예측 가능합니다. 하지만 한계도 있습니다. "지난번에 산 거 그거 있잖아, 그거 좀..."이라는 요청은 어떨까요? 키워드만으로는 이게 환불인지, 배송 조회인지, 상품 문의인지 알 수 없습니다. 이럴 때 **동적 라우팅**이 필요합니다. 택시를 생각해보세요. 택시 기사는 목적지를 듣고, 현재 교통 상황을 고려해서 최적의 경로를 선택합니다. 정체가 심하면 우회하고, 뚫리면 직진합니다. DynamicRouter는 LLM을 활용해 실시간으로 판단합니다. 단순히 현재 질문만 보는 게 아니라, 대화 이력(context)도 함께 분석합니다. "지난번에 산 거"라는 표현이 나오면 이전 대화에서 무엇을 샀는지 확인하고, 그에 맞는 라우트를 선택합니다. 그렇다면 무조건 동적 라우팅이 좋을까요? 그렇지 않습니다. 동적 라우팅은 LLM 호출이 필요하므로 비용이 들고 시간이 걸립니다. 또한 LLM의 판단이 항상 일관되지 않을 수 있습니다. 실무에서는 두 방식을 **하이브리드**로 사용합니다. 먼저 정적 라우팅으로 명확한 케이스를 빠르게 처리하고, 애매한 경우에만 동적 라우팅을 적용하는 것입니다. 이렇게 하면 비용과 품질 사이에서 균형을 잡을 수 있습니다. 김개발 씨가 고개를 끄덕였습니다. "그러니까 지하철로 갈 수 있으면 지하철 타고, 지하철이 안 가는 곳은 택시를 타는 거네요." 정확한 비유였습니다. 대부분의 요청은 정적 라우팅으로 빠르게 처리하고, 복잡하거나 애매한 요청만 동적 라우팅으로 정교하게 처리하는 것이 효율적인 전략입니다. **실전 팁** 💡 - 트래픽의 80%를 차지하는 주요 요청은 정적 라우팅으로 빠르게 처리하세요 - 동적 라우팅 결과를 모니터링하여 자주 나오는 패턴은 정적 규칙으로 전환하세요 --- ## 6. 주요_활용_사례_분석 이론은 충분히 배웠으니 이제 실제 사례를 살펴볼 차례입니다. 김개발 씨는 유명 AI 서비스들이 라우팅을 어떻게 활용하는지 궁금했습니다. 박시니어 씨가 업계의 대표적인 세 가지 활용 사례를 분석해주었습니다. 라우팅은 **고객 서비스 챗봇**, **멀티모달 AI 시스템**, **에이전트 오케스트레이션**에서 핵심적으로 활용됩니다. 각 분야에서 라우팅이 어떻게 시스템의 품질과 효율성을 높이는지 이해하면, 자신의 프로젝트에도 적용할 수 있습니다. 다음 코드를 살펴봅시다. ```python # 사례 1: 고객 서비스 멀티에이전트 시스템 class CustomerServiceOrchestrator: def __init__(self): self.agents = { "faq": FAQAgent(), # 자주 묻는 질문 처리 "order": OrderAgent(), # 주문 조회/관리 "refund": RefundAgent(), # 환불 처리 "escalation": HumanAgent() # 상담원 연결 } async def handle_request(self, request: CustomerRequest): # 1단계: 의도 분류 intent = await self.classifier.classify(request.message) # 2단계: 감정 분석으로 긴급도 판단 sentiment = await self.analyzer.get_sentiment(request.message) # 3단계: 라우팅 결정 if sentiment.is_angry and intent != "faq": return await self.agents["escalation"].handle(request) return await self.agents[intent].handle(request) ``` 박시니어 씨가 노트북을 펼쳐 실제 서비스 사례를 보여주었습니다. "업계에서 라우팅을 어떻게 쓰는지 보여줄게요." 첫 번째 사례는 **고객 서비스 챗봇**입니다. 위 코드를 보세요. 단순히 의도만으로 라우팅하지 않습니다. 감정 분석도 함께 수행합니다. 고객이 화가 난 상태라면, FAQ 질문이 아닌 이상 바로 상담원에게 연결합니다. 이것이 실무에서 중요한 포인트입니다. 고객이 "배송 언제 와요?"라고 물었을 때, 차분하게 물었다면 자동 응답으로 충분합니다. 하지만 "배송 도대체 언제 오는 거예요!!!"라면 상황이 다릅니다. 이미 화가 난 고객에게 로봇 같은 응답을 보내면 더 화가 납니다. 두 번째 사례는 **멀티모달 AI 시스템**입니다. ChatGPT나 Claude같은 서비스를 생각해보세요. 사용자가 텍스트를 보내면 텍스트 처리 모델이, 이미지를 보내면 비전 모델이, 코드를 보내면 코드 분석 모델이 처리합니다. 하나의 인터페이스 뒤에서 여러 전문 모델이 협력하는 것입니다. 세 번째 사례는 **에이전트 오케스트레이션**입니다. 복잡한 작업을 여러 AI 에이전트가 협력하여 처리하는 시스템입니다. 예를 들어 "지난달 매출 분석해서 보고서 만들어줘"라는 요청이 들어오면, 데이터 조회 에이전트가 데이터를 가져오고, 분석 에이전트가 분석하고, 문서 작성 에이전트가 보고서를 만듭니다. 김개발 씨가 감탄했습니다. "와, 생각보다 훨씬 복잡한 구조네요." 맞습니다. 사용자 입장에서는 하나의 대화창일 뿐이지만, 그 뒤에는 정교한 라우팅 시스템이 동작하고 있습니다. 이런 사례들에서 공통적으로 발견되는 패턴이 있습니다. 첫째, **다단계 판단**입니다. 의도만 보는 게 아니라 감정, 긴급도, 사용자 등급 등을 종합합니다. 둘째, **전문화된 처리기**입니다. 각 라우트마다 해당 분야에 최적화된 에이전트가 있습니다. 셋째, **유연한 폴백**입니다. 자동화가 실패하면 사람에게 넘기는 경로가 항상 있습니다. 여러분의 프로젝트도 이 패턴을 참고하면 좋습니다. 처음부터 완벽할 필요는 없습니다. 가장 중요한 분기점부터 시작해서 점진적으로 확장해나가면 됩니다. **실전 팁** 💡 - 실제 서비스의 대화 로그를 분석하면 어떤 라우팅이 필요한지 파악할 수 있습니다 - 자동화와 휴먼 폴백의 균형점을 찾는 것이 중요합니다 --- ## 7. 라우팅_설계_베스트_프랙티스 드디어 마지막 장입니다. 김개발 씨는 지금까지 배운 내용을 정리하며 실전에 적용할 준비를 했습니다. 박시니어 씨가 마지막으로 현업에서 검증된 베스트 프랙티스를 전수해주었습니다. 라우팅 설계의 베스트 프랙티스는 **명확한 경계 정의**, **모니터링과 개선**, **점진적 복잡성 추가**입니다. 처음부터 완벽한 시스템을 만들려 하지 말고, 단순하게 시작해서 데이터를 보며 개선하는 것이 성공의 핵심입니다. 다음 코드를 살펴봅시다. ```python # 실전 라우팅 시스템 완성 예제 class ProductionRouter: def __init__(self): self.classifier = IntentClassifier() self.routes = {} self.metrics = RoutingMetrics() def register_route(self, intent: str, handler, threshold=0.7): """라우트 등록 - 신뢰도 임계값 설정""" self.routes[intent] = {"handler": handler, "threshold": threshold} async def route(self, query: str) -> RouteResult: # 1. 의도 분류 및 신뢰도 측정 classification = await self.classifier.classify(query) # 2. 메트릭 기록 (모니터링용) self.metrics.record(classification) # 3. 신뢰도 기반 라우팅 결정 route_config = self.routes.get(classification.intent) if classification.confidence >= route_config["threshold"]: return await route_config["handler"](query) # 4. 신뢰도 낮으면 확인 요청 return await self.request_clarification(query, classification) ``` 박시니어 씨가 마지막 조언을 시작했습니다. "김개발 씨, 지금까지 배운 건 이론이야. 이제 실전에서 성공하는 방법을 알려줄게." 첫 번째 원칙은 **명확한 경계 정의**입니다. 각 라우트의 책임을 명확하게 나눠야 합니다. "이 요청은 A가 처리해야 할까, B가 처리해야 할까?" 이런 고민이 생긴다면 경계가 불명확한 것입니다. 경계가 흐리면 분류 정확도가 떨어지고, 나중에 유지보수도 어려워집니다. 위 코드에서 threshold 개념을 주목하세요. 분류 신뢰도가 0.7 미만이면 자동 처리하지 않고 사용자에게 확인을 요청합니다. 이것이 **신뢰도 기반 라우팅**입니다. 확실할 때만 자동화하고, 불확실하면 사람의 판단을 구합니다. 두 번째 원칙은 **모니터링과 개선**입니다. self.metrics.record()를 보세요. 모든 분류 결과를 기록합니다. 이 데이터가 쌓이면 패턴이 보입니다. 어떤 의도가 자주 혼동되는지, 어떤 표현이 분류 실패를 유발하는지 알 수 있습니다. 실무에서는 주간 단위로 라우팅 성능을 리뷰합니다. 잘못 라우팅된 케이스를 분석하고, 규칙을 개선하거나 학습 데이터에 추가합니다. 이 과정을 반복하면 시스템이 점점 똑똑해집니다. 세 번째 원칙은 **점진적 복잡성 추가**입니다. 처음부터 10개의 라우트를 만들지 마세요. 가장 중요한 2~3개부터 시작하세요. 그것이 안정화되면 하나씩 추가합니다. "얼마나 잘 동작할지 모르니까 일단 다 만들어놓자"는 접근은 실패의 지름길입니다. 김개발 씨가 정리했습니다. "결국 완벽한 시스템은 한 번에 만들어지는 게 아니라, 데이터를 보면서 계속 다듬어가는 거네요." 정확합니다. 소프트웨어는 살아있는 유기체와 같습니다. 출시 후에도 계속 성장하고 변화해야 합니다. 마지막으로 박시니어 씨가 덧붙였습니다. "그리고 가장 중요한 건, 사용자 경험이야. 내부 구조가 아무리 멋져도 사용자가 불편하면 의미 없어." 라우팅은 수단이지 목적이 아닙니다. 궁극적으로는 사용자에게 더 빠르고 정확한 응답을 제공하기 위한 것입니다. 기술에 매몰되지 말고 항상 사용자 관점에서 생각해야 합니다. 김개발 씨는 이제 자신감이 생겼습니다. 내일부터 회사의 챗봇 시스템에 라우팅을 적용해볼 것입니다. 작게 시작해서 점진적으로 확장하면서요. 여러분도 오늘 배운 내용을 실제 프로젝트에 적용해보세요. 처음엔 어색하더라도 경험이 쌓이면 자연스러워질 것입니다. **실전 팁** 💡 - 출시 전에 다양한 엣지 케이스로 테스트하고, 폴백이 제대로 동작하는지 확인하세요 - 사용자 피드백을 수집하는 채널을 만들어 지속적으로 개선하세요 - 복잡한 로직보다 단순하고 예측 가능한 동작이 유지보수에 유리합니다 --- 이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

카테고리: Python,AI,LLM

언어: Python

태그: Python, LLM, Routing, IntentClassification, AIArchitecture, Python,AI,LLM

작성자: AI Generated

CodeDeck

LLM 라우팅 완벽 가이드

목차

1. 라우팅이란 무엇인가

2. 의도 분류와 라우팅의 관계

3. 라우팅의 장점

4. 라우팅 전략 설계

5. 동적 라우팅과 정적 라우팅

6. 주요 활용 사례 분석

7. 라우팅 설계 베스트 프랙티스

이 카드뉴스가 포함된 코스

파이썬으로 만드는 AI 에이전트

댓글 (0)

함께 보면 좋은 카드 뉴스

프레임워크 선택 LangGraph vs CrewAI vs AutoGen 완벽 가이드

Day 6 학습 루프 이해하기

Day 5 Baseline 모델 만들기

Day 4 학습용 샘플 데이터 만들기

Day 2 PyTorch 기본기 정리