Discrete Multi-codebook LM 아키텍처 완벽 가이드

음성 합성의 새로운 패러다임인 Discrete Multi-codebook Language Model 아키텍처를 초급 개발자도 이해할 수 있도록 설명합니다. LM+DiT의 한계를 극복하고 End-to-End 학습의 장점을 활용하는 방법을 코드와 함께 알아봅니다.

1. LM과 DiT의 한계 극복

김개발 씨는 회사에서 음성 합성 시스템을 개발하고 있었습니다. 기존에 사용하던 LM+DiT 방식이 자꾸 이상한 결과를 내놓자, 선배 박시니어 씨에게 도움을 요청했습니다.

"왜 이렇게 음성 품질이 들쭉날쭉한 걸까요?"

기존의 LM+DiT 방식은 Language Model이 먼저 토큰을 생성하고, 이를 Diffusion Transformer가 받아서 오디오로 변환하는 2단계 구조입니다. 마치 통역사가 말한 내용을 다시 다른 통역사가 번역하는 것처럼, 중간에 정보 손실이 발생할 수밖에 없습니다.

이런 파이프라인 구조의 한계를 극복하기 위해 새로운 아키텍처가 등장했습니다.

다음 코드를 살펴봅시다.

# 기존 LM+DiT 방식의 문제점을 보여주는 구조
class TraditionalTTS:
    def __init__(self):
        self.language_model = LanguageModel()  # 1단계: 텍스트 -> 토큰
        self.diffusion_model = DiT()           # 2단계: 토큰 -> 오디오

    def generate(self, text):
        # 첫 번째 단계: LM이 discrete token 생성
        tokens = self.language_model.generate(text)
        # 여기서 정보 손실 발생!
        # tokens는 압축된 표현이라 세부 정보가 사라짐

        # 두 번째 단계: DiT가 토큰을 오디오로 변환
        audio = self.diffusion_model.decode(tokens)
        return audio  # 품질 저하된 결과

김개발 씨는 입사 6개월 차 AI 엔지니어입니다. 최근 회사에서 TTS(Text-to-Speech) 시스템을 개선하라는 과제를 받았습니다.

기존 시스템은 LM+DiT 방식을 사용하고 있었는데, 어떤 문장은 자연스럽게 읽고 어떤 문장은 어색하게 읽는 문제가 있었습니다. 선배 박시니어 씨가 화이트보드 앞에 섰습니다.

"김개발 씨, 우리 시스템의 구조를 한번 그려볼까요?" 박시니어 씨는 두 개의 박스를 그렸습니다. 첫 번째 박스에는 'Language Model', 두 번째 박스에는 'Diffusion Transformer'라고 썼습니다.

그리고 두 박스 사이에 화살표를 그렸습니다. "문제는 바로 이 화살표에 있어요." 박시니어 씨가 말했습니다.

"LM이 생성한 토큰을 DiT에 전달할 때, 필연적으로 정보가 압축됩니다. 마치 고해상도 사진을 저해상도로 변환했다가 다시 고해상도로 복원하려는 것과 같아요." 김개발 씨는 고개를 끄덕였습니다.

"그래서 어떤 문장은 잘 되고 어떤 문장은 안 되는 거군요. 압축 과정에서 중요한 정보가 사라지니까요." 이것이 바로 **정보 병목 현상(Information Bottleneck)**입니다.

LM이 아무리 좋은 표현을 생성해도, 그것을 discrete token으로 압축하는 순간 미세한 뉘앙스나 억양 정보가 손실됩니다. 더 큰 문제는 학습의 분리입니다.

LM과 DiT가 따로 학습되기 때문에, 두 모델 사이의 인터페이스에서 불일치가 발생합니다. LM은 자신이 생성한 토큰이 어떤 오디오가 될지 모르고, DiT는 자신이 받은 토큰이 어떤 맥락에서 생성되었는지 모릅니다.

실제 현업에서 이 문제는 심각한 결과를 초래합니다. 고객 서비스 챗봇의 음성이 로봇처럼 들리거나, 오디오북의 내레이션이 감정 없이 평평하게 들리는 경우가 많습니다.

이는 단순히 모델 크기의 문제가 아니라 아키텍처의 근본적인 한계입니다. 박시니어 씨가 결론을 내렸습니다.

"우리가 필요한 건 이 두 단계를 하나로 합치는 거예요. 그게 바로 Discrete Multi-codebook LM 아키텍처입니다."

실전 팁

💡 - 2단계 파이프라인 구조는 디버깅이 어렵습니다. 문제가 LM에서 발생했는지 DiT에서 발생했는지 파악하기 힘듭니다.

정보 병목 현상은 모델 크기를 키워도 해결되지 않습니다. 구조적 변경이 필요합니다.

2. Multi codebook 개념

"근데 선배, Multi-codebook이 뭐예요?" 김개발 씨가 물었습니다. 박시니어 씨는 잠시 생각하더니 도서관 비유를 들기 시작했습니다.

"책을 분류하는 방법을 생각해보세요. 한 가지 기준으로만 분류하면 찾기 어렵잖아요?"

Multi-codebook은 하나의 정보를 여러 개의 코드북으로 나누어 표현하는 방식입니다. 마치 도서관에서 책을 장르별, 저자별, 출판년도별로 여러 기준으로 분류하는 것처럼, 음성 정보를 음색, 억양, 발음 등 여러 측면으로 나누어 저장합니다.

이렇게 하면 각 측면의 정보를 더 풍부하게 보존할 수 있습니다.

다음 코드를 살펴봅시다.

# Multi-codebook 개념을 보여주는 코드
class MultiCodebook:
    def __init__(self, num_codebooks=4, codebook_size=1024):
        # 여러 개의 코드북을 생성합니다
        self.codebooks = nn.ModuleList([
            nn.Embedding(codebook_size, embed_dim)
            for _ in range(num_codebooks)
        ])
        # 각 코드북은 다른 측면의 정보를 담당합니다
        # codebook[0]: 기본 음소 정보
        # codebook[1]: 피치/억양 정보
        # codebook[2]: 에너지/강세 정보
        # codebook[3]: 음색/스타일 정보

    def encode(self, audio_features):
        codes = []
        for i, codebook in enumerate(self.codebooks):
            code = self.quantize(audio_features, codebook)
            codes.append(code)
        return codes  # 여러 코드의 조합으로 풍부한 표현

박시니어 씨가 화이트보드에 새로운 그림을 그리기 시작했습니다. 먼저 하나의 큰 원을 그리고 '음성 정보'라고 썼습니다.

그 다음 네 개의 작은 원을 그려서 큰 원과 연결했습니다. "김개발 씨, 우리가 말을 할 때 어떤 정보들이 담겨 있을까요?" 김개발 씨가 대답했습니다.

"음... 어떤 단어를 말하는지, 어떤 톤으로 말하는지, 얼마나 세게 말하는지?" "맞아요!

그리고 누가 말하는지, 즉 음색 정보도 있죠." 박시니어 씨가 네 개의 작은 원에 각각 '음소', '피치', '에너지', '음색'이라고 썼습니다. Single codebook 방식은 이 모든 정보를 하나의 코드북에 욱여넣습니다.

1024개의 코드로 음성의 모든 특성을 표현해야 하니, 당연히 정보가 손실될 수밖에 없습니다. 마치 모든 책을 '가나다' 순서로만 정리한 도서관에서 특정 주제의 책을 찾는 것처럼 비효율적입니다.

반면 Multi-codebook 방식은 각 측면마다 전용 코드북을 둡니다. 음소 정보는 첫 번째 코드북이, 피치 정보는 두 번째 코드북이 담당합니다.

각 코드북은 자신이 담당하는 정보에만 집중하므로, 훨씬 정밀한 표현이 가능합니다. 실제로 Qwen3 TTS에서는 4개의 코드북을 사용합니다.

첫 번째 코드북이 가장 중요한 의미론적 정보를 담고, 나머지 코드북들이 점점 더 세밀한 음향 정보를 담습니다. 이것을 **계층적 구조(Hierarchical Structure)**라고 합니다.

여기서 중요한 점은 코드북들 사이의 의존성입니다. 두 번째 코드북의 내용은 첫 번째 코드북의 내용에 따라 달라집니다.

"안녕하세요"라는 음소가 정해지면, 그에 맞는 피치 패턴이 선택되어야 하기 때문입니다. 김개발 씨가 감탄했습니다.

"그러니까 정보를 나눠서 저장하면서도 서로 연결되어 있는 거네요. 마치 관계형 데이터베이스처럼요!" 박시니어 씨가 웃었습니다.

"좋은 비유예요. 실제로 이런 구조 덕분에 훨씬 자연스러운 음성을 생성할 수 있습니다."

실전 팁

💡 - 코드북 개수가 많을수록 표현력이 좋아지지만, 계산 비용도 증가합니다. 보통 4-8개가 적당합니다.

첫 번째 코드북이 가장 중요합니다. 여기서 문제가 생기면 전체 품질이 떨어집니다.

3. Qwen3 TTS 코드 분석

이론은 충분히 들었습니다. 김개발 씨는 실제 코드를 보고 싶어졌습니다.

박시니어 씨가 modeling_qwen3_tts.py 파일을 열었습니다. "백문이 불여일견이죠.

실제 구현을 살펴봅시다."

Qwen3 TTS의 핵심 구현인 modeling_qwen3_tts.py는 Multi-codebook LM 아키텍처의 교과서적인 구현입니다. 이 코드에서는 텍스트 입력부터 다중 코드 생성까지 하나의 통합된 모델로 처리합니다.

특히 Qwen3TTSForConditionalGeneration 클래스가 전체 파이프라인을 담당합니다.

다음 코드를 살펴봅시다.

# modeling_qwen3_tts.py의 핵심 구조
class Qwen3TTSForConditionalGeneration(PreTrainedModel):
    def __init__(self, config):
        super().__init__(config)
        # 텍스트 인코더: 입력 텍스트를 이해합니다
        self.text_encoder = Qwen3TTSEncoder(config)
        # 코드 예측 헤드: 4개의 코드북에 대한 예측
        self.code_heads = nn.ModuleList([
            nn.Linear(config.hidden_size, config.codebook_size)
            for _ in range(config.num_codebooks)  # 기본값: 4
        ])

    def forward(self, input_ids, attention_mask, labels=None):
        # 텍스트를 hidden states로 변환
        hidden_states = self.text_encoder(input_ids, attention_mask)
        # 각 코드북에 대한 로짓 계산
        logits = [head(hidden_states) for head in self.code_heads]
        return logits  # shape: [4, batch, seq_len, codebook_size]

박시니어 씨가 코드 에디터 화면을 가리켰습니다. "이 클래스가 전체 시스템의 심장이에요." Qwen3TTSForConditionalGeneration 클래스는 이름에서 알 수 있듯이 조건부 생성을 담당합니다.

여기서 '조건'이란 입력 텍스트이고, '생성'이란 음성 코드입니다. 먼저 text_encoder를 살펴봅시다.

이 컴포넌트는 "안녕하세요"라는 텍스트를 받아서 모델이 이해할 수 있는 벡터 표현으로 변환합니다. Qwen3 아키텍처 기반이라 강력한 언어 이해 능력을 갖추고 있습니다.

다음으로 code_heads가 있습니다. 이것은 nn.ModuleList로 4개의 Linear 레이어를 담고 있습니다.

각 레이어는 하나의 코드북에 대한 예측을 담당합니다. 김개발 씨가 질문했습니다.

"왜 하나의 큰 레이어가 아니라 4개의 작은 레이어를 사용하나요?" "좋은 질문이에요." 박시니어 씨가 대답했습니다. "각 코드북이 다른 정보를 담당하니까, 예측도 별도로 해야 해요.

음소를 예측하는 것과 피치를 예측하는 것은 다른 작업이니까요." forward 메서드를 보면 실제 동작 흐름이 보입니다. 먼저 text_encoder가 입력을 처리해서 hidden_states를 만듭니다.

그 다음 각 code_head가 이 hidden_states를 받아서 자신만의 로짓을 계산합니다. 여기서 중요한 점은 모든 코드 헤드가 같은 hidden_states를 공유한다는 것입니다.

이것이 코드북들 사이의 일관성을 보장합니다. 같은 문맥에서 음소와 피치가 따로 노는 것이 아니라, 조화롭게 선택됩니다.

출력 shape를 보면 [4, batch, seq_len, codebook_size]입니다. 4개의 코드북 각각에 대해, 배치의 각 샘플에 대해, 시퀀스의 각 위치에 대해, 코드북 크기만큼의 확률 분포를 출력합니다.

김개발 씨가 감탄했습니다. "생각보다 구조가 깔끔하네요.

복잡한 음성 합성이 이렇게 단순한 구조로 가능하다니." 박시니어 씨가 고개를 끄덕였습니다. "좋은 아키텍처는 복잡한 문제를 단순하게 만들어주죠."

실전 팁

💡 - config.num_codebooks 값을 조절하여 코드북 개수를 바꿀 수 있습니다. 실험해보세요.

hidden_states의 차원(hidden_size)이 클수록 더 풍부한 표현이 가능하지만 메모리 사용량도 증가합니다.

4. End to End 학습의 장점

"자, 이제 핵심 질문이에요." 박시니어 씨가 말했습니다. "왜 굳이 End-to-End로 학습해야 할까요?

각 부분을 따로 학습하면 안 될까요?" 김개발 씨는 이 질문의 답을 찾기 위해 귀를 기울였습니다.

End-to-End 학습은 텍스트 입력부터 음성 코드 출력까지 전체 파이프라인을 하나의 손실 함수로 학습하는 방식입니다. 마치 피아니스트가 악보를 보면서 동시에 손가락 움직임을 연습하는 것처럼, 입력 이해와 출력 생성이 함께 최적화됩니다.

이렇게 하면 중간 단계의 오차가 누적되지 않고 전체적으로 가장 좋은 결과를 얻을 수 있습니다.

다음 코드를 살펴봅시다.

# End-to-End 학습의 핵심: 통합 손실 함수
class Qwen3TTSLoss(nn.Module):
    def __init__(self, num_codebooks=4):
        super().__init__()
        self.num_codebooks = num_codebooks
        self.ce_loss = nn.CrossEntropyLoss()

    def forward(self, logits_list, target_codes):
        total_loss = 0
        for i in range(self.num_codebooks):
            # 각 코드북에 대한 손실 계산
            loss_i = self.ce_loss(logits_list[i], target_codes[i])
            # 첫 번째 코드북에 더 높은 가중치 부여
            weight = 1.0 if i == 0 else 0.5
            total_loss += weight * loss_i
        return total_loss  # 모든 코드북의 손실을 합산

박시니어 씨가 새로운 비유를 들었습니다. "김개발 씨, 자동차 조립 공정을 생각해보세요." 전통적인 방식은 모듈별 최적화입니다.

엔진 팀은 최고의 엔진을 만들고, 변속기 팀은 최고의 변속기를 만듭니다. 각 부품은 훌륭하지만, 조립했을 때 서로 잘 맞지 않을 수 있습니다.

엔진의 출력 특성과 변속기의 기어비가 최적으로 매칭되지 않으면 연비가 떨어집니다. End-to-End 최적화는 다릅니다.

처음부터 완성된 자동차의 성능을 기준으로 모든 부품을 함께 설계합니다. 엔진과 변속기가 서로의 특성을 고려하며 최적화되므로, 전체 시스템으로서 최고의 성능을 발휘합니다.

TTS 시스템도 마찬가지입니다. 기존 LM+DiT 방식에서는 LM이 "좋은 토큰"을 생성하도록 학습하고, DiT가 "토큰을 잘 변환"하도록 따로 학습합니다.

하지만 LM이 생각하는 "좋은 토큰"이 DiT에게도 좋은 입력인지는 보장할 수 없습니다. 코드를 보면 이 철학이 구현되어 있습니다.

Qwen3TTSLoss 클래스는 4개의 코드북에 대한 손실을 하나로 합칩니다. 모델은 이 통합 손실을 최소화하도록 학습됩니다.

흥미로운 점은 **가중치(weight)**입니다. 첫 번째 코드북에는 1.0, 나머지에는 0.5의 가중치가 적용됩니다.

왜 그럴까요? "첫 번째 코드북이 의미론적 정보를 담고 있어서예요." 박시니어 씨가 설명했습니다.

"발음이 틀리면 아무리 억양이 좋아도 소용없잖아요. 그래서 음소 정보가 더 중요하게 취급됩니다." 김개발 씨가 물었습니다.

"그럼 학습 시간은 얼마나 걸리나요?" "기존 방식보다 오히려 빨라질 수 있어요." 박시니어 씨가 대답했습니다. "두 모델을 따로 학습할 필요가 없고, 한 번에 최적화하니까요.

게다가 GPU 메모리도 효율적으로 사용할 수 있습니다." End-to-End 학습의 또 다른 장점은 그래디언트 흐름입니다. 최종 출력의 오류가 입력 처리 단계까지 직접 전파됩니다.

모델의 모든 부분이 최종 목표를 향해 협력하여 학습합니다.

실전 팁

💡 - End-to-End 학습 시 learning rate 스케줄링이 중요합니다. 초반에는 낮게 시작하세요.

코드북별 가중치는 하이퍼파라미터입니다. 데이터셋에 따라 조정이 필요할 수 있습니다.

5. 정보 병목 현상 제거

"드디어 핵심에 도달했네요." 박시니어 씨가 말했습니다. "정보 병목 현상이 뭔지, 그리고 Multi-codebook이 어떻게 이걸 해결하는지 제대로 이해해봅시다." 김개발 씨는 노트를 펼쳤습니다.

**정보 병목 현상(Information Bottleneck)**은 풍부한 정보가 좁은 채널을 통과하면서 손실되는 현상입니다. 마치 넓은 고속도로가 갑자기 1차선으로 좁아지면 정체가 발생하는 것과 같습니다.

Multi-codebook 아키텍처는 여러 개의 병렬 채널을 제공하여 정보가 다양한 경로로 흐를 수 있게 합니다. 이를 통해 음성의 다양한 특성이 손실 없이 전달됩니다.

다음 코드를 살펴봅시다.

# 정보 병목 현상 비교: Single vs Multi codebook
class SingleCodebook:
    def encode(self, audio):
        # 모든 정보를 1024개 코드 중 하나로 압축
        # 정보 용량: log2(1024) = 10 bits/frame
        code = self.quantize(audio)  # 심각한 정보 손실
        return code

class MultiCodebook:
    def encode(self, audio):
        # 4개의 코드북으로 분산 저장
        # 정보 용량: 4 * log2(1024) = 40 bits/frame
        codes = []
        residual = audio
        for codebook in self.codebooks:
            code = codebook.quantize(residual)
            codes.append(code)
            # 잔차(residual)를 다음 코드북에 전달
            residual = residual - codebook.decode(code)
        return codes  # 정보 손실 최소화

김개발 씨가 혼란스러운 표정을 지었습니다. "병목 현상이라...

구체적으로 어떤 문제가 생기나요?" 박시니어 씨가 간단한 실험을 제안했습니다. "음성 파일 하나를 생각해보세요.

원본은 16kHz 샘플링에 16bit 양자화라고 하면, 1초에 256Kbit의 정보가 있어요." "그걸 single codebook으로 인코딩하면?" 김개발 씨가 물었습니다. "만약 1024개 코드 중 하나를 선택한다면, 프레임당 10bit밖에 안 돼요.

25배 이상 압축되는 거죠. 당연히 정보가 사라집니다." 이것이 **양자화 오류(Quantization Error)**입니다.

연속적인 음성 신호를 이산적인 코드로 변환할 때 발생하는 불가피한 손실입니다. 코드북 크기가 유한하기 때문에, 정확히 원하는 값을 표현하지 못하고 가장 가까운 코드를 선택해야 합니다.

Multi-codebook은 이 문제를 **잔차 학습(Residual Learning)**으로 해결합니다. 코드에서 residual이 핵심입니다.

첫 번째 코드북이 대략적인 음성 특성을 포착합니다. 하지만 완벽하지 않으므로 오차가 남습니다.

두 번째 코드북은 이 **잔차(residual)**를 입력으로 받아 추가적인 세부 사항을 포착합니다. 세 번째, 네 번째 코드북도 마찬가지입니다.

마치 화가가 그림을 그릴 때와 같습니다. 먼저 밑그림으로 전체 구도를 잡고, 그 다음 색을 칠하고, 마지막으로 세부 묘사를 추가합니다.

각 단계가 이전 단계의 부족한 부분을 보완합니다. 수학적으로 보면, 4개의 코드북을 사용하면 정보 용량이 4배로 늘어납니다.

10bit에서 40bit로 증가하는 것입니다. 이 추가 용량 덕분에 억양의 미세한 변화나 감정의 뉘앙스 같은 정보도 보존할 수 있습니다.

김개발 씨가 이해했다는 표정을 지었습니다. "그래서 Multi-codebook 방식의 TTS가 더 자연스럽게 들리는 거군요!" "맞아요.

정보 손실이 적으니까 원본에 가까운 음성을 재현할 수 있는 거예요." 박시니어 씨가 미소 지었습니다.

실전 팁

💡 - 잔차 학습은 ResNet에서도 사용되는 강력한 기법입니다. 다른 분야에서도 응용해보세요.

코드북 순서가 중요합니다. 항상 거친 정보부터 세밀한 정보 순으로 배치하세요.

6. 아키텍처 시각화하기

"이론은 충분히 배웠으니, 이제 전체 그림을 그려봅시다." 박시니어 씨가 큰 화이트보드를 가져왔습니다. "아키텍처를 시각화하면 이해가 훨씬 쉬워져요." 김개발 씨는 기대에 찬 눈으로 바라봤습니다.

아키텍처 시각화는 복잡한 시스템을 이해하는 가장 효과적인 방법입니다. Discrete Multi-codebook LM 아키텍처는 텍스트 인코더, 공유 표현층, 다중 코드 헤드의 세 부분으로 구성됩니다.

이 구조를 시각적으로 표현하면 데이터 흐름과 각 컴포넌트의 역할을 한눈에 파악할 수 있습니다.

다음 코드를 살펴봅시다.

# 아키텍처를 ASCII로 시각화
"""
┌─────────────────────────────────────────────────────┐
│                    INPUT TEXT                        │
│                  "안녕하세요"                         │
└──────────────────────┬──────────────────────────────┘
                       ▼
┌─────────────────────────────────────────────────────┐
│              TEXT ENCODER (Qwen3)                    │
│         텍스트 → Hidden States [B, T, D]            │
└──────────────────────┬──────────────────────────────┘
                       ▼
        ┌──────────────┼──────────────┐
        ▼              ▼              ▼              ▼
┌───────────┐  ┌───────────┐  ┌───────────┐  ┌───────────┐
│ Code Head │  │ Code Head │  │ Code Head │  │ Code Head │
│     0     │  │     1     │  │     2     │  │     3     │
│  (음소)   │  │  (피치)   │  │ (에너지)  │  │  (음색)   │
└─────┬─────┘  └─────┬─────┘  └─────┬─────┘  └─────┬─────┘
      ▼              ▼              ▼              ▼
   [codes_0]     [codes_1]     [codes_2]     [codes_3]
"""

박시니어 씨가 화이트보드에 그림을 그리기 시작했습니다. 맨 위에 '입력 텍스트'라는 상자를 그렸습니다.

"모든 것은 여기서 시작해요. 사용자가 '안녕하세요'라고 입력하면, 이 텍스트가 시스템에 들어갑니다." 그 아래에 큰 상자를 하나 더 그렸습니다.

'Text Encoder'라고 적었습니다. "이 부분이 Qwen3 기반 인코더예요.

입력 텍스트를 이해하고, 각 위치마다 풍부한 벡터 표현을 만들어냅니다. 출력 shape는 [Batch, Time, Dimension]이에요." 김개발 씨가 물었습니다.

"Dimension은 보통 얼마나 되나요?" "모델 크기에 따라 다르지만, 보통 512에서 4096 사이예요. 클수록 표현력이 좋아지죠." 박시니어 씨가 인코더 아래에 네 개의 작은 상자를 나란히 그렸습니다.

각각 'Code Head 0, 1, 2, 3'이라고 적었습니다. "여기가 핵심이에요.

네 개의 코드 헤드가 병렬로 동작합니다. 같은 hidden states를 입력으로 받지만, 각자 다른 측면의 정보를 예측해요." 첫 번째 헤드 아래에 '음소'라고 적었습니다.

"이 헤드는 어떤 소리를 낼지 결정해요." 두 번째 헤드 아래에 '피치'라고 적었습니다. "이 헤드는 높낮이와 억양을 담당해요." 세 번째는 '에너지', 네 번째는 '음색'이라고 적었습니다.

"결과적으로 하나의 입력에서 네 개의 코드 시퀀스가 나와요. 이 네 개를 조합하면 완전한 음성 표현이 됩니다." 김개발 씨가 다이어그램을 살펴보며 말했습니다.

"화살표가 위에서 아래로만 흐르네요. 정말 깔끔한 구조예요." "맞아요.

이게 Feed-forward 구조의 장점이에요. 한 방향으로만 흐르니까 병렬 처리가 쉽고, 학습도 안정적이에요." 박시니어 씨가 마지막으로 점선 박스를 그렸습니다.

전체를 감싸면서 'End-to-End Training'이라고 적었습니다. "이 전체가 하나의 모델로 학습된다는 것, 잊지 마세요.

각 부분이 따로 노는 게 아니라, 최종 음성 품질을 위해 협력합니다." 김개발 씨가 사진을 찍었습니다. "이 다이어그램 하나로 전체 시스템이 이해되네요.

정말 감사합니다, 선배!" 박시니어 씨가 웃었습니다. "좋은 아키텍처는 설명하기도 쉬운 법이에요.

이제 직접 구현해볼까요?"

실전 팁

💡 - 아키텍처 다이어그램을 그릴 때는 데이터 흐름 방향을 명확히 하세요. 위에서 아래로, 또는 왼쪽에서 오른쪽으로 일관되게.

복잡한 시스템을 이해할 때는 항상 시각화부터 시작하세요. 코드보다 그림이 먼저입니다.

이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

#Python#TTS#MultiCodebook#LanguageModel#EndToEnd#AI,Architecture

Discrete Multi-codebook LM 아키텍처 완벽 가이드

# Discrete Multi-codebook LM 아키텍처 완벽 가이드 음성 합성의 새로운 패러다임인 Discrete Multi-codebook Language Model 아키텍처를 초급 개발자도 이해할 수 있도록 설명합니다. LM+DiT의 한계를 극복하고 End-to-End 학습의 장점을 활용하는 방법을 코드와 함께 알아봅니다. --- ## 목차 1. [LM과_DiT의_한계_극복](#lm과-dit의-한계-극복) 2. [Multi_codebook_개념](#multi-codebook-개념) 3. [Qwen3_TTS_코드_분석](#qwen3-tts-코드-분석) 4. [End_to_End_학습의_장점](#end-to-end-학습의-장점) 5. [정보_병목_현상_제거](#정보-병목-현상-제거) 6. [아키텍처_시각화하기](#아키텍처-시각화하기) --- ## 1. LM과_DiT의_한계_극복 김개발 씨는 회사에서 음성 합성 시스템을 개발하고 있었습니다. 기존에 사용하던 LM+DiT 방식이 자꾸 이상한 결과를 내놓자, 선배 박시니어 씨에게 도움을 요청했습니다. "왜 이렇게 음성 품질이 들쭉날쭉한 걸까요?" 기존의 **LM+DiT 방식**은 Language Model이 먼저 토큰을 생성하고, 이를 Diffusion Transformer가 받아서 오디오로 변환하는 2단계 구조입니다. 마치 통역사가 말한 내용을 다시 다른 통역사가 번역하는 것처럼, 중간에 정보 손실이 발생할 수밖에 없습니다. 이런 **파이프라인 구조**의 한계를 극복하기 위해 새로운 아키텍처가 등장했습니다. 다음 코드를 살펴봅시다. ```python # 기존 LM+DiT 방식의 문제점을 보여주는 구조 class TraditionalTTS: def __init__(self): self.language_model = LanguageModel() # 1단계: 텍스트 -> 토큰 self.diffusion_model = DiT() # 2단계: 토큰 -> 오디오 def generate(self, text): # 첫 번째 단계: LM이 discrete token 생성 tokens = self.language_model.generate(text) # 여기서 정보 손실 발생! # tokens는 압축된 표현이라 세부 정보가 사라짐 # 두 번째 단계: DiT가 토큰을 오디오로 변환 audio = self.diffusion_model.decode(tokens) return audio # 품질 저하된 결과 ``` 김개발 씨는 입사 6개월 차 AI 엔지니어입니다. 최근 회사에서 TTS(Text-to-Speech) 시스템을 개선하라는 과제를 받았습니다. 기존 시스템은 LM+DiT 방식을 사용하고 있었는데, 어떤 문장은 자연스럽게 읽고 어떤 문장은 어색하게 읽는 문제가 있었습니다. 선배 박시니어 씨가 화이트보드 앞에 섰습니다. "김개발 씨, 우리 시스템의 구조를 한번 그려볼까요?" 박시니어 씨는 두 개의 박스를 그렸습니다. 첫 번째 박스에는 'Language Model', 두 번째 박스에는 'Diffusion Transformer'라고 썼습니다. 그리고 두 박스 사이에 화살표를 그렸습니다. "문제는 바로 이 화살표에 있어요." 박시니어 씨가 말했습니다. "LM이 생성한 토큰을 DiT에 전달할 때, 필연적으로 정보가 압축됩니다. 마치 고해상도 사진을 저해상도로 변환했다가 다시 고해상도로 복원하려는 것과 같아요." 김개발 씨는 고개를 끄덕였습니다. "그래서 어떤 문장은 잘 되고 어떤 문장은 안 되는 거군요. 압축 과정에서 중요한 정보가 사라지니까요." 이것이 바로 **정보 병목 현상(Information Bottleneck)**입니다. LM이 아무리 좋은 표현을 생성해도, 그것을 discrete token으로 압축하는 순간 미세한 뉘앙스나 억양 정보가 손실됩니다. 더 큰 문제는 **학습의 분리**입니다. LM과 DiT가 따로 학습되기 때문에, 두 모델 사이의 인터페이스에서 불일치가 발생합니다. LM은 자신이 생성한 토큰이 어떤 오디오가 될지 모르고, DiT는 자신이 받은 토큰이 어떤 맥락에서 생성되었는지 모릅니다. 실제 현업에서 이 문제는 심각한 결과를 초래합니다. 고객 서비스 챗봇의 음성이 로봇처럼 들리거나, 오디오북의 내레이션이 감정 없이 평평하게 들리는 경우가 많습니다. 이는 단순히 모델 크기의 문제가 아니라 아키텍처의 근본적인 한계입니다. 박시니어 씨가 결론을 내렸습니다. "우리가 필요한 건 이 두 단계를 하나로 합치는 거예요. 그게 바로 **Discrete Multi-codebook LM 아키텍처**입니다." **실전 팁** 💡 - 2단계 파이프라인 구조는 디버깅이 어렵습니다. 문제가 LM에서 발생했는지 DiT에서 발생했는지 파악하기 힘듭니다. - 정보 병목 현상은 모델 크기를 키워도 해결되지 않습니다. 구조적 변경이 필요합니다. --- ## 2. Multi_codebook_개념 "근데 선배, Multi-codebook이 뭐예요?" 김개발 씨가 물었습니다. 박시니어 씨는 잠시 생각하더니 도서관 비유를 들기 시작했습니다. "책을 분류하는 방법을 생각해보세요. 한 가지 기준으로만 분류하면 찾기 어렵잖아요?" **Multi-codebook**은 하나의 정보를 여러 개의 코드북으로 나누어 표현하는 방식입니다. 마치 도서관에서 책을 장르별, 저자별, 출판년도별로 여러 기준으로 분류하는 것처럼, 음성 정보를 음색, 억양, 발음 등 여러 측면으로 나누어 저장합니다. 이렇게 하면 각 측면의 정보를 더 풍부하게 보존할 수 있습니다. 다음 코드를 살펴봅시다. ```python # Multi-codebook 개념을 보여주는 코드 class MultiCodebook: def __init__(self, num_codebooks=4, codebook_size=1024): # 여러 개의 코드북을 생성합니다 self.codebooks = nn.ModuleList([ nn.Embedding(codebook_size, embed_dim) for _ in range(num_codebooks) ]) # 각 코드북은 다른 측면의 정보를 담당합니다 # codebook[0]: 기본 음소 정보 # codebook[1]: 피치/억양 정보 # codebook[2]: 에너지/강세 정보 # codebook[3]: 음색/스타일 정보 def encode(self, audio_features): codes = [] for i, codebook in enumerate(self.codebooks): code = self.quantize(audio_features, codebook) codes.append(code) return codes # 여러 코드의 조합으로 풍부한 표현 ``` 박시니어 씨가 화이트보드에 새로운 그림을 그리기 시작했습니다. 먼저 하나의 큰 원을 그리고 '음성 정보'라고 썼습니다. 그 다음 네 개의 작은 원을 그려서 큰 원과 연결했습니다. "김개발 씨, 우리가 말을 할 때 어떤 정보들이 담겨 있을까요?" 김개발 씨가 대답했습니다. "음... 어떤 단어를 말하는지, 어떤 톤으로 말하는지, 얼마나 세게 말하는지?" "맞아요! 그리고 누가 말하는지, 즉 음색 정보도 있죠." 박시니어 씨가 네 개의 작은 원에 각각 '음소', '피치', '에너지', '음색'이라고 썼습니다. **Single codebook** 방식은 이 모든 정보를 하나의 코드북에 욱여넣습니다. 1024개의 코드로 음성의 모든 특성을 표현해야 하니, 당연히 정보가 손실될 수밖에 없습니다. 마치 모든 책을 '가나다' 순서로만 정리한 도서관에서 특정 주제의 책을 찾는 것처럼 비효율적입니다. 반면 **Multi-codebook** 방식은 각 측면마다 전용 코드북을 둡니다. 음소 정보는 첫 번째 코드북이, 피치 정보는 두 번째 코드북이 담당합니다. 각 코드북은 자신이 담당하는 정보에만 집중하므로, 훨씬 정밀한 표현이 가능합니다. 실제로 Qwen3 TTS에서는 **4개의 코드북**을 사용합니다. 첫 번째 코드북이 가장 중요한 의미론적 정보를 담고, 나머지 코드북들이 점점 더 세밀한 음향 정보를 담습니다. 이것을 **계층적 구조(Hierarchical Structure)**라고 합니다. 여기서 중요한 점은 코드북들 사이의 **의존성**입니다. 두 번째 코드북의 내용은 첫 번째 코드북의 내용에 따라 달라집니다. "안녕하세요"라는 음소가 정해지면, 그에 맞는 피치 패턴이 선택되어야 하기 때문입니다. 김개발 씨가 감탄했습니다. "그러니까 정보를 나눠서 저장하면서도 서로 연결되어 있는 거네요. 마치 관계형 데이터베이스처럼요!" 박시니어 씨가 웃었습니다. "좋은 비유예요. 실제로 이런 구조 덕분에 훨씬 자연스러운 음성을 생성할 수 있습니다." **실전 팁** 💡 - 코드북 개수가 많을수록 표현력이 좋아지지만, 계산 비용도 증가합니다. 보통 4-8개가 적당합니다. - 첫 번째 코드북이 가장 중요합니다. 여기서 문제가 생기면 전체 품질이 떨어집니다. --- ## 3. Qwen3_TTS_코드_분석 이론은 충분히 들었습니다. 김개발 씨는 실제 코드를 보고 싶어졌습니다. 박시니어 씨가 modeling_qwen3_tts.py 파일을 열었습니다. "백문이 불여일견이죠. 실제 구현을 살펴봅시다." **Qwen3 TTS**의 핵심 구현인 modeling_qwen3_tts.py는 Multi-codebook LM 아키텍처의 교과서적인 구현입니다. 이 코드에서는 텍스트 입력부터 다중 코드 생성까지 하나의 통합된 모델로 처리합니다. 특히 **Qwen3TTSForConditionalGeneration** 클래스가 전체 파이프라인을 담당합니다. 다음 코드를 살펴봅시다. ```python # modeling_qwen3_tts.py의 핵심 구조 class Qwen3TTSForConditionalGeneration(PreTrainedModel): def __init__(self, config): super().__init__(config) # 텍스트 인코더: 입력 텍스트를 이해합니다 self.text_encoder = Qwen3TTSEncoder(config) # 코드 예측 헤드: 4개의 코드북에 대한 예측 self.code_heads = nn.ModuleList([ nn.Linear(config.hidden_size, config.codebook_size) for _ in range(config.num_codebooks) # 기본값: 4 ]) def forward(self, input_ids, attention_mask, labels=None): # 텍스트를 hidden states로 변환 hidden_states = self.text_encoder(input_ids, attention_mask) # 각 코드북에 대한 로짓 계산 logits = [head(hidden_states) for head in self.code_heads] return logits # shape: [4, batch, seq_len, codebook_size] ``` 박시니어 씨가 코드 에디터 화면을 가리켰습니다. "이 클래스가 전체 시스템의 심장이에요." **Qwen3TTSForConditionalGeneration** 클래스는 이름에서 알 수 있듯이 조건부 생성을 담당합니다. 여기서 '조건'이란 입력 텍스트이고, '생성'이란 음성 코드입니다. 먼저 **text_encoder**를 살펴봅시다. 이 컴포넌트는 "안녕하세요"라는 텍스트를 받아서 모델이 이해할 수 있는 벡터 표현으로 변환합니다. Qwen3 아키텍처 기반이라 강력한 언어 이해 능력을 갖추고 있습니다. 다음으로 **code_heads**가 있습니다. 이것은 nn.ModuleList로 4개의 Linear 레이어를 담고 있습니다. 각 레이어는 하나의 코드북에 대한 예측을 담당합니다. 김개발 씨가 질문했습니다. "왜 하나의 큰 레이어가 아니라 4개의 작은 레이어를 사용하나요?" "좋은 질문이에요." 박시니어 씨가 대답했습니다. "각 코드북이 다른 정보를 담당하니까, 예측도 별도로 해야 해요. 음소를 예측하는 것과 피치를 예측하는 것은 다른 작업이니까요." forward 메서드를 보면 실제 동작 흐름이 보입니다. 먼저 text_encoder가 입력을 처리해서 hidden_states를 만듭니다. 그 다음 각 code_head가 이 hidden_states를 받아서 자신만의 로짓을 계산합니다. 여기서 중요한 점은 **모든 코드 헤드가 같은 hidden_states를 공유**한다는 것입니다. 이것이 코드북들 사이의 일관성을 보장합니다. 같은 문맥에서 음소와 피치가 따로 노는 것이 아니라, 조화롭게 선택됩니다. 출력 shape를 보면 [4, batch, seq_len, codebook_size]입니다. 4개의 코드북 각각에 대해, 배치의 각 샘플에 대해, 시퀀스의 각 위치에 대해, 코드북 크기만큼의 확률 분포를 출력합니다. 김개발 씨가 감탄했습니다. "생각보다 구조가 깔끔하네요. 복잡한 음성 합성이 이렇게 단순한 구조로 가능하다니." 박시니어 씨가 고개를 끄덕였습니다. "좋은 아키텍처는 복잡한 문제를 단순하게 만들어주죠." **실전 팁** 💡 - config.num_codebooks 값을 조절하여 코드북 개수를 바꿀 수 있습니다. 실험해보세요. - hidden_states의 차원(hidden_size)이 클수록 더 풍부한 표현이 가능하지만 메모리 사용량도 증가합니다. --- ## 4. End_to_End_학습의_장점 "자, 이제 핵심 질문이에요." 박시니어 씨가 말했습니다. "왜 굳이 End-to-End로 학습해야 할까요? 각 부분을 따로 학습하면 안 될까요?" 김개발 씨는 이 질문의 답을 찾기 위해 귀를 기울였습니다. **End-to-End 학습**은 텍스트 입력부터 음성 코드 출력까지 전체 파이프라인을 하나의 손실 함수로 학습하는 방식입니다. 마치 피아니스트가 악보를 보면서 동시에 손가락 움직임을 연습하는 것처럼, 입력 이해와 출력 생성이 함께 최적화됩니다. 이렇게 하면 중간 단계의 오차가 누적되지 않고 전체적으로 가장 좋은 결과를 얻을 수 있습니다. 다음 코드를 살펴봅시다. ```python # End-to-End 학습의 핵심: 통합 손실 함수 class Qwen3TTSLoss(nn.Module): def __init__(self, num_codebooks=4): super().__init__() self.num_codebooks = num_codebooks self.ce_loss = nn.CrossEntropyLoss() def forward(self, logits_list, target_codes): total_loss = 0 for i in range(self.num_codebooks): # 각 코드북에 대한 손실 계산 loss_i = self.ce_loss(logits_list[i], target_codes[i]) # 첫 번째 코드북에 더 높은 가중치 부여 weight = 1.0 if i == 0 else 0.5 total_loss += weight * loss_i return total_loss # 모든 코드북의 손실을 합산 ``` 박시니어 씨가 새로운 비유를 들었습니다. "김개발 씨, 자동차 조립 공정을 생각해보세요." 전통적인 방식은 **모듈별 최적화**입니다. 엔진 팀은 최고의 엔진을 만들고, 변속기 팀은 최고의 변속기를 만듭니다. 각 부품은 훌륭하지만, 조립했을 때 서로 잘 맞지 않을 수 있습니다. 엔진의 출력 특성과 변속기의 기어비가 최적으로 매칭되지 않으면 연비가 떨어집니다. **End-to-End 최적화**는 다릅니다. 처음부터 완성된 자동차의 성능을 기준으로 모든 부품을 함께 설계합니다. 엔진과 변속기가 서로의 특성을 고려하며 최적화되므로, 전체 시스템으로서 최고의 성능을 발휘합니다. TTS 시스템도 마찬가지입니다. 기존 LM+DiT 방식에서는 LM이 "좋은 토큰"을 생성하도록 학습하고, DiT가 "토큰을 잘 변환"하도록 따로 학습합니다. 하지만 LM이 생각하는 "좋은 토큰"이 DiT에게도 좋은 입력인지는 보장할 수 없습니다. 코드를 보면 이 철학이 구현되어 있습니다. **Qwen3TTSLoss** 클래스는 4개의 코드북에 대한 손실을 하나로 합칩니다. 모델은 이 통합 손실을 최소화하도록 학습됩니다. 흥미로운 점은 **가중치(weight)**입니다. 첫 번째 코드북에는 1.0, 나머지에는 0.5의 가중치가 적용됩니다. 왜 그럴까요? "첫 번째 코드북이 의미론적 정보를 담고 있어서예요." 박시니어 씨가 설명했습니다. "발음이 틀리면 아무리 억양이 좋아도 소용없잖아요. 그래서 음소 정보가 더 중요하게 취급됩니다." 김개발 씨가 물었습니다. "그럼 학습 시간은 얼마나 걸리나요?" "기존 방식보다 오히려 빨라질 수 있어요." 박시니어 씨가 대답했습니다. "두 모델을 따로 학습할 필요가 없고, 한 번에 최적화하니까요. 게다가 GPU 메모리도 효율적으로 사용할 수 있습니다." End-to-End 학습의 또 다른 장점은 **그래디언트 흐름**입니다. 최종 출력의 오류가 입력 처리 단계까지 직접 전파됩니다. 모델의 모든 부분이 최종 목표를 향해 협력하여 학습합니다. **실전 팁** 💡 - End-to-End 학습 시 learning rate 스케줄링이 중요합니다. 초반에는 낮게 시작하세요. - 코드북별 가중치는 하이퍼파라미터입니다. 데이터셋에 따라 조정이 필요할 수 있습니다. --- ## 5. 정보_병목_현상_제거 "드디어 핵심에 도달했네요." 박시니어 씨가 말했습니다. "정보 병목 현상이 뭔지, 그리고 Multi-codebook이 어떻게 이걸 해결하는지 제대로 이해해봅시다." 김개발 씨는 노트를 펼쳤습니다. **정보 병목 현상(Information Bottleneck)**은 풍부한 정보가 좁은 채널을 통과하면서 손실되는 현상입니다. 마치 넓은 고속도로가 갑자기 1차선으로 좁아지면 정체가 발생하는 것과 같습니다. Multi-codebook 아키텍처는 여러 개의 병렬 채널을 제공하여 정보가 다양한 경로로 흐를 수 있게 합니다. 이를 통해 음성의 다양한 특성이 손실 없이 전달됩니다. 다음 코드를 살펴봅시다. ```python # 정보 병목 현상 비교: Single vs Multi codebook class SingleCodebook: def encode(self, audio): # 모든 정보를 1024개 코드 중 하나로 압축 # 정보 용량: log2(1024) = 10 bits/frame code = self.quantize(audio) # 심각한 정보 손실 return code class MultiCodebook: def encode(self, audio): # 4개의 코드북으로 분산 저장 # 정보 용량: 4 * log2(1024) = 40 bits/frame codes = [] residual = audio for codebook in self.codebooks: code = codebook.quantize(residual) codes.append(code) # 잔차(residual)를 다음 코드북에 전달 residual = residual - codebook.decode(code) return codes # 정보 손실 최소화 ``` 김개발 씨가 혼란스러운 표정을 지었습니다. "병목 현상이라... 구체적으로 어떤 문제가 생기나요?" 박시니어 씨가 간단한 실험을 제안했습니다. "음성 파일 하나를 생각해보세요. 원본은 16kHz 샘플링에 16bit 양자화라고 하면, 1초에 256Kbit의 정보가 있어요." "그걸 single codebook으로 인코딩하면?" 김개발 씨가 물었습니다. "만약 1024개 코드 중 하나를 선택한다면, 프레임당 10bit밖에 안 돼요. 25배 이상 압축되는 거죠. 당연히 정보가 사라집니다." 이것이 **양자화 오류(Quantization Error)**입니다. 연속적인 음성 신호를 이산적인 코드로 변환할 때 발생하는 불가피한 손실입니다. 코드북 크기가 유한하기 때문에, 정확히 원하는 값을 표현하지 못하고 가장 가까운 코드를 선택해야 합니다. Multi-codebook은 이 문제를 **잔차 학습(Residual Learning)**으로 해결합니다. 코드에서 residual이 핵심입니다. 첫 번째 코드북이 대략적인 음성 특성을 포착합니다. 하지만 완벽하지 않으므로 오차가 남습니다. 두 번째 코드북은 이 **잔차(residual)**를 입력으로 받아 추가적인 세부 사항을 포착합니다. 세 번째, 네 번째 코드북도 마찬가지입니다. 마치 화가가 그림을 그릴 때와 같습니다. 먼저 밑그림으로 전체 구도를 잡고, 그 다음 색을 칠하고, 마지막으로 세부 묘사를 추가합니다. 각 단계가 이전 단계의 부족한 부분을 보완합니다. 수학적으로 보면, 4개의 코드북을 사용하면 정보 용량이 4배로 늘어납니다. 10bit에서 40bit로 증가하는 것입니다. 이 추가 용량 덕분에 억양의 미세한 변화나 감정의 뉘앙스 같은 정보도 보존할 수 있습니다. 김개발 씨가 이해했다는 표정을 지었습니다. "그래서 Multi-codebook 방식의 TTS가 더 자연스럽게 들리는 거군요!" "맞아요. 정보 손실이 적으니까 원본에 가까운 음성을 재현할 수 있는 거예요." 박시니어 씨가 미소 지었습니다. **실전 팁** 💡 - 잔차 학습은 ResNet에서도 사용되는 강력한 기법입니다. 다른 분야에서도 응용해보세요. - 코드북 순서가 중요합니다. 항상 거친 정보부터 세밀한 정보 순으로 배치하세요. --- ## 6. 아키텍처_시각화하기 "이론은 충분히 배웠으니, 이제 전체 그림을 그려봅시다." 박시니어 씨가 큰 화이트보드를 가져왔습니다. "아키텍처를 시각화하면 이해가 훨씬 쉬워져요." 김개발 씨는 기대에 찬 눈으로 바라봤습니다. **아키텍처 시각화**는 복잡한 시스템을 이해하는 가장 효과적인 방법입니다. Discrete Multi-codebook LM 아키텍처는 텍스트 인코더, 공유 표현층, 다중 코드 헤드의 세 부분으로 구성됩니다. 이 구조를 시각적으로 표현하면 데이터 흐름과 각 컴포넌트의 역할을 한눈에 파악할 수 있습니다. 다음 코드를 살펴봅시다. ```python # 아키텍처를 ASCII로 시각화 """ ┌─────────────────────────────────────────────────────┐ │ INPUT TEXT │ │ "안녕하세요" │ └──────────────────────┬──────────────────────────────┘ ▼ ┌─────────────────────────────────────────────────────┐ │ TEXT ENCODER (Qwen3) │ │ 텍스트 → Hidden States [B, T, D] │ └──────────────────────┬──────────────────────────────┘ ▼ ┌──────────────┼──────────────┐ ▼ ▼ ▼ ▼ ┌───────────┐ ┌───────────┐ ┌───────────┐ ┌───────────┐ │ Code Head │ │ Code Head │ │ Code Head │ │ Code Head │ │ 0 │ │ 1 │ │ 2 │ │ 3 │ │ (음소) │ │ (피치) │ │ (에너지) │ │ (음색) │ └─────┬─────┘ └─────┬─────┘ └─────┬─────┘ └─────┬─────┘ ▼ ▼ ▼ ▼ [codes_0] [codes_1] [codes_2] [codes_3] """ ``` 박시니어 씨가 화이트보드에 그림을 그리기 시작했습니다. 맨 위에 '입력 텍스트'라는 상자를 그렸습니다. "모든 것은 여기서 시작해요. 사용자가 '안녕하세요'라고 입력하면, 이 텍스트가 시스템에 들어갑니다." 그 아래에 큰 상자를 하나 더 그렸습니다. 'Text Encoder'라고 적었습니다. "이 부분이 **Qwen3 기반 인코더**예요. 입력 텍스트를 이해하고, 각 위치마다 풍부한 벡터 표현을 만들어냅니다. 출력 shape는 [Batch, Time, Dimension]이에요." 김개발 씨가 물었습니다. "Dimension은 보통 얼마나 되나요?" "모델 크기에 따라 다르지만, 보통 512에서 4096 사이예요. 클수록 표현력이 좋아지죠." 박시니어 씨가 인코더 아래에 네 개의 작은 상자를 나란히 그렸습니다. 각각 'Code Head 0, 1, 2, 3'이라고 적었습니다. "여기가 핵심이에요. **네 개의 코드 헤드가 병렬로** 동작합니다. 같은 hidden states를 입력으로 받지만, 각자 다른 측면의 정보를 예측해요." 첫 번째 헤드 아래에 '음소'라고 적었습니다. "이 헤드는 어떤 소리를 낼지 결정해요." 두 번째 헤드 아래에 '피치'라고 적었습니다. "이 헤드는 높낮이와 억양을 담당해요." 세 번째는 '에너지', 네 번째는 '음색'이라고 적었습니다. "결과적으로 하나의 입력에서 **네 개의 코드 시퀀스**가 나와요. 이 네 개를 조합하면 완전한 음성 표현이 됩니다." 김개발 씨가 다이어그램을 살펴보며 말했습니다. "화살표가 위에서 아래로만 흐르네요. 정말 깔끔한 구조예요." "맞아요. 이게 **Feed-forward 구조**의 장점이에요. 한 방향으로만 흐르니까 병렬 처리가 쉽고, 학습도 안정적이에요." 박시니어 씨가 마지막으로 점선 박스를 그렸습니다. 전체를 감싸면서 'End-to-End Training'이라고 적었습니다. "이 전체가 하나의 모델로 학습된다는 것, 잊지 마세요. 각 부분이 따로 노는 게 아니라, 최종 음성 품질을 위해 협력합니다." 김개발 씨가 사진을 찍었습니다. "이 다이어그램 하나로 전체 시스템이 이해되네요. 정말 감사합니다, 선배!" 박시니어 씨가 웃었습니다. "좋은 아키텍처는 설명하기도 쉬운 법이에요. 이제 직접 구현해볼까요?" **실전 팁** 💡 - 아키텍처 다이어그램을 그릴 때는 데이터 흐름 방향을 명확히 하세요. 위에서 아래로, 또는 왼쪽에서 오른쪽으로 일관되게. - 복잡한 시스템을 이해할 때는 항상 시각화부터 시작하세요. 코드보다 그림이 먼저입니다. --- 이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

카테고리: AI,Architecture

언어: Python

태그: Python, TTS, MultiCodebook, LanguageModel, EndToEnd, AI,Architecture

작성자: AI Generated

프리미엄 콘텐츠 - 3개월 무료 체험 가능

CodeDeck

Discrete Multi-codebook LM 아키텍처 완벽 가이드

목차

1. LM과 DiT의 한계 극복

2. Multi codebook 개념

3. Qwen3 TTS 코드 분석

4. End to End 학습의 장점

5. 정보 병목 현상 제거

6. 아키텍처 시각화하기

이 카드뉴스가 포함된 코스

Qwen3-TTS 오픈소스 완전 분석

댓글 (0)

함께 보면 좋은 카드 뉴스

프레임워크 선택 LangGraph vs CrewAI vs AutoGen 완벽 가이드

Day 6 학습 루프 이해하기

Day 5 Baseline 모델 만들기

Day 4 학습용 샘플 데이터 만들기

Day 2 PyTorch 기본기 정리