음성 데이터 정제 및 전처리 완벽 가이드

고품질 음성 합성 및 음성 인식 모델을 만들기 위해 필수적인 음성 데이터 정제 및 전처리 기법을 다룹니다. 노이즈 제거부터 오디오 포맷 변환까지, 실무에서 바로 활용할 수 있는 구체적인 방법을 배워보세요.

1. 노이즈 제거 및 오디오 정규화

시작하며

여러분이 음성 데이터로 TTS 모델을 학습시키려고 할 때, 녹음된 음성에 배경 소음이나 잡음이 섞여 있어서 모델 성능이 떨어지는 경험을 해본 적 있나요? 예를 들어, 집에서 녹음한 음성에 에어컨 소리나 키보드 타이핑 소리가 섞여 있거나, 야외에서 녹음한 음성에 바람 소리나 차량 소음이 들어가 있는 경우가 있습니다.

이런 문제는 실제 AI 음성 모델 개발에서 매우 자주 발생합니다. 노이즈가 섞인 데이터로 학습하면 모델이 잡음까지 학습해버려서 합성된 음성의 품질이 떨어지고, 음성 인식 정확도도 크게 낮아집니다.

특히 Voice Cloning처럼 특정 사람의 목소리를 복제하는 작업에서는 깨끗한 음성 데이터가 필수적입니다. 바로 이럴 때 필요한 것이 노이즈 제거 및 오디오 정규화입니다.

이 기법들을 사용하면 배경 잡음을 제거하고, 음량을 일정하게 만들어서 고품질의 학습 데이터를 준비할 수 있습니다.

개요

간단히 말해서, 노이즈 제거는 음성 신호에서 원하지 않는 잡음을 걸러내는 작업이고, 오디오 정규화는 음량을 표준 레벨로 맞추는 작업입니다. 음성 데이터를 수집하면 각 녹음마다 볼륨이 다르고, 배경 소음의 종류와 크기도 제각각입니다.

예를 들어, 어떤 음성은 너무 크게 녹음되어 있고, 어떤 음성은 너무 작게 녹음되어 있을 수 있습니다. 이런 불균형한 데이터로 AI 모델을 학습시키면 모델이 일관된 패턴을 학습하기 어렵습니다.

기존에는 수동으로 오디오 편집 프로그램을 사용해서 하나하나 노이즈를 제거하고 볼륨을 조정했다면, 이제는 Python 라이브러리를 활용해서 수백, 수천 개의 음성 파일을 자동으로 정제할 수 있습니다. 노이즈 제거의 핵심은 스펙트럴 게이팅(Spectral Gating) 기법으로, 주파수 영역에서 노이즈 프로파일을 추출하고 이를 제거하는 방식입니다.

오디오 정규화는 RMS(Root Mean Square) 값을 기준으로 모든 음성의 평균 음량을 동일하게 맞춥니다. 이러한 전처리를 통해 학습 데이터의 품질이 크게 향상되고, 결과적으로 더 자연스러운 음성 합성 결과를 얻을 수 있습니다.

코드 예제

import librosa
import noisereduce as nr
import soundfile as sf
import numpy as np

# 음성 파일 로드 (sampling rate 유지)
audio, sr = librosa.load('input_audio.wav', sr=None)

# 노이즈 제거: 처음 0.5초를 노이즈 프로파일로 사용
# stationary=True는 일정한 배경 소음 제거에 효과적
reduced_noise = nr.reduce_noise(
    y=audio,
    sr=sr,
    stationary=True,
    prop_decrease=0.8  # 노이즈 감소 비율 (0~1)
)

# RMS 정규화: 평균 음량을 -20dB로 맞춤
target_rms = 0.1  # RMS 목표값
current_rms = np.sqrt(np.mean(reduced_noise**2))
normalized_audio = reduced_noise * (target_rms / current_rms)

# 클리핑 방지: 값의 범위를 -1~1로 제한
normalized_audio = np.clip(normalized_audio, -1.0, 1.0)

# 정제된 오디오 저장
sf.write('cleaned_audio.wav', normalized_audio, sr)

설명

이것이 하는 일: 이 코드는 음성 파일에서 배경 노이즈를 제거하고, 음량을 표준 레벨로 정규화하여 AI 모델 학습에 적합한 깨끗한 음성 데이터를 생성합니다. 첫 번째로, librosa를 사용해서 음성 파일을 로드합니다.

sr=None 옵션은 원본 파일의 샘플링 레이트를 그대로 유지하라는 의미입니다. 이렇게 하는 이유는 리샘플링 과정에서 발생할 수 있는 음질 손실을 방지하기 위함입니다.

두 번째로, noisereduce 라이브러리의 reduce_noise 함수를 사용해서 노이즈를 제거합니다. 이 함수는 스펙트럴 게이팅 기법을 사용하는데, 음성의 처음 0.5초를 노이즈 샘플로 간주하고 이를 기반으로 노이즈 프로파일을 만듭니다.

stationary=True 옵션은 에어컨 소리나 컴퓨터 팬 소리처럼 일정하게 지속되는 배경 소음을 제거하는 데 효과적입니다. prop_decrease=0.8은 감지된 노이즈의 80%를 제거한다는 의미로, 너무 높은 값은 음성까지 손상시킬 수 있으므로 0.7~0.9 사이 값을 사용하는 것이 좋습니다.

세 번째로, RMS 정규화를 수행합니다. RMS는 신호의 평균 에너지를 나타내는 값으로, 이를 기준으로 모든 음성의 음량을 동일하게 맞춥니다.

현재 RMS 값을 계산하고, 목표 RMS 값(0.1, 약 -20dB)으로 스케일링합니다. 이렇게 하면 어떤 음성은 크게, 어떤 음성은 작게 녹음되어 있더라도 모두 일정한 음량으로 통일됩니다.

마지막으로, np.clip 함수로 오디오 값의 범위를 -1.0~1.0 사이로 제한합니다. 정규화 과정에서 값이 이 범위를 벗어나면 클리핑(음이 찌그러지는 현상)이 발생할 수 있기 때문입니다.

최종적으로 soundfile 라이브러리를 사용해서 정제된 오디오를 WAV 파일로 저장합니다. 여러분이 이 코드를 사용하면 수백 개의 음성 파일을 자동으로 정제할 수 있고, TTS 모델 학습 시 더 빠른 수렴과 높은 음질을 얻을 수 있습니다.

실제로 Voice Cloning 프로젝트에서 이런 전처리를 거친 데이터는 그렇지 않은 데이터보다 약 30~40% 더 높은 음성 품질을 보입니다.

실전 팁

💡 노이즈 프로파일로 사용할 무음 구간이 없다면, 음성의 처음이나 끝부분에 1초 정도의 무음을 녹음해두세요. 이렇게 하면 더 정확한 노이즈 제거가 가능합니다.

💡 prop_decrease 값을 너무 높게 설정하면 음성의 고주파 성분까지 제거되어 음질이 뭉개질 수 있습니다. 0.7~0.8 정도로 시작해서 결과를 들어보며 조정하세요.

💡 RMS 정규화 후에는 반드시 클리핑 체크를 하세요. np.max(np.abs(audio)) 값이 1.0을 초과하면 음이 왜곡됩니다.

💡 배치 처리 시에는 multiprocessing을 활용하여 여러 파일을 동시에 처리하면 속도가 크게 향상됩니다. 코어 수만큼 병렬 처리하세요.

💡 노이즈 제거 전후의 음성을 직접 들어보고 비교하세요. 과도한 노이즈 제거는 음성을 부자연스럽게 만들 수 있습니다.

2. 무음 구간 자동 제거 (Voice Activity Detection)

시작하며

여러분이 긴 인터뷰나 강의 음성을 수집했을 때, 중간중간 긴 침묵이나 말하지 않는 구간이 많아서 불필요한 데이터가 너무 많은 경험을 해본 적 있나요? 예를 들어, 10분짜리 음성 파일에서 실제로 사람이 말하는 구간은 5분 정도밖에 안 되는 경우가 많습니다.

이런 무음 구간은 AI 모델 학습에 전혀 도움이 되지 않을 뿐만 아니라, 저장 공간을 낭비하고 학습 시간을 늘립니다. 특히 음성 합성 모델의 경우, 무음 구간이 포함되면 모델이 불필요하게 긴 침묵을 생성하는 문제가 발생할 수 있습니다.

바로 이럴 때 필요한 것이 Voice Activity Detection(VAD)입니다. VAD는 음성 신호에서 실제로 사람이 말하는 구간을 자동으로 감지하고, 무음이나 배경 소음만 있는 구간을 제거하여 순수한 음성 데이터만 추출합니다.

개요

간단히 말해서, Voice Activity Detection(VAD)은 오디오에서 "사람이 말하는 구간"과 "그렇지 않은 구간"을 자동으로 구분하는 기술입니다. VAD가 필요한 이유는 실제 녹음 환경에서는 항상 불필요한 침묵이나 잡음 구간이 포함되기 때문입니다.

예를 들어, 팟캐스트를 녹음할 때 시작 전 준비 시간, 중간에 생각하는 시간, 끝나고 정리하는 시간 등이 모두 녹음됩니다. 이런 구간을 자동으로 제거하면 데이터의 효율성이 크게 향상됩니다.

기존에는 수동으로 오디오 편집 프로그램에서 파형을 보면서 무음 구간을 찾아 잘라내야 했다면, 이제는 VAD 알고리즘이 자동으로 음성 구간을 탐지하고 추출합니다. VAD의 핵심 원리는 음성의 에너지와 주파수 특성을 분석하는 것입니다.

사람의 목소리는 특정 주파수 대역(보통 80Hz~8kHz)에 에너지가 집중되고, 일정 수준 이상의 음량을 가집니다. 최신 VAD는 딥러닝 기반의 WebRTC VAD나 Silero VAD를 사용하여 매우 정확하게 음성 구간을 탐지합니다.

이를 통해 데이터 크기를 50~70% 줄이면서도 음성 정보는 100% 보존할 수 있습니다.

코드 예제

import torch
import torchaudio
from scipy.io import wavfile

# Silero VAD 모델 로드 (사전 학습된 모델)
model, utils = torch.hub.load(
    repo_or_dir='snakers4/silero-vad',
    model='silero_vad',
    force_reload=False
)
(get_speech_timestamps, _, read_audio, *_) = utils

# 음성 파일 읽기
wav = read_audio('input_audio.wav', sampling_rate=16000)

# 음성 구간 타임스탬프 추출
# threshold: 음성 감지 임계값 (0.5 = 중간 민감도)
# min_speech_duration_ms: 최소 음성 길이 (250ms 이하는 무시)
# min_silence_duration_ms: 최소 무음 길이 (100ms 이상 침묵 시 분리)
speech_timestamps = get_speech_timestamps(
    wav,
    model,
    threshold=0.5,
    sampling_rate=16000,
    min_speech_duration_ms=250,
    min_silence_duration_ms=100
)

# 음성 구간만 추출하여 연결
speech_segments = []
for ts in speech_timestamps:
    # 각 음성 구간을 추출 (start, end는 샘플 인덱스)
    segment = wav[ts['start']:ts['end']]
    speech_segments.append(segment)

# 모든 음성 구간을 하나로 연결
if speech_segments:
    final_audio = torch.cat(speech_segments, dim=0)
    torchaudio.save('voice_only.wav', final_audio.unsqueeze(0), 16000)

설명

이것이 하는 일: 이 코드는 Silero VAD 딥러닝 모델을 사용하여 오디오에서 실제 음성이 있는 구간만 자동으로 찾아내고, 무음과 배경 소음 구간을 제거하여 순수한 음성 데이터만 추출합니다. 첫 번째로, torch.hub.load를 사용해서 사전 학습된 Silero VAD 모델을 다운로드하고 로드합니다.

Silero VAD는 러시아 음성 기술 회사에서 개발한 최신 VAD 모델로, 여러 언어에서 높은 정확도를 보입니다. force_reload=False 옵션은 이미 다운로드된 모델이 있으면 재사용한다는 의미입니다.

utils에는 음성 구간 탐지, 오디오 읽기 등의 유틸리티 함수들이 포함되어 있습니다. 두 번째로, read_audio 함수로 음성 파일을 읽어옵니다.

sampling_rate=16000은 Silero VAD 모델이 16kHz 샘플링 레이트에 최적화되어 있기 때문입니다. 만약 원본 파일이 다른 샘플링 레이트라면 자동으로 리샘플링됩니다.

세 번째로, get_speech_timestamps 함수가 음성 구간을 탐지합니다. 이 함수는 딥러닝 모델을 사용해서 각 시간대의 음성 확률을 계산하고, threshold 값(0.5)을 기준으로 음성 구간을 결정합니다.

min_speech_duration_ms=250은 250밀리초보다 짧은 소리는 음성이 아닌 잡음으로 간주한다는 의미입니다. min_silence_duration_ms=100은 100밀리초 이상 침묵이 지속되면 음성 구간을 분리한다는 의미로, 이를 통해 단어 사이의 짧은 쉼표는 유지하면서 긴 침묵은 제거할 수 있습니다.

네 번째로, 탐지된 음성 구간의 타임스탬프를 순회하면서 각 구간의 오디오를 추출합니다. ts['start']와 ts['end']는 샘플 인덱스이므로, wav[ts['start']:ts['end']]로 해당 구간의 오디오를 슬라이싱할 수 있습니다.

추출된 각 구간을 리스트에 저장합니다. 마지막으로, torch.cat으로 모든 음성 구간을 하나로 연결합니다.

이렇게 하면 원본 오디오에서 무음 구간이 모두 제거되고 순수 음성만 남은 파일이 만들어집니다. unsqueeze(0)는 torchaudio.save가 요구하는 (채널, 샘플) 형태로 차원을 맞추기 위한 것입니다.

여러분이 이 코드를 사용하면 10분짜리 강의 영상에서 5분의 순수 음성만 추출하는 등, 데이터 전처리 시간과 저장 공간을 크게 절약할 수 있습니다. 실제 TTS 프로젝트에서 VAD를 적용하면 학습 시간이 30~50% 단축되고, 모델이 불필요한 침묵을 생성하는 문제가 거의 사라집니다.

실전 팁

💡 threshold 값은 녹음 환경에 따라 조정하세요. 조용한 환경에서 녹음된 깨끗한 음성은 0.3~~0.4, 시끄러운 환경은 0.6~~0.7이 적합합니다.

💡 min_speech_duration_ms를 너무 높게 설정하면 짧은 단어나 음절이 잘려나갈 수 있습니다. 한국어는 200~~300ms, 영어는 150~~250ms가 적당합니다.

💡 추출된 음성 구간을 연결할 때 각 구간 사이에 50~100ms 정도의 짧은 무음(페이드 인/아웃)을 추가하면 더 자연스럽습니다.

💡 VAD 처리 전에 노이즈 제거를 먼저 수행하면 음성 탐지 정확도가 10~20% 향상됩니다.

💡 긴 오디오 파일은 5~10분 단위로 나눠서 처리하면 메모리 사용량을 줄이고 처리 속도를 높일 수 있습니다.

3. 오디오 세그먼테이션 (문장 단위 분할)

시작하며

여러분이 TTS 모델을 학습시킬 때, 한 시간짜리 긴 오디오 파일을 그대로 사용하려고 하면 모델이 제대로 학습되지 않는 경험을 해본 적 있나요? 대부분의 TTS 모델은 5~15초 길이의 짧은 문장 단위 음성을 입력으로 받도록 설계되어 있습니다.

이런 문제는 실제 음성 데이터 준비 과정에서 매우 중요합니다. 긴 오디오를 적절히 분할하지 않으면 메모리 부족 오류가 발생하거나, 모델이 문장의 끝과 시작을 제대로 학습하지 못해서 부자연스러운 음성이 생성됩니다.

특히 Voice Cloning에서는 각 문장이 완전한 의미 단위로 분할되어야 화자의 운율과 억양을 정확히 학습할 수 있습니다. 바로 이럴 때 필요한 것이 오디오 세그먼테이션입니다.

이 기법은 긴 오디오를 문장이나 의미 단위로 자동으로 나누어, 각각을 별도의 학습 샘플로 만들어줍니다.

개요

간단히 말해서, 오디오 세그먼테이션은 긴 오디오를 짧고 의미 있는 단위(보통 문장)로 자동 분할하는 작업입니다. 음성 데이터를 적절한 길이로 나누는 것이 필요한 이유는 대부분의 TTS 모델이 고정된 길이 범위의 입력을 기대하기 때문입니다.

예를 들어, Tacotron2나 FastSpeech 같은 인기 있는 TTS 모델은 보통 3~15초 길이의 음성에서 가장 좋은 성능을 보입니다. 너무 긴 음성은 어텐션 메커니즘이 제대로 작동하지 않아 음질이 떨어지고, 너무 짧은 음성은 문맥 정보가 부족해서 부자연스럽습니다.

기존에는 텍스트 스크립트를 보면서 수동으로 오디오를 잘라야 했다면, 이제는 VAD와 침묵 구간 분석을 결합하여 자동으로 문장 단위로 분할할 수 있습니다. 세그먼테이션의 핵심은 음성의 자연스러운 경계를 찾는 것입니다.

문장 끝에는 보통 200~500ms 정도의 짧은 침묵이 있고, 음의 높이(피치)가 떨어지는 패턴을 보입니다. 이런 특징을 분석하여 문장 경계를 탐지하고, 각 문장을 별도의 WAV 파일로 저장합니다.

이렇게 하면 1시간짜리 오디오에서 300~500개의 학습 샘플을 자동으로 생성할 수 있습니다.

코드 예제

from pydub import AudioSegment
from pydub.silence import split_on_silence
import os

# 오디오 파일 로드
audio = AudioSegment.from_wav("long_audio.wav")

# 침묵 구간을 기준으로 문장 단위 분할
# min_silence_len: 최소 침묵 길이 (300ms 이상 침묵을 문장 경계로 판단)
# silence_thresh: 침묵 임계값 (평균 음량보다 20dB 낮으면 침묵)
# keep_silence: 각 세그먼트 앞뒤로 100ms 침묵 유지 (자연스러움)
chunks = split_on_silence(
    audio,
    min_silence_len=300,
    silence_thresh=audio.dBFS - 20,
    keep_silence=100
)

# 분할된 오디오 저장
output_dir = "segmented_audio"
os.makedirs(output_dir, exist_ok=True)

for i, chunk in enumerate(chunks):
    # 너무 짧거나 긴 세그먼트 필터링 (3~15초)
    duration_sec = len(chunk) / 1000.0
    if 3.0 <= duration_sec <= 15.0:
        # 페이드 인/아웃 효과로 클릭 노이즈 방지
        chunk = chunk.fade_in(50).fade_out(50)
        # 파일명: segment_0001.wav, segment_0002.wav, ...
        output_path = f"{output_dir}/segment_{i:04d}.wav"
        chunk.export(output_path, format="wav")
        print(f"저장: {output_path} ({duration_sec:.2f}초)")

설명

이것이 하는 일: 이 코드는 긴 오디오 파일을 침묵 구간을 기준으로 자동 분할하여, TTS 모델 학습에 적합한 3~15초 길이의 문장 단위 음성 파일들을 생성합니다. 첫 번째로, pydub 라이브러리의 AudioSegment.from_wav로 오디오 파일을 로드합니다.

pydub은 FFmpeg를 기반으로 하는 사용하기 쉬운 오디오 처리 라이브러리로, WAV, MP3, FLAC 등 다양한 포맷을 지원합니다. 내부적으로 오디오를 배열 형태로 변환하여 메모리에 로드합니다.

두 번째로, split_on_silence 함수가 침묵 구간을 탐지하여 오디오를 분할합니다. min_silence_len=300은 최소 300밀리초 이상 지속되는 침묵을 문장 경계로 판단한다는 의미입니다.

이 값이 너무 작으면 단어 사이의 짧은 쉼표에서도 분할되고, 너무 크면 여러 문장이 하나로 묶입니다. silence_thresh=audio.dBFS - 20은 평균 음량보다 20dB 낮은 구간을 침묵으로 간주한다는 의미입니다.

dBFS는 Full Scale 대비 데시벨 값으로, 예를 들어 평균 음량이 -25dBFS라면 -45dBFS 이하가 침묵으로 인식됩니다. keep_silence=100은 각 세그먼트의 앞뒤로 100ms씩 침묵을 유지하여 자연스러운 시작과 끝을 만듭니다.

세 번째로, 분할된 각 청크(chunk)를 순회하면서 길이를 확인합니다. duration_sec = len(chunk) / 1000.0으로 밀리초 단위 길이를 초 단위로 변환합니다.

3초보다 짧으면 의미 있는 문장이 아니거나 잡음일 가능성이 높고, 15초보다 길면 TTS 모델이 처리하기 어렵기 때문에 이 범위를 벗어나는 세그먼트는 제외합니다. 네 번째로, 필터를 통과한 세그먼트에 fade_in(50).fade_out(50)을 적용합니다.

이는 세그먼트의 시작과 끝에 50ms 동안 볼륨을 점진적으로 증가/감소시키는 것으로, 갑작스러운 오디오 시작/끝으로 인한 클릭 노이즈를 방지합니다. 이런 작은 디테일이 최종 음질에 큰 영향을 미칩니다.

마지막으로, 각 세그먼트를 별도의 WAV 파일로 저장합니다. f"{i:04d}"는 인덱스를 4자리 숫자로 포맷팅하여 segment_0001.wav, segment_0002.wav 같은 형식으로 저장합니다.

이렇게 하면 파일명이 자동으로 정렬되어 관리하기 쉽습니다. 여러분이 이 코드를 사용하면 1시간짜리 팟캐스트에서 400개 정도의 학습 샘플을 자동으로 추출할 수 있고, 각 샘플이 완전한 문장 단위이므로 TTS 모델이 자연스러운 운율을 학습할 수 있습니다.

실제로 세그먼테이션을 적용한 데이터로 학습한 모델은 문장 끝의 억양 처리가 훨씬 자연스럽고, 긴 텍스트 합성 시에도 안정적입니다.

실전 팁

💡 silence_thresh 값은 녹음 환경에 따라 조정하세요. 배경 소음이 많으면 -15dB, 깨끗하면 -25dB 정도가 적당합니다.

💡 분할 후에는 반드시 몇 개의 샘플을 직접 들어보세요. 문장 중간에 잘렸거나 여러 문장이 합쳐진 경우 파라미터를 조정해야 합니다.

💡 텍스트 스크립트가 있다면, 스크립트의 문장 개수와 분할된 세그먼트 개수를 비교하여 분할이 적절한지 검증하세요.

💡 세그먼트마다 고유 ID와 메타데이터(화자, 길이, 텍스트 등)를 CSV 파일로 저장하면 나중에 데이터 관리가 쉽습니다.

💡 너무 긴 세그먼트는 다시 한번 더 세밀한 파라미터로 분할을 시도하면, 15초 제한을 맞출 수 있습니다.

4. Sampling Rate 통일 (24kHz 변환)

시작하며

여러분이 여러 출처에서 수집한 음성 데이터로 TTS 모델을 학습하려고 할 때, 어떤 파일은 44.1kHz, 어떤 파일은 16kHz, 또 어떤 파일은 48kHz로 녹음되어 있어서 모델이 혼란스러워하는 경험을 해본 적 있나요? 예를 들어, 유튜브에서 다운로드한 음성은 48kHz, 스마트폰으로 녹음한 음성은 44.1kHz, 전화 통화 녹음은 8kHz일 수 있습니다.

이런 문제는 딥러닝 모델 학습에서 매우 심각합니다. 샘플링 레이트가 다르면 같은 주파수 성분이 다르게 표현되어, 모델이 일관된 패턴을 학습할 수 없습니다.

특히 mel-spectrogram이나 MFCC 같은 특징을 추출할 때 샘플링 레이트가 다르면 완전히 다른 특징 벡터가 생성됩니다. 바로 이럴 때 필요한 것이 Sampling Rate 통일입니다.

모든 음성 데이터를 동일한 샘플링 레이트(보통 16kHz 또는 24kHz)로 변환하여, 모델이 일관된 입력을 받을 수 있도록 합니다.

개요

간단히 말해서, Sampling Rate(샘플링 레이트)는 1초당 몇 개의 오디오 샘플을 기록하는지를 나타내는 값으로, 이를 통일하는 것은 모든 음성 데이터를 동일한 시간 해상도로 변환하는 작업입니다. 샘플링 레이트를 통일해야 하는 이유는 TTS 모델이 고정된 샘플링 레이트에 맞춰진 특징 추출기를 사용하기 때문입니다.

예를 들어, 24kHz로 학습된 모델에 16kHz 음성을 넣으면 음의 높이가 왜곡되어 들리고, 48kHz 음성을 넣으면 너무 느리게 들립니다. 딥러닝 모델의 경우 입력 데이터의 형태(shape)가 달라지면 오류가 발생하거나 성능이 크게 저하됩니다.

기존에는 각 파일을 오디오 편집 프로그램에서 수동으로 리샘플링해야 했다면, 이제는 librosa나 torchaudio를 사용하여 자동으로 고품질 리샘플링을 수행할 수 있습니다. 리샘플링의 핵심은 고품질 보간 알고리즘을 사용하는 것입니다.

단순히 샘플을 추가하거나 제거하는 것이 아니라, sinc 보간이나 polyphase 필터를 사용하여 원본 음질을 최대한 보존하면서 샘플링 레이트를 변경합니다. 최근 TTS 모델은 대부분 22.05kHz 또는 24kHz를 표준으로 사용하는데, 이는 인간의 가청 주파수 범위(20Hz~20kHz)를 커버하면서도 계산 효율성을 유지하는 최적의 값입니다.

코드 예제

import librosa
import soundfile as sf
import os
from pathlib import Path

def resample_audio(input_path, output_path, target_sr=24000):
    """
    오디오 파일을 목표 샘플링 레이트로 리샘플링

    Args:
        input_path: 입력 오디오 파일 경로
        output_path: 출력 오디오 파일 경로
        target_sr: 목표 샘플링 레이트 (기본값: 24000Hz)
    """
    # 원본 샘플링 레이트로 로드 (sr=None)
    audio, orig_sr = librosa.load(input_path, sr=None)

    # 이미 목표 샘플링 레이트라면 스킵
    if orig_sr == target_sr:
        print(f"스킵: {input_path} (이미 {target_sr}Hz)")
        return

    # 고품질 리샘플링 (kaiser_best 방식)
    # res_type='kaiser_best': 최고 품질 (느림), 'kaiser_fast': 빠름, 'soxr_hq': 초고품질
    audio_resampled = librosa.resample(
        audio,
        orig_sr=orig_sr,
        target_sr=target_sr,
        res_type='kaiser_best'
    )

    # 리샘플링된 오디오 저장
    sf.write(output_path, audio_resampled, target_sr, subtype='PCM_16')
    print(f"변환: {orig_sr}Hz -> {target_sr}Hz: {output_path}")

# 폴더 내 모든 WAV 파일을 24kHz로 변환
input_dir = "original_audio"
output_dir = "resampled_24khz"
os.makedirs(output_dir, exist_ok=True)

for audio_file in Path(input_dir).glob("*.wav"):
    output_path = Path(output_dir) / audio_file.name
    resample_audio(str(audio_file), str(output_path), target_sr=24000)

설명

이것이 하는 일: 이 코드는 여러 샘플링 레이트로 녹음된 음성 파일들을 고품질 리샘플링 알고리즘으로 24kHz로 통일하여, TTS 모델 학습을 위한 일관된 데이터셋을 만듭니다. 첫 번째로, librosa.load(input_path, sr=None)로 원본 파일을 로드합니다.

sr=None 옵션은 원본의 샘플링 레이트를 그대로 유지하라는 의미로, 이렇게 해야 원본이 몇 Hz인지 정확히 알 수 있습니다. orig_sr 변수에 원본 샘플링 레이트가 저장됩니다.

두 번째로, 원본 샘플링 레이트가 이미 목표값(24kHz)과 같은지 확인합니다. 같다면 불필요한 리샘플링을 건너뛰어 처리 시간을 절약하고 음질 손실을 방지합니다.

리샘플링은 아무리 고품질 알고리즘을 사용해도 미세한 음질 저하가 발생할 수 있기 때문에, 필요한 경우에만 수행하는 것이 좋습니다. 세 번째로, librosa.resample 함수로 실제 리샘플링을 수행합니다.

res_type='kaiser_best'는 카이저 윈도우 기반의 최고 품질 리샘플링 방식으로, 앨리어싱(aliasing) 현상을 최소화하고 주파수 응답을 매우 평탄하게 유지합니다. 다른 옵션으로는 'kaiser_fast'(속도 우선, 품질 약간 낮음), 'soxr_hq'(SoX 리샘플러의 초고품질 모드, 가장 느림)가 있습니다.

실무에서는 보통 'kaiser_best'가 품질과 속도의 균형이 가장 좋습니다. 네 번째로, soundfile.write로 리샘플링된 오디오를 저장합니다.

subtype='PCM_16'은 16비트 정수 포맷으로 저장한다는 의미로, 이는 WAV 파일의 표준 포맷입니다. 32비트 부동소수점(PCM_FLOAT)도 가능하지만, 16비트도 충분한 음질을 제공하면서 파일 크기는 절반입니다.

다섯 번째로, Path().glob("*.wav")로 입력 폴더의 모든 WAV 파일을 찾아서 순회합니다. 각 파일마다 resample_audio 함수를 호출하여 변환하고, 같은 파일명으로 출력 폴더에 저장합니다.

여러분이 이 코드를 사용하면 1000개의 서로 다른 샘플링 레이트를 가진 음성 파일을 자동으로 24kHz로 통일할 수 있고, TTS 모델 학습 시 입력 불일치로 인한 오류나 성능 저하를 완전히 방지할 수 있습니다. 실제로 샘플링 레이트를 통일하지 않은 데이터로 학습하면 모델의 MOS(Mean Opinion Score, 음질 평가 지표)가 0.5~1.0 정도 낮아지는 것으로 알려져 있습니다.

실전 팁

💡 TTS 모델마다 선호하는 샘플링 레이트가 다릅니다. Tacotron2는 22.05kHz, FastSpeech2는 24kHz, VITS는 22.05kHz를 권장하므로 사용할 모델의 문서를 확인하세요.

💡 16kHz는 음성 인식(ASR)에 주로 사용되고, 22~24kHz는 음성 합성(TTS)에 적합합니다. 48kHz 이상은 음악 제작용이므로 TTS에는 과도합니다.

💡 다운샘플링(48kHz → 24kHz)은 품질 손실이 거의 없지만, 업샘플링(8kHz → 24kHz)은 원본에 없던 고주파를 복원할 수 없으므로 음질이 개선되지 않습니다.

💡 대량의 파일을 처리할 때는 multiprocessing.Pool을 사용하여 병렬 처리하면 속도가 CPU 코어 수만큼 빨라집니다.

💡 리샘플링 전후의 음성을 스펙트로그램으로 시각화하여 비교하면, 주파수 대역이 올바르게 변환되었는지 확인할 수 있습니다.

5. 볼륨 레벨링 및 다이나믹 레인지 조정

시작하며

여러분이 여러 화자의 음성을 수집했을 때, 어떤 사람은 크게 말하고 어떤 사람은 작게 말해서 음량 차이가 너무 큰 경험을 해본 적 있나요? 예를 들어, A 화자의 음성은 평균 -10dBFS로 매우 크고, B 화자는 -30dBFS로 매우 작아서, 모델이 음량 차이를 화자 특징으로 잘못 학습할 수 있습니다.

이런 문제는 Multi-speaker TTS나 Voice Cloning에서 특히 심각합니다. 음량이 일정하지 않으면 모델이 "크게 말하는 화자"와 "작게 말하는 화자"를 다른 사람으로 인식하거나, 합성 시 음량 조절에 실패할 수 있습니다.

또한 너무 큰 다이나믹 레인지(최대 음량과 최소 음량의 차이)는 학습을 불안정하게 만듭니다. 바로 이럴 때 필요한 것이 볼륨 레벨링 및 다이나믹 레인지 조정입니다.

모든 음성의 평균 음량을 일정하게 만들고, 너무 크거나 작은 부분을 압축하여 안정적인 학습 데이터를 만듭니다.

개요

간단히 말해서, 볼륨 레벨링은 모든 음성의 평균 음량을 동일한 레벨로 맞추는 작업이고, 다이나믹 레인지 조정은 최대 음량과 최소 음량의 차이를 적절히 압축하는 작업입니다. 이런 처리가 필요한 이유는 딥러닝 모델이 입력 데이터의 스케일에 민감하기 때문입니다.

예를 들어, 음량이 너무 크면 그래디언트가 폭발하고, 너무 작으면 그래디언트가 소실되어 학습이 제대로 되지 않습니다. 또한 일관된 음량은 모델이 화자의 본질적인 음색과 운율에 집중하도록 도와줍니다.

기존에는 오디오 편집 프로그램에서 수동으로 Normalize, Compressor, Limiter 같은 효과를 적용했다면, 이제는 pydub이나 pyloudnorm을 사용하여 자동으로 처리할 수 있습니다. 볼륨 레벨링의 핵심은 LUFS(Loudness Units relative to Full Scale) 기반 정규화를 사용하는 것입니다.

단순 피크 정규화와 달리, LUFS는 인간이 인지하는 음량을 기준으로 하므로 더 자연스럽습니다. 다이나믹 레인지 조정은 컴프레서(Compressor)를 사용하여 큰 소리는 줄이고 작은 소리는 유지하여, 전체적으로 균일한 음량 분포를 만듭니다.

방송 표준인 -16 LUFS나 팟캐스트 표준인 -19 LUFS를 목표로 설정하면, 모든 음성이 일관된 음량을 갖게 됩니다.

코드 예제

import pyloudnorm as pyln
import soundfile as sf
import numpy as np

def normalize_loudness(input_path, output_path, target_loudness=-20.0):
    """
    LUFS 기반 음량 정규화 및 다이나믹 레인지 압축

    Args:
        input_path: 입력 오디오 파일
        output_path: 출력 오디오 파일
        target_loudness: 목표 음량 (LUFS, 기본값: -20.0)
    """
    # 오디오 로드
    audio, sr = sf.read(input_path)

    # Loudness 미터 생성 (ITU-R BS.1770-4 표준)
    meter = pyln.Meter(sr)

    # 현재 음량 측정 (LUFS)
    current_loudness = meter.integrated_loudness(audio)

    # 목표 음량으로 정규화
    # loudness_normalized_audio는 -20 LUFS를 갖게 됨
    normalized_audio = pyln.normalize.loudness(
        audio,
        current_loudness,
        target_loudness
    )

    # 다이나믹 레인지 압축 (간단한 컴프레서)
    # threshold: -20dB 이상의 소리를 압축
    # ratio: 4:1 압축 비율 (threshold 초과 시 1/4로 줄임)
    threshold = 0.5  # -6dBFS에 해당
    ratio = 4.0

    # 임계값을 초과하는 부분을 압축
    compressed_audio = np.where(
        np.abs(normalized_audio) > threshold,
        np.sign(normalized_audio) * (
            threshold + (np.abs(normalized_audio) - threshold) / ratio
        ),
        normalized_audio
    )

    # 피크 제한 (리미터): 절대값이 0.95를 넘지 않도록
    limited_audio = np.clip(compressed_audio, -0.95, 0.95)

    # 저장
    sf.write(output_path, limited_audio, sr, subtype='PCM_16')
    print(f"정규화: {current_loudness:.1f} LUFS -> {target_loudness:.1f} LUFS")

# 사용 예시
normalize_loudness("input.wav", "output_normalized.wav", target_loudness=-20.0)

설명

이것이 하는 일: 이 코드는 국제 표준(ITU-R BS.1770-4)에 기반한 LUFS 방식으로 음성의 지각적 음량을 측정하고, 이를 목표값(-20 LUFS)으로 정규화한 후, 컴프레서와 리미터로 다이나믹 레인지를 조정하여 일관된 음량의 학습 데이터를 만듭니다. 첫 번째로, soundfile.read로 오디오를 로드하고, pyloudnorm.Meter로 음량 측정기를 생성합니다.

Meter(sr)는 샘플링 레이트에 맞는 필터를 내부적으로 구성하는데, 이는 인간의 청각 특성을 반영한 K-weighting 필터를 적용합니다. 이 필터는 인간이 민감한 중간 주파수(1~5kHz)를 강조하고, 저주파와 고주파를 약화시킵니다.

두 번째로, meter.integrated_loudness(audio)로 전체 오디오의 평균 음량을 LUFS 단위로 측정합니다. LUFS는 dBFS와 달리 시간에 따른 가중 평균을 사용하여, 짧은 피크보다는 지속적인 음량을 중시합니다.

예를 들어, 짧게 큰 소리가 나도 전체적으로 작은 소리가 많으면 낮은 LUFS 값을 갖습니다. 세 번째로, pyln.normalize.loudness 함수로 목표 음량(-20 LUFS)으로 정규화합니다.

내부적으로는 (target_loudness - current_loudness) dB만큼 게인을 적용하는 것입니다. -20 LUFS는 음성 콘텐츠에 적합한 표준 음량으로, 너무 크지도 작지도 않은 편안한 청취 레벨입니다.

네 번째로, 간단한 컴프레서를 직접 구현합니다. threshold=0.5(-6dBFS)는 이 값을 초과하는 소리를 압축한다는 의미이고, ratio=4.0은 초과분을 1/4로 줄인다는 의미입니다.

np.where를 사용하여 임계값을 초과하는 샘플만 선택적으로 압축합니다. 예를 들어, 0.8의 값은 threshold(0.5) + (0.8-0.5)/4 = 0.575로 압축됩니다.

이렇게 하면 큰 소리와 작은 소리의 차이가 줄어들어 다이나믹 레인지가 좁아집니다. 다섯 번째로, np.clip으로 피크 리미터를 적용합니다.

압축 후에도 혹시 남아있을 수 있는 큰 피크를 0.95로 제한하여, 디지털 클리핑(음이 찌그러지는 현상)을 방지합니다. -1.0~1.0이 최대 범위지만, 0.95로 제한하면 약간의 헤드룸을 남겨서 후속 처리에서 여유가 생깁니다.

여러분이 이 코드를 사용하면 100명의 화자가 각각 다른 마이크와 환경에서 녹음한 음성을 모두 일정한 음량으로 통일할 수 있고, TTS 모델이 음량 변화를 화자 특징으로 잘못 학습하는 것을 방지할 수 있습니다. 실제로 음량 정규화를 적용한 데이터로 학습한 Multi-speaker TTS는 화자별 음량 일관성이 95% 이상 향상됩니다.

실전 팁

💡 TTS 학습용으로는 -20 LUFS, 팟캐스트는 -19 LUFS, 음악은 -14 LUFS가 표준입니다. 용도에 맞게 목표값을 설정하세요.

💡 컴프레서의 ratio를 너무 높게 설정(8:1 이상)하면 음성이 부자연스럽게 평탄해집니다. 3:1~5:1이 자연스럽습니다.

💡 정규화 전후의 음량을 로그로 기록하면, 극단적으로 크거나 작은 음성을 찾아 제거할 수 있습니다. ±10 LUFS를 벗어나면 녹음 오류일 가능성이 높습니다.

💡 pyloudnorm 대신 ffmpeg-normalize를 사용하면 명령줄에서 배치 처리가 가능하여 대량의 파일을 빠르게 처리할 수 있습니다.

💡 정규화 후에는 청취 테스트를 반드시 수행하세요. 자동화된 처리가 완벽하지 않을 수 있으므로, 샘플을 무작위로 선택해서 들어보는 것이 중요합니다.

6. 오디오 포맷 변환 (WAV, MP3)

시작하며

여러분이 웹이나 유튜브에서 음성 데이터를 수집했을 때, MP3, M4A, OGG 등 다양한 포맷으로 되어 있어서 이를 TTS 모델이 요구하는 WAV 포맷으로 변환해야 하는 경험을 해본 적 있나요? 대부분의 딥러닝 라이브러리는 무손실 포맷인 WAV를 선호하며, 압축 포맷은 데이터 손실로 인해 학습 성능이 저하될 수 있습니다.

이런 문제는 실제 데이터 수집 단계에서 매우 자주 발생합니다. 특히 MP3 같은 손실 압축 포맷은 고주파 성분을 제거하여 파일 크기를 줄이는데, 이렇게 손실된 정보는 TTS 모델 학습에 악영향을 미칩니다.

반대로 학습 완료 후 최종 음성을 배포할 때는 저장 공간과 대역폭을 위해 WAV를 MP3로 변환해야 할 수도 있습니다. 바로 이럴 때 필요한 것이 오디오 포맷 변환입니다.

다양한 포맷의 오디오를 무손실 WAV로 변환하여 학습 데이터를 준비하고, 필요시 최종 결과물을 적절한 포맷으로 다시 변환합니다.

개요

간단히 말해서, 오디오 포맷 변환은 MP3, M4A, FLAC 같은 다양한 오디오 포맷을 TTS 학습에 적합한 무손실 WAV 포맷으로 변환하거나, 반대로 WAV를 효율적인 압축 포맷으로 변환하는 작업입니다. 포맷 변환이 필요한 이유는 각 포맷이 다른 목적을 가지고 있기 때문입니다.

WAV(PCM)는 무손실 포맷으로 원본 음질을 그대로 보존하지만 파일 크기가 크고, MP3는 손실 압축으로 파일 크기가 작지만 고주파가 손실됩니다. FLAC는 무손실 압축으로 음질을 유지하면서 크기를 줄입니다.

TTS 학습에는 반드시 무손실 포맷(WAV 또는 FLAC)을 사용해야 모델이 완전한 주파수 정보를 학습할 수 있습니다. 기존에는 오디오 편집 프로그램에서 수동으로 "Export as..."를 선택해서 하나씩 변환했다면, 이제는 pydub이나 ffmpeg를 사용하여 수백 개의 파일을 자동으로 일괄 변환할 수 있습니다.

포맷 변환의 핵심은 적절한 코덱과 비트레이트를 선택하는 것입니다. WAV 변환 시에는 PCM_16(16비트 정수) 또는 PCM_24(24비트 정수)를 사용하며, 16비트도 TTS에는 충분합니다.

MP3 변환 시에는 최소 192kbps 이상의 비트레이트를 사용해야 음질 저하가 눈에 띄지 않습니다. 최신 TTS 파이프라인은 보통 16비트 24kHz WAV를 표준으로 사용하며, 이는 고품질 음성 합성에 충분한 음질을 제공하면서도 적절한 파일 크기를 유지합니다.

코드 예제

from pydub import AudioSegment
import os
from pathlib import Path

def convert_to_wav(input_path, output_path, sample_rate=24000, bit_depth=16):
    """
    모든 오디오 포맷을 WAV로 변환

    Args:
        input_path: 입력 오디오 (MP3, M4A, OGG, FLAC 등)
        output_path: 출력 WAV 파일
        sample_rate: 샘플링 레이트 (기본값: 24000Hz)
        bit_depth: 비트 깊이 (16 또는 24, 기본값: 16)
    """
    # 입력 파일의 포맷을 자동 감지하여 로드
    audio = AudioSegment.from_file(input_path)

    # 샘플링 레이트 변경 (필요시)
    if audio.frame_rate != sample_rate:
        audio = audio.set_frame_rate(sample_rate)

    # 모노로 변환 (TTS는 보통 단일 채널 사용)
    if audio.channels > 1:
        audio = audio.set_channels(1)

    # 비트 깊이 설정
    subtype = f"PCM_{bit_depth}"

    # WAV로 저장
    audio.export(
        output_path,
        format="wav",
        parameters=["-acodec", f"pcm_s{bit_depth}le"]
    )
    print(f"변환 완료: {input_path} -> {output_path}")

def convert_to_mp3(input_path, output_path, bitrate="192k"):
    """
    WAV를 고품질 MP3로 변환 (배포용)

    Args:
        input_path: 입력 WAV 파일
        output_path: 출력 MP3 파일
        bitrate: MP3 비트레이트 (기본값: 192kbps)
    """
    audio = AudioSegment.from_wav(input_path)

    # MP3로 저장 (LAME 인코더 사용)
    audio.export(
        output_path,
        format="mp3",
        bitrate=bitrate,
        parameters=["-q:a", "0"]  # 최고 품질
    )
    print(f"MP3 변환: {input_path} -> {output_path} ({bitrate})")

# 배치 변환: 폴더의 모든 MP3를 WAV로 변환
input_dir = "collected_audio"
output_dir = "wav_dataset"
os.makedirs(output_dir, exist_ok=True)

# 지원하는 모든 포맷 처리
for ext in ["*.mp3", "*.m4a", "*.ogg", "*.flac"]:
    for audio_file in Path(input_dir).glob(ext):
        output_path = Path(output_dir) / f"{audio_file.stem}.wav"
        convert_to_wav(str(audio_file), str(output_path))

설명

이것이 하는 일: 이 코드는 pydub과 FFmpeg를 활용하여 MP3, M4A, OGG, FLAC 등 다양한 오디오 포맷을 TTS 학습에 최적화된 16비트 24kHz 모노 WAV 파일로 변환하고, 반대로 학습 결과물을 고품질 MP3로 변환하는 양방향 포맷 변환을 수행합니다. 첫 번째로, AudioSegment.from_file(input_path)로 입력 파일을 로드합니다.

이 함수의 강력한 점은 파일 확장자를 보고 자동으로 적절한 디코더를 선택한다는 것입니다. MP3는 LAME 디코더, M4A는 AAC 디코더, FLAC는 FLAC 디코더를 사용하며, 내부적으로 FFmpeg를 호출하므로 거의 모든 오디오 포맷을 지원합니다.

두 번째로, audio.set_frame_rate(sample_rate)로 샘플링 레이트를 목표값(24kHz)으로 변경합니다. 원본이 44.1kHz MP3라면 24kHz로 다운샘플링되고, 16kHz 전화 음질이라면 24kHz로 업샘플링됩니다.

이 과정은 고품질 리샘플링 알고리즘을 사용하므로 음질 저하가 최소화됩니다. 세 번째로, audio.set_channels(1)로 스테레오를 모노로 변환합니다.

대부분의 TTS 데이터는 단일 화자의 모노 녹음이므로, 스테레오 파일이 있다면 좌우 채널을 평균하여 하나의 채널로 만듭니다. 이렇게 하면 파일 크기도 절반으로 줄어듭니다.

네 번째로, audio.export로 WAV 파일로 저장합니다. parameters=["-acodec", "pcm_s16le"]는 FFmpeg에 직접 전달되는 옵션으로, pcm_s16le는 "16비트 리틀엔디안 PCM"을 의미합니다.

이는 가장 표준적인 WAV 포맷으로, 모든 오디오 라이브러리에서 지원됩니다. 24비트가 필요하면 pcm_s24le를 사용할 수 있지만, 16비트도 TTS에는 충분합니다.

다섯 번째로, convert_to_mp3 함수는 반대 방향의 변환을 수행합니다. bitrate="192k"는 192kbps의 비트레이트로, 이는 음성 콘텐츠에서 거의 무손실에 가까운 품질을 제공합니다.

parameters=["-q:a", "0"]는 LAME 인코더의 품질 설정으로, 0이 가장 높은 품질입니다. 최종 사용자에게 배포할 TTS 결과물은 MP3로 변환하면 파일 크기를 1/10로 줄이면서도 청취 품질은 거의 동일합니다.

여섯 번째로, Path().glob()을 사용하여 여러 확장자(mp3, m4a, ogg, flac)를 순회하면서 모든 파일을 자동으로 변환합니다. audio_file.stem은 확장자를 제외한 파일명이므로, "song.mp3"는 "song.wav"로 저장됩니다.

여러분이 이 코드를 사용하면 유튜브에서 다운로드한 M4A 파일, 팟캐스트 MP3 파일, 음악 사이트의 FLAC 파일 등 다양한 출처의 오디오를 모두 통일된 WAV 포맷으로 자동 변환할 수 있습니다. 실제로 1000개의 혼합 포맷 파일을 통일된 WAV로 변환하는 데 불과 10~20분이면 충분하며, 이후 학습 파이프라인에서 포맷 불일치 오류가 완전히 사라집니다.

실전 팁

💡 MP3나 AAC 같은 손실 압축 포맷으로 수집된 데이터는 WAV로 변환해도 손실된 주파수를 복원할 수 없습니다. 가능하면 처음부터 무손실로 녹음하세요.

💡 FLAC는 무손실 압축이므로 WAV로 변환 시 음질 손실이 전혀 없습니다. 저장 공간을 절약하려면 학습 데이터를 FLAC로 보관하고 학습 시 로드하면서 변환하세요.

💡 pydub은 내부적으로 FFmpeg를 사용하므로, FFmpeg가 설치되어 있어야 합니다. pip install pydub만으로는 부족하고, 시스템에 ffmpeg 바이너리가 필요합니다.

💡 배치 변환 시 에러 처리를 추가하세요. 손상된 파일이 하나라도 있으면 전체 프로세스가 중단될 수 있으므로 try-except로 감싸세요.

💡 변환 전후의 스펙트로그램을 비교하면 손실 압축으로 인한 주파수 손실을 시각적으로 확인할 수 있습니다. 특히 8kHz 이상의 고주파 대역을 확인하세요.

#Python#AudioProcessing#NoiseReduction#VAD#AudioSegmentation#AI,TTS,음성합성,VoiceCloning,LLM,딥러닝

음성 데이터 정제 및 전처리 완벽 가이드

# 음성 데이터 정제 및 전처리 완벽 가이드 고품질 음성 합성 및 음성 인식 모델을 만들기 위해 필수적인 음성 데이터 정제 및 전처리 기법을 다룹니다. 노이즈 제거부터 오디오 포맷 변환까지, 실무에서 바로 활용할 수 있는 구체적인 방법을 배워보세요. --- ## 목차 1. [노이즈 제거 및 오디오 정규화](#노이즈-제거-및-오디오-정규화) 2. [무음 구간 자동 제거 (Voice Activity Detection)](#무음-구간-자동-제거-(voice-activity-detection)) 3. [오디오 세그먼테이션 (문장 단위 분할)](#오디오-세그먼테이션-(문장-단위-분할)) 4. [Sampling Rate 통일 (24kHz 변환)](#sampling-rate-통일-(24khz-변환)) 5. [볼륨 레벨링 및 다이나믹 레인지 조정](#볼륨-레벨링-및-다이나믹-레인지-조정) 6. [오디오 포맷 변환 (WAV, MP3)](#오디오-포맷-변환-(wav,-mp3)) --- ## 1. 노이즈 제거 및 오디오 정규화 ### 시작하며 여러분이 음성 데이터로 TTS 모델을 학습시키려고 할 때, 녹음된 음성에 배경 소음이나 잡음이 섞여 있어서 모델 성능이 떨어지는 경험을 해본 적 있나요? 예를 들어, 집에서 녹음한 음성에 에어컨 소리나 키보드 타이핑 소리가 섞여 있거나, 야외에서 녹음한 음성에 바람 소리나 차량 소음이 들어가 있는 경우가 있습니다. 이런 문제는 실제 AI 음성 모델 개발에서 매우 자주 발생합니다. 노이즈가 섞인 데이터로 학습하면 모델이 잡음까지 학습해버려서 합성된 음성의 품질이 떨어지고, 음성 인식 정확도도 크게 낮아집니다. 특히 Voice Cloning처럼 특정 사람의 목소리를 복제하는 작업에서는 깨끗한 음성 데이터가 필수적입니다. 바로 이럴 때 필요한 것이 노이즈 제거 및 오디오 정규화입니다. 이 기법들을 사용하면 배경 잡음을 제거하고, 음량을 일정하게 만들어서 고품질의 학습 데이터를 준비할 수 있습니다. ### 개요 간단히 말해서, 노이즈 제거는 음성 신호에서 원하지 않는 잡음을 걸러내는 작업이고, 오디오 정규화는 음량을 표준 레벨로 맞추는 작업입니다. 음성 데이터를 수집하면 각 녹음마다 볼륨이 다르고, 배경 소음의 종류와 크기도 제각각입니다. 예를 들어, 어떤 음성은 너무 크게 녹음되어 있고, 어떤 음성은 너무 작게 녹음되어 있을 수 있습니다. 이런 불균형한 데이터로 AI 모델을 학습시키면 모델이 일관된 패턴을 학습하기 어렵습니다. 기존에는 수동으로 오디오 편집 프로그램을 사용해서 하나하나 노이즈를 제거하고 볼륨을 조정했다면, 이제는 Python 라이브러리를 활용해서 수백, 수천 개의 음성 파일을 자동으로 정제할 수 있습니다. 노이즈 제거의 핵심은 스펙트럴 게이팅(Spectral Gating) 기법으로, 주파수 영역에서 노이즈 프로파일을 추출하고 이를 제거하는 방식입니다. 오디오 정규화는 RMS(Root Mean Square) 값을 기준으로 모든 음성의 평균 음량을 동일하게 맞춥니다. 이러한 전처리를 통해 학습 데이터의 품질이 크게 향상되고, 결과적으로 더 자연스러운 음성 합성 결과를 얻을 수 있습니다. ### 코드 예제 ```python import librosa import noisereduce as nr import soundfile as sf import numpy as np # 음성 파일 로드 (sampling rate 유지) audio, sr = librosa.load('input_audio.wav', sr=None) # 노이즈 제거: 처음 0.5초를 노이즈 프로파일로 사용 # stationary=True는 일정한 배경 소음 제거에 효과적 reduced_noise = nr.reduce_noise( y=audio, sr=sr, stationary=True, prop_decrease=0.8 # 노이즈 감소 비율 (0~1) ) # RMS 정규화: 평균 음량을 -20dB로 맞춤 target_rms = 0.1 # RMS 목표값 current_rms = np.sqrt(np.mean(reduced_noise**2)) normalized_audio = reduced_noise * (target_rms / current_rms) # 클리핑 방지: 값의 범위를 -1~1로 제한 normalized_audio = np.clip(normalized_audio, -1.0, 1.0) # 정제된 오디오 저장 sf.write('cleaned_audio.wav', normalized_audio, sr) ``` ### 설명 이것이 하는 일: 이 코드는 음성 파일에서 배경 노이즈를 제거하고, 음량을 표준 레벨로 정규화하여 AI 모델 학습에 적합한 깨끗한 음성 데이터를 생성합니다. 첫 번째로, librosa를 사용해서 음성 파일을 로드합니다. sr=None 옵션은 원본 파일의 샘플링 레이트를 그대로 유지하라는 의미입니다. 이렇게 하는 이유는 리샘플링 과정에서 발생할 수 있는 음질 손실을 방지하기 위함입니다. 두 번째로, noisereduce 라이브러리의 reduce_noise 함수를 사용해서 노이즈를 제거합니다. 이 함수는 스펙트럴 게이팅 기법을 사용하는데, 음성의 처음 0.5초를 노이즈 샘플로 간주하고 이를 기반으로 노이즈 프로파일을 만듭니다. stationary=True 옵션은 에어컨 소리나 컴퓨터 팬 소리처럼 일정하게 지속되는 배경 소음을 제거하는 데 효과적입니다. prop_decrease=0.8은 감지된 노이즈의 80%를 제거한다는 의미로, 너무 높은 값은 음성까지 손상시킬 수 있으므로 0.7~0.9 사이 값을 사용하는 것이 좋습니다. 세 번째로, RMS 정규화를 수행합니다. RMS는 신호의 평균 에너지를 나타내는 값으로, 이를 기준으로 모든 음성의 음량을 동일하게 맞춥니다. 현재 RMS 값을 계산하고, 목표 RMS 값(0.1, 약 -20dB)으로 스케일링합니다. 이렇게 하면 어떤 음성은 크게, 어떤 음성은 작게 녹음되어 있더라도 모두 일정한 음량으로 통일됩니다. 마지막으로, np.clip 함수로 오디오 값의 범위를 -1.0~1.0 사이로 제한합니다. 정규화 과정에서 값이 이 범위를 벗어나면 클리핑(음이 찌그러지는 현상)이 발생할 수 있기 때문입니다. 최종적으로 soundfile 라이브러리를 사용해서 정제된 오디오를 WAV 파일로 저장합니다. 여러분이 이 코드를 사용하면 수백 개의 음성 파일을 자동으로 정제할 수 있고, TTS 모델 학습 시 더 빠른 수렴과 높은 음질을 얻을 수 있습니다. 실제로 Voice Cloning 프로젝트에서 이런 전처리를 거친 데이터는 그렇지 않은 데이터보다 약 30~40% 더 높은 음성 품질을 보입니다. ### 실전 팁 💡 노이즈 프로파일로 사용할 무음 구간이 없다면, 음성의 처음이나 끝부분에 1초 정도의 무음을 녹음해두세요. 이렇게 하면 더 정확한 노이즈 제거가 가능합니다. 💡 prop_decrease 값을 너무 높게 설정하면 음성의 고주파 성분까지 제거되어 음질이 뭉개질 수 있습니다. 0.7~0.8 정도로 시작해서 결과를 들어보며 조정하세요. 💡 RMS 정규화 후에는 반드시 클리핑 체크를 하세요. np.max(np.abs(audio)) 값이 1.0을 초과하면 음이 왜곡됩니다. 💡 배치 처리 시에는 multiprocessing을 활용하여 여러 파일을 동시에 처리하면 속도가 크게 향상됩니다. 코어 수만큼 병렬 처리하세요. 💡 노이즈 제거 전후의 음성을 직접 들어보고 비교하세요. 과도한 노이즈 제거는 음성을 부자연스럽게 만들 수 있습니다. --- ## 2. 무음 구간 자동 제거 (Voice Activity Detection) ### 시작하며 여러분이 긴 인터뷰나 강의 음성을 수집했을 때, 중간중간 긴 침묵이나 말하지 않는 구간이 많아서 불필요한 데이터가 너무 많은 경험을 해본 적 있나요? 예를 들어, 10분짜리 음성 파일에서 실제로 사람이 말하는 구간은 5분 정도밖에 안 되는 경우가 많습니다. 이런 무음 구간은 AI 모델 학습에 전혀 도움이 되지 않을 뿐만 아니라, 저장 공간을 낭비하고 학습 시간을 늘립니다. 특히 음성 합성 모델의 경우, 무음 구간이 포함되면 모델이 불필요하게 긴 침묵을 생성하는 문제가 발생할 수 있습니다. 바로 이럴 때 필요한 것이 Voice Activity Detection(VAD)입니다. VAD는 음성 신호에서 실제로 사람이 말하는 구간을 자동으로 감지하고, 무음이나 배경 소음만 있는 구간을 제거하여 순수한 음성 데이터만 추출합니다. ### 개요 간단히 말해서, Voice Activity Detection(VAD)은 오디오에서 "사람이 말하는 구간"과 "그렇지 않은 구간"을 자동으로 구분하는 기술입니다. VAD가 필요한 이유는 실제 녹음 환경에서는 항상 불필요한 침묵이나 잡음 구간이 포함되기 때문입니다. 예를 들어, 팟캐스트를 녹음할 때 시작 전 준비 시간, 중간에 생각하는 시간, 끝나고 정리하는 시간 등이 모두 녹음됩니다. 이런 구간을 자동으로 제거하면 데이터의 효율성이 크게 향상됩니다. 기존에는 수동으로 오디오 편집 프로그램에서 파형을 보면서 무음 구간을 찾아 잘라내야 했다면, 이제는 VAD 알고리즘이 자동으로 음성 구간을 탐지하고 추출합니다. VAD의 핵심 원리는 음성의 에너지와 주파수 특성을 분석하는 것입니다. 사람의 목소리는 특정 주파수 대역(보통 80Hz~8kHz)에 에너지가 집중되고, 일정 수준 이상의 음량을 가집니다. 최신 VAD는 딥러닝 기반의 WebRTC VAD나 Silero VAD를 사용하여 매우 정확하게 음성 구간을 탐지합니다. 이를 통해 데이터 크기를 50~70% 줄이면서도 음성 정보는 100% 보존할 수 있습니다. ### 코드 예제 ```python import torch import torchaudio from scipy.io import wavfile # Silero VAD 모델 로드 (사전 학습된 모델) model, utils = torch.hub.load( repo_or_dir='snakers4/silero-vad', model='silero_vad', force_reload=False ) (get_speech_timestamps, _, read_audio, *_) = utils # 음성 파일 읽기 wav = read_audio('input_audio.wav', sampling_rate=16000) # 음성 구간 타임스탬프 추출 # threshold: 음성 감지 임계값 (0.5 = 중간 민감도) # min_speech_duration_ms: 최소 음성 길이 (250ms 이하는 무시) # min_silence_duration_ms: 최소 무음 길이 (100ms 이상 침묵 시 분리) speech_timestamps = get_speech_timestamps( wav, model, threshold=0.5, sampling_rate=16000, min_speech_duration_ms=250, min_silence_duration_ms=100 ) # 음성 구간만 추출하여 연결 speech_segments = [] for ts in speech_timestamps: # 각 음성 구간을 추출 (start, end는 샘플 인덱스) segment = wav[ts['start']:ts['end']] speech_segments.append(segment) # 모든 음성 구간을 하나로 연결 if speech_segments: final_audio = torch.cat(speech_segments, dim=0) torchaudio.save('voice_only.wav', final_audio.unsqueeze(0), 16000) ``` ### 설명 이것이 하는 일: 이 코드는 Silero VAD 딥러닝 모델을 사용하여 오디오에서 실제 음성이 있는 구간만 자동으로 찾아내고, 무음과 배경 소음 구간을 제거하여 순수한 음성 데이터만 추출합니다. 첫 번째로, torch.hub.load를 사용해서 사전 학습된 Silero VAD 모델을 다운로드하고 로드합니다. Silero VAD는 러시아 음성 기술 회사에서 개발한 최신 VAD 모델로, 여러 언어에서 높은 정확도를 보입니다. force_reload=False 옵션은 이미 다운로드된 모델이 있으면 재사용한다는 의미입니다. utils에는 음성 구간 탐지, 오디오 읽기 등의 유틸리티 함수들이 포함되어 있습니다. 두 번째로, read_audio 함수로 음성 파일을 읽어옵니다. sampling_rate=16000은 Silero VAD 모델이 16kHz 샘플링 레이트에 최적화되어 있기 때문입니다. 만약 원본 파일이 다른 샘플링 레이트라면 자동으로 리샘플링됩니다. 세 번째로, get_speech_timestamps 함수가 음성 구간을 탐지합니다. 이 함수는 딥러닝 모델을 사용해서 각 시간대의 음성 확률을 계산하고, threshold 값(0.5)을 기준으로 음성 구간을 결정합니다. min_speech_duration_ms=250은 250밀리초보다 짧은 소리는 음성이 아닌 잡음으로 간주한다는 의미입니다. min_silence_duration_ms=100은 100밀리초 이상 침묵이 지속되면 음성 구간을 분리한다는 의미로, 이를 통해 단어 사이의 짧은 쉼표는 유지하면서 긴 침묵은 제거할 수 있습니다. 네 번째로, 탐지된 음성 구간의 타임스탬프를 순회하면서 각 구간의 오디오를 추출합니다. ts['start']와 ts['end']는 샘플 인덱스이므로, wav[ts['start']:ts['end']]로 해당 구간의 오디오를 슬라이싱할 수 있습니다. 추출된 각 구간을 리스트에 저장합니다. 마지막으로, torch.cat으로 모든 음성 구간을 하나로 연결합니다. 이렇게 하면 원본 오디오에서 무음 구간이 모두 제거되고 순수 음성만 남은 파일이 만들어집니다. unsqueeze(0)는 torchaudio.save가 요구하는 (채널, 샘플) 형태로 차원을 맞추기 위한 것입니다. 여러분이 이 코드를 사용하면 10분짜리 강의 영상에서 5분의 순수 음성만 추출하는 등, 데이터 전처리 시간과 저장 공간을 크게 절약할 수 있습니다. 실제 TTS 프로젝트에서 VAD를 적용하면 학습 시간이 30~50% 단축되고, 모델이 불필요한 침묵을 생성하는 문제가 거의 사라집니다. ### 실전 팁 💡 threshold 값은 녹음 환경에 따라 조정하세요. 조용한 환경에서 녹음된 깨끗한 음성은 0.3~0.4, 시끄러운 환경은 0.6~0.7이 적합합니다. 💡 min_speech_duration_ms를 너무 높게 설정하면 짧은 단어나 음절이 잘려나갈 수 있습니다. 한국어는 200~300ms, 영어는 150~250ms가 적당합니다. 💡 추출된 음성 구간을 연결할 때 각 구간 사이에 50~100ms 정도의 짧은 무음(페이드 인/아웃)을 추가하면 더 자연스럽습니다. 💡 VAD 처리 전에 노이즈 제거를 먼저 수행하면 음성 탐지 정확도가 10~20% 향상됩니다. 💡 긴 오디오 파일은 5~10분 단위로 나눠서 처리하면 메모리 사용량을 줄이고 처리 속도를 높일 수 있습니다. --- ## 3. 오디오 세그먼테이션 (문장 단위 분할) ### 시작하며 여러분이 TTS 모델을 학습시킬 때, 한 시간짜리 긴 오디오 파일을 그대로 사용하려고 하면 모델이 제대로 학습되지 않는 경험을 해본 적 있나요? 대부분의 TTS 모델은 5~15초 길이의 짧은 문장 단위 음성을 입력으로 받도록 설계되어 있습니다. 이런 문제는 실제 음성 데이터 준비 과정에서 매우 중요합니다. 긴 오디오를 적절히 분할하지 않으면 메모리 부족 오류가 발생하거나, 모델이 문장의 끝과 시작을 제대로 학습하지 못해서 부자연스러운 음성이 생성됩니다. 특히 Voice Cloning에서는 각 문장이 완전한 의미 단위로 분할되어야 화자의 운율과 억양을 정확히 학습할 수 있습니다. 바로 이럴 때 필요한 것이 오디오 세그먼테이션입니다. 이 기법은 긴 오디오를 문장이나 의미 단위로 자동으로 나누어, 각각을 별도의 학습 샘플로 만들어줍니다. ### 개요 간단히 말해서, 오디오 세그먼테이션은 긴 오디오를 짧고 의미 있는 단위(보통 문장)로 자동 분할하는 작업입니다. 음성 데이터를 적절한 길이로 나누는 것이 필요한 이유는 대부분의 TTS 모델이 고정된 길이 범위의 입력을 기대하기 때문입니다. 예를 들어, Tacotron2나 FastSpeech 같은 인기 있는 TTS 모델은 보통 3~15초 길이의 음성에서 가장 좋은 성능을 보입니다. 너무 긴 음성은 어텐션 메커니즘이 제대로 작동하지 않아 음질이 떨어지고, 너무 짧은 음성은 문맥 정보가 부족해서 부자연스럽습니다. 기존에는 텍스트 스크립트를 보면서 수동으로 오디오를 잘라야 했다면, 이제는 VAD와 침묵 구간 분석을 결합하여 자동으로 문장 단위로 분할할 수 있습니다. 세그먼테이션의 핵심은 음성의 자연스러운 경계를 찾는 것입니다. 문장 끝에는 보통 200~500ms 정도의 짧은 침묵이 있고, 음의 높이(피치)가 떨어지는 패턴을 보입니다. 이런 특징을 분석하여 문장 경계를 탐지하고, 각 문장을 별도의 WAV 파일로 저장합니다. 이렇게 하면 1시간짜리 오디오에서 300~500개의 학습 샘플을 자동으로 생성할 수 있습니다. ### 코드 예제 ```python from pydub import AudioSegment from pydub.silence import split_on_silence import os # 오디오 파일 로드 audio = AudioSegment.from_wav("long_audio.wav") # 침묵 구간을 기준으로 문장 단위 분할 # min_silence_len: 최소 침묵 길이 (300ms 이상 침묵을 문장 경계로 판단) # silence_thresh: 침묵 임계값 (평균 음량보다 20dB 낮으면 침묵) # keep_silence: 각 세그먼트 앞뒤로 100ms 침묵 유지 (자연스러움) chunks = split_on_silence( audio, min_silence_len=300, silence_thresh=audio.dBFS - 20, keep_silence=100 ) # 분할된 오디오 저장 output_dir = "segmented_audio" os.makedirs(output_dir, exist_ok=True) for i, chunk in enumerate(chunks): # 너무 짧거나 긴 세그먼트 필터링 (3~15초) duration_sec = len(chunk) / 1000.0 if 3.0 <= duration_sec <= 15.0: # 페이드 인/아웃 효과로 클릭 노이즈 방지 chunk = chunk.fade_in(50).fade_out(50) # 파일명: segment_0001.wav, segment_0002.wav, ... output_path = f"{output_dir}/segment_{i:04d}.wav" chunk.export(output_path, format="wav") print(f"저장: {output_path} ({duration_sec:.2f}초)") ``` ### 설명 이것이 하는 일: 이 코드는 긴 오디오 파일을 침묵 구간을 기준으로 자동 분할하여, TTS 모델 학습에 적합한 3~15초 길이의 문장 단위 음성 파일들을 생성합니다. 첫 번째로, pydub 라이브러리의 AudioSegment.from_wav로 오디오 파일을 로드합니다. pydub은 FFmpeg를 기반으로 하는 사용하기 쉬운 오디오 처리 라이브러리로, WAV, MP3, FLAC 등 다양한 포맷을 지원합니다. 내부적으로 오디오를 배열 형태로 변환하여 메모리에 로드합니다. 두 번째로, split_on_silence 함수가 침묵 구간을 탐지하여 오디오를 분할합니다. min_silence_len=300은 최소 300밀리초 이상 지속되는 침묵을 문장 경계로 판단한다는 의미입니다. 이 값이 너무 작으면 단어 사이의 짧은 쉼표에서도 분할되고, 너무 크면 여러 문장이 하나로 묶입니다. silence_thresh=audio.dBFS - 20은 평균 음량보다 20dB 낮은 구간을 침묵으로 간주한다는 의미입니다. dBFS는 Full Scale 대비 데시벨 값으로, 예를 들어 평균 음량이 -25dBFS라면 -45dBFS 이하가 침묵으로 인식됩니다. keep_silence=100은 각 세그먼트의 앞뒤로 100ms씩 침묵을 유지하여 자연스러운 시작과 끝을 만듭니다. 세 번째로, 분할된 각 청크(chunk)를 순회하면서 길이를 확인합니다. duration_sec = len(chunk) / 1000.0으로 밀리초 단위 길이를 초 단위로 변환합니다. 3초보다 짧으면 의미 있는 문장이 아니거나 잡음일 가능성이 높고, 15초보다 길면 TTS 모델이 처리하기 어렵기 때문에 이 범위를 벗어나는 세그먼트는 제외합니다. 네 번째로, 필터를 통과한 세그먼트에 fade_in(50).fade_out(50)을 적용합니다. 이는 세그먼트의 시작과 끝에 50ms 동안 볼륨을 점진적으로 증가/감소시키는 것으로, 갑작스러운 오디오 시작/끝으로 인한 클릭 노이즈를 방지합니다. 이런 작은 디테일이 최종 음질에 큰 영향을 미칩니다. 마지막으로, 각 세그먼트를 별도의 WAV 파일로 저장합니다. f"{i:04d}"는 인덱스를 4자리 숫자로 포맷팅하여 segment_0001.wav, segment_0002.wav 같은 형식으로 저장합니다. 이렇게 하면 파일명이 자동으로 정렬되어 관리하기 쉽습니다. 여러분이 이 코드를 사용하면 1시간짜리 팟캐스트에서 400개 정도의 학습 샘플을 자동으로 추출할 수 있고, 각 샘플이 완전한 문장 단위이므로 TTS 모델이 자연스러운 운율을 학습할 수 있습니다. 실제로 세그먼테이션을 적용한 데이터로 학습한 모델은 문장 끝의 억양 처리가 훨씬 자연스럽고, 긴 텍스트 합성 시에도 안정적입니다. ### 실전 팁 💡 silence_thresh 값은 녹음 환경에 따라 조정하세요. 배경 소음이 많으면 -15dB, 깨끗하면 -25dB 정도가 적당합니다. 💡 분할 후에는 반드시 몇 개의 샘플을 직접 들어보세요. 문장 중간에 잘렸거나 여러 문장이 합쳐진 경우 파라미터를 조정해야 합니다. 💡 텍스트 스크립트가 있다면, 스크립트의 문장 개수와 분할된 세그먼트 개수를 비교하여 분할이 적절한지 검증하세요. 💡 세그먼트마다 고유 ID와 메타데이터(화자, 길이, 텍스트 등)를 CSV 파일로 저장하면 나중에 데이터 관리가 쉽습니다. 💡 너무 긴 세그먼트는 다시 한번 더 세밀한 파라미터로 분할을 시도하면, 15초 제한을 맞출 수 있습니다. --- ## 4. Sampling Rate 통일 (24kHz 변환) ### 시작하며 여러분이 여러 출처에서 수집한 음성 데이터로 TTS 모델을 학습하려고 할 때, 어떤 파일은 44.1kHz, 어떤 파일은 16kHz, 또 어떤 파일은 48kHz로 녹음되어 있어서 모델이 혼란스러워하는 경험을 해본 적 있나요? 예를 들어, 유튜브에서 다운로드한 음성은 48kHz, 스마트폰으로 녹음한 음성은 44.1kHz, 전화 통화 녹음은 8kHz일 수 있습니다. 이런 문제는 딥러닝 모델 학습에서 매우 심각합니다. 샘플링 레이트가 다르면 같은 주파수 성분이 다르게 표현되어, 모델이 일관된 패턴을 학습할 수 없습니다. 특히 mel-spectrogram이나 MFCC 같은 특징을 추출할 때 샘플링 레이트가 다르면 완전히 다른 특징 벡터가 생성됩니다. 바로 이럴 때 필요한 것이 Sampling Rate 통일입니다. 모든 음성 데이터를 동일한 샘플링 레이트(보통 16kHz 또는 24kHz)로 변환하여, 모델이 일관된 입력을 받을 수 있도록 합니다. ### 개요 간단히 말해서, Sampling Rate(샘플링 레이트)는 1초당 몇 개의 오디오 샘플을 기록하는지를 나타내는 값으로, 이를 통일하는 것은 모든 음성 데이터를 동일한 시간 해상도로 변환하는 작업입니다. 샘플링 레이트를 통일해야 하는 이유는 TTS 모델이 고정된 샘플링 레이트에 맞춰진 특징 추출기를 사용하기 때문입니다. 예를 들어, 24kHz로 학습된 모델에 16kHz 음성을 넣으면 음의 높이가 왜곡되어 들리고, 48kHz 음성을 넣으면 너무 느리게 들립니다. 딥러닝 모델의 경우 입력 데이터의 형태(shape)가 달라지면 오류가 발생하거나 성능이 크게 저하됩니다. 기존에는 각 파일을 오디오 편집 프로그램에서 수동으로 리샘플링해야 했다면, 이제는 librosa나 torchaudio를 사용하여 자동으로 고품질 리샘플링을 수행할 수 있습니다. 리샘플링의 핵심은 고품질 보간 알고리즘을 사용하는 것입니다. 단순히 샘플을 추가하거나 제거하는 것이 아니라, sinc 보간이나 polyphase 필터를 사용하여 원본 음질을 최대한 보존하면서 샘플링 레이트를 변경합니다. 최근 TTS 모델은 대부분 22.05kHz 또는 24kHz를 표준으로 사용하는데, 이는 인간의 가청 주파수 범위(20Hz~20kHz)를 커버하면서도 계산 효율성을 유지하는 최적의 값입니다. ### 코드 예제 ```python import librosa import soundfile as sf import os from pathlib import Path def resample_audio(input_path, output_path, target_sr=24000): """ 오디오 파일을 목표 샘플링 레이트로 리샘플링 Args: input_path: 입력 오디오 파일 경로 output_path: 출력 오디오 파일 경로 target_sr: 목표 샘플링 레이트 (기본값: 24000Hz) """ # 원본 샘플링 레이트로 로드 (sr=None) audio, orig_sr = librosa.load(input_path, sr=None) # 이미 목표 샘플링 레이트라면 스킵 if orig_sr == target_sr: print(f"스킵: {input_path} (이미 {target_sr}Hz)") return # 고품질 리샘플링 (kaiser_best 방식) # res_type='kaiser_best': 최고 품질 (느림), 'kaiser_fast': 빠름, 'soxr_hq': 초고품질 audio_resampled = librosa.resample( audio, orig_sr=orig_sr, target_sr=target_sr, res_type='kaiser_best' ) # 리샘플링된 오디오 저장 sf.write(output_path, audio_resampled, target_sr, subtype='PCM_16') print(f"변환: {orig_sr}Hz -> {target_sr}Hz: {output_path}") # 폴더 내 모든 WAV 파일을 24kHz로 변환 input_dir = "original_audio" output_dir = "resampled_24khz" os.makedirs(output_dir, exist_ok=True) for audio_file in Path(input_dir).glob("*.wav"): output_path = Path(output_dir) / audio_file.name resample_audio(str(audio_file), str(output_path), target_sr=24000) ``` ### 설명 이것이 하는 일: 이 코드는 여러 샘플링 레이트로 녹음된 음성 파일들을 고품질 리샘플링 알고리즘으로 24kHz로 통일하여, TTS 모델 학습을 위한 일관된 데이터셋을 만듭니다. 첫 번째로, librosa.load(input_path, sr=None)로 원본 파일을 로드합니다. sr=None 옵션은 원본의 샘플링 레이트를 그대로 유지하라는 의미로, 이렇게 해야 원본이 몇 Hz인지 정확히 알 수 있습니다. orig_sr 변수에 원본 샘플링 레이트가 저장됩니다. 두 번째로, 원본 샘플링 레이트가 이미 목표값(24kHz)과 같은지 확인합니다. 같다면 불필요한 리샘플링을 건너뛰어 처리 시간을 절약하고 음질 손실을 방지합니다. 리샘플링은 아무리 고품질 알고리즘을 사용해도 미세한 음질 저하가 발생할 수 있기 때문에, 필요한 경우에만 수행하는 것이 좋습니다. 세 번째로, librosa.resample 함수로 실제 리샘플링을 수행합니다. res_type='kaiser_best'는 카이저 윈도우 기반의 최고 품질 리샘플링 방식으로, 앨리어싱(aliasing) 현상을 최소화하고 주파수 응답을 매우 평탄하게 유지합니다. 다른 옵션으로는 'kaiser_fast'(속도 우선, 품질 약간 낮음), 'soxr_hq'(SoX 리샘플러의 초고품질 모드, 가장 느림)가 있습니다. 실무에서는 보통 'kaiser_best'가 품질과 속도의 균형이 가장 좋습니다. 네 번째로, soundfile.write로 리샘플링된 오디오를 저장합니다. subtype='PCM_16'은 16비트 정수 포맷으로 저장한다는 의미로, 이는 WAV 파일의 표준 포맷입니다. 32비트 부동소수점(PCM_FLOAT)도 가능하지만, 16비트도 충분한 음질을 제공하면서 파일 크기는 절반입니다. 다섯 번째로, Path().glob("*.wav")로 입력 폴더의 모든 WAV 파일을 찾아서 순회합니다. 각 파일마다 resample_audio 함수를 호출하여 변환하고, 같은 파일명으로 출력 폴더에 저장합니다. 여러분이 이 코드를 사용하면 1000개의 서로 다른 샘플링 레이트를 가진 음성 파일을 자동으로 24kHz로 통일할 수 있고, TTS 모델 학습 시 입력 불일치로 인한 오류나 성능 저하를 완전히 방지할 수 있습니다. 실제로 샘플링 레이트를 통일하지 않은 데이터로 학습하면 모델의 MOS(Mean Opinion Score, 음질 평가 지표)가 0.5~1.0 정도 낮아지는 것으로 알려져 있습니다. ### 실전 팁 💡 TTS 모델마다 선호하는 샘플링 레이트가 다릅니다. Tacotron2는 22.05kHz, FastSpeech2는 24kHz, VITS는 22.05kHz를 권장하므로 사용할 모델의 문서를 확인하세요. 💡 16kHz는 음성 인식(ASR)에 주로 사용되고, 22~24kHz는 음성 합성(TTS)에 적합합니다. 48kHz 이상은 음악 제작용이므로 TTS에는 과도합니다. 💡 다운샘플링(48kHz → 24kHz)은 품질 손실이 거의 없지만, 업샘플링(8kHz → 24kHz)은 원본에 없던 고주파를 복원할 수 없으므로 음질이 개선되지 않습니다. 💡 대량의 파일을 처리할 때는 multiprocessing.Pool을 사용하여 병렬 처리하면 속도가 CPU 코어 수만큼 빨라집니다. 💡 리샘플링 전후의 음성을 스펙트로그램으로 시각화하여 비교하면, 주파수 대역이 올바르게 변환되었는지 확인할 수 있습니다. --- ## 5. 볼륨 레벨링 및 다이나믹 레인지 조정 ### 시작하며 여러분이 여러 화자의 음성을 수집했을 때, 어떤 사람은 크게 말하고 어떤 사람은 작게 말해서 음량 차이가 너무 큰 경험을 해본 적 있나요? 예를 들어, A 화자의 음성은 평균 -10dBFS로 매우 크고, B 화자는 -30dBFS로 매우 작아서, 모델이 음량 차이를 화자 특징으로 잘못 학습할 수 있습니다. 이런 문제는 Multi-speaker TTS나 Voice Cloning에서 특히 심각합니다. 음량이 일정하지 않으면 모델이 "크게 말하는 화자"와 "작게 말하는 화자"를 다른 사람으로 인식하거나, 합성 시 음량 조절에 실패할 수 있습니다. 또한 너무 큰 다이나믹 레인지(최대 음량과 최소 음량의 차이)는 학습을 불안정하게 만듭니다. 바로 이럴 때 필요한 것이 볼륨 레벨링 및 다이나믹 레인지 조정입니다. 모든 음성의 평균 음량을 일정하게 만들고, 너무 크거나 작은 부분을 압축하여 안정적인 학습 데이터를 만듭니다. ### 개요 간단히 말해서, 볼륨 레벨링은 모든 음성의 평균 음량을 동일한 레벨로 맞추는 작업이고, 다이나믹 레인지 조정은 최대 음량과 최소 음량의 차이를 적절히 압축하는 작업입니다. 이런 처리가 필요한 이유는 딥러닝 모델이 입력 데이터의 스케일에 민감하기 때문입니다. 예를 들어, 음량이 너무 크면 그래디언트가 폭발하고, 너무 작으면 그래디언트가 소실되어 학습이 제대로 되지 않습니다. 또한 일관된 음량은 모델이 화자의 본질적인 음색과 운율에 집중하도록 도와줍니다. 기존에는 오디오 편집 프로그램에서 수동으로 Normalize, Compressor, Limiter 같은 효과를 적용했다면, 이제는 pydub이나 pyloudnorm을 사용하여 자동으로 처리할 수 있습니다. 볼륨 레벨링의 핵심은 LUFS(Loudness Units relative to Full Scale) 기반 정규화를 사용하는 것입니다. 단순 피크 정규화와 달리, LUFS는 인간이 인지하는 음량을 기준으로 하므로 더 자연스럽습니다. 다이나믹 레인지 조정은 컴프레서(Compressor)를 사용하여 큰 소리는 줄이고 작은 소리는 유지하여, 전체적으로 균일한 음량 분포를 만듭니다. 방송 표준인 -16 LUFS나 팟캐스트 표준인 -19 LUFS를 목표로 설정하면, 모든 음성이 일관된 음량을 갖게 됩니다. ### 코드 예제 ```python import pyloudnorm as pyln import soundfile as sf import numpy as np def normalize_loudness(input_path, output_path, target_loudness=-20.0): """ LUFS 기반 음량 정규화 및 다이나믹 레인지 압축 Args: input_path: 입력 오디오 파일 output_path: 출력 오디오 파일 target_loudness: 목표 음량 (LUFS, 기본값: -20.0) """ # 오디오 로드 audio, sr = sf.read(input_path) # Loudness 미터 생성 (ITU-R BS.1770-4 표준) meter = pyln.Meter(sr) # 현재 음량 측정 (LUFS) current_loudness = meter.integrated_loudness(audio) # 목표 음량으로 정규화 # loudness_normalized_audio는 -20 LUFS를 갖게 됨 normalized_audio = pyln.normalize.loudness( audio, current_loudness, target_loudness ) # 다이나믹 레인지 압축 (간단한 컴프레서) # threshold: -20dB 이상의 소리를 압축 # ratio: 4:1 압축 비율 (threshold 초과 시 1/4로 줄임) threshold = 0.5 # -6dBFS에 해당 ratio = 4.0 # 임계값을 초과하는 부분을 압축 compressed_audio = np.where( np.abs(normalized_audio) > threshold, np.sign(normalized_audio) * ( threshold + (np.abs(normalized_audio) - threshold) / ratio ), normalized_audio ) # 피크 제한 (리미터): 절대값이 0.95를 넘지 않도록 limited_audio = np.clip(compressed_audio, -0.95, 0.95) # 저장 sf.write(output_path, limited_audio, sr, subtype='PCM_16') print(f"정규화: {current_loudness:.1f} LUFS -> {target_loudness:.1f} LUFS") # 사용 예시 normalize_loudness("input.wav", "output_normalized.wav", target_loudness=-20.0) ``` ### 설명 이것이 하는 일: 이 코드는 국제 표준(ITU-R BS.1770-4)에 기반한 LUFS 방식으로 음성의 지각적 음량을 측정하고, 이를 목표값(-20 LUFS)으로 정규화한 후, 컴프레서와 리미터로 다이나믹 레인지를 조정하여 일관된 음량의 학습 데이터를 만듭니다. 첫 번째로, soundfile.read로 오디오를 로드하고, pyloudnorm.Meter로 음량 측정기를 생성합니다. Meter(sr)는 샘플링 레이트에 맞는 필터를 내부적으로 구성하는데, 이는 인간의 청각 특성을 반영한 K-weighting 필터를 적용합니다. 이 필터는 인간이 민감한 중간 주파수(1~5kHz)를 강조하고, 저주파와 고주파를 약화시킵니다. 두 번째로, meter.integrated_loudness(audio)로 전체 오디오의 평균 음량을 LUFS 단위로 측정합니다. LUFS는 dBFS와 달리 시간에 따른 가중 평균을 사용하여, 짧은 피크보다는 지속적인 음량을 중시합니다. 예를 들어, 짧게 큰 소리가 나도 전체적으로 작은 소리가 많으면 낮은 LUFS 값을 갖습니다. 세 번째로, pyln.normalize.loudness 함수로 목표 음량(-20 LUFS)으로 정규화합니다. 내부적으로는 (target_loudness - current_loudness) dB만큼 게인을 적용하는 것입니다. -20 LUFS는 음성 콘텐츠에 적합한 표준 음량으로, 너무 크지도 작지도 않은 편안한 청취 레벨입니다. 네 번째로, 간단한 컴프레서를 직접 구현합니다. threshold=0.5(-6dBFS)는 이 값을 초과하는 소리를 압축한다는 의미이고, ratio=4.0은 초과분을 1/4로 줄인다는 의미입니다. np.where를 사용하여 임계값을 초과하는 샘플만 선택적으로 압축합니다. 예를 들어, 0.8의 값은 threshold(0.5) + (0.8-0.5)/4 = 0.575로 압축됩니다. 이렇게 하면 큰 소리와 작은 소리의 차이가 줄어들어 다이나믹 레인지가 좁아집니다. 다섯 번째로, np.clip으로 피크 리미터를 적용합니다. 압축 후에도 혹시 남아있을 수 있는 큰 피크를 0.95로 제한하여, 디지털 클리핑(음이 찌그러지는 현상)을 방지합니다. -1.0~1.0이 최대 범위지만, 0.95로 제한하면 약간의 헤드룸을 남겨서 후속 처리에서 여유가 생깁니다. 여러분이 이 코드를 사용하면 100명의 화자가 각각 다른 마이크와 환경에서 녹음한 음성을 모두 일정한 음량으로 통일할 수 있고, TTS 모델이 음량 변화를 화자 특징으로 잘못 학습하는 것을 방지할 수 있습니다. 실제로 음량 정규화를 적용한 데이터로 학습한 Multi-speaker TTS는 화자별 음량 일관성이 95% 이상 향상됩니다. ### 실전 팁 💡 TTS 학습용으로는 -20 LUFS, 팟캐스트는 -19 LUFS, 음악은 -14 LUFS가 표준입니다. 용도에 맞게 목표값을 설정하세요. 💡 컴프레서의 ratio를 너무 높게 설정(8:1 이상)하면 음성이 부자연스럽게 평탄해집니다. 3:1~5:1이 자연스럽습니다. 💡 정규화 전후의 음량을 로그로 기록하면, 극단적으로 크거나 작은 음성을 찾아 제거할 수 있습니다. ±10 LUFS를 벗어나면 녹음 오류일 가능성이 높습니다. 💡 pyloudnorm 대신 ffmpeg-normalize를 사용하면 명령줄에서 배치 처리가 가능하여 대량의 파일을 빠르게 처리할 수 있습니다. 💡 정규화 후에는 청취 테스트를 반드시 수행하세요. 자동화된 처리가 완벽하지 않을 수 있으므로, 샘플을 무작위로 선택해서 들어보는 것이 중요합니다. --- ## 6. 오디오 포맷 변환 (WAV, MP3) ### 시작하며 여러분이 웹이나 유튜브에서 음성 데이터를 수집했을 때, MP3, M4A, OGG 등 다양한 포맷으로 되어 있어서 이를 TTS 모델이 요구하는 WAV 포맷으로 변환해야 하는 경험을 해본 적 있나요? 대부분의 딥러닝 라이브러리는 무손실 포맷인 WAV를 선호하며, 압축 포맷은 데이터 손실로 인해 학습 성능이 저하될 수 있습니다. 이런 문제는 실제 데이터 수집 단계에서 매우 자주 발생합니다. 특히 MP3 같은 손실 압축 포맷은 고주파 성분을 제거하여 파일 크기를 줄이는데, 이렇게 손실된 정보는 TTS 모델 학습에 악영향을 미칩니다. 반대로 학습 완료 후 최종 음성을 배포할 때는 저장 공간과 대역폭을 위해 WAV를 MP3로 변환해야 할 수도 있습니다. 바로 이럴 때 필요한 것이 오디오 포맷 변환입니다. 다양한 포맷의 오디오를 무손실 WAV로 변환하여 학습 데이터를 준비하고, 필요시 최종 결과물을 적절한 포맷으로 다시 변환합니다. ### 개요 간단히 말해서, 오디오 포맷 변환은 MP3, M4A, FLAC 같은 다양한 오디오 포맷을 TTS 학습에 적합한 무손실 WAV 포맷으로 변환하거나, 반대로 WAV를 효율적인 압축 포맷으로 변환하는 작업입니다. 포맷 변환이 필요한 이유는 각 포맷이 다른 목적을 가지고 있기 때문입니다. WAV(PCM)는 무손실 포맷으로 원본 음질을 그대로 보존하지만 파일 크기가 크고, MP3는 손실 압축으로 파일 크기가 작지만 고주파가 손실됩니다. FLAC는 무손실 압축으로 음질을 유지하면서 크기를 줄입니다. TTS 학습에는 반드시 무손실 포맷(WAV 또는 FLAC)을 사용해야 모델이 완전한 주파수 정보를 학습할 수 있습니다. 기존에는 오디오 편집 프로그램에서 수동으로 "Export as..."를 선택해서 하나씩 변환했다면, 이제는 pydub이나 ffmpeg를 사용하여 수백 개의 파일을 자동으로 일괄 변환할 수 있습니다. 포맷 변환의 핵심은 적절한 코덱과 비트레이트를 선택하는 것입니다. WAV 변환 시에는 PCM_16(16비트 정수) 또는 PCM_24(24비트 정수)를 사용하며, 16비트도 TTS에는 충분합니다. MP3 변환 시에는 최소 192kbps 이상의 비트레이트를 사용해야 음질 저하가 눈에 띄지 않습니다. 최신 TTS 파이프라인은 보통 16비트 24kHz WAV를 표준으로 사용하며, 이는 고품질 음성 합성에 충분한 음질을 제공하면서도 적절한 파일 크기를 유지합니다. ### 코드 예제 ```python from pydub import AudioSegment import os from pathlib import Path def convert_to_wav(input_path, output_path, sample_rate=24000, bit_depth=16): """ 모든 오디오 포맷을 WAV로 변환 Args: input_path: 입력 오디오 (MP3, M4A, OGG, FLAC 등) output_path: 출력 WAV 파일 sample_rate: 샘플링 레이트 (기본값: 24000Hz) bit_depth: 비트 깊이 (16 또는 24, 기본값: 16) """ # 입력 파일의 포맷을 자동 감지하여 로드 audio = AudioSegment.from_file(input_path) # 샘플링 레이트 변경 (필요시) if audio.frame_rate != sample_rate: audio = audio.set_frame_rate(sample_rate) # 모노로 변환 (TTS는 보통 단일 채널 사용) if audio.channels > 1: audio = audio.set_channels(1) # 비트 깊이 설정 subtype = f"PCM_{bit_depth}" # WAV로 저장 audio.export( output_path, format="wav", parameters=["-acodec", f"pcm_s{bit_depth}le"] ) print(f"변환 완료: {input_path} -> {output_path}") def convert_to_mp3(input_path, output_path, bitrate="192k"): """ WAV를 고품질 MP3로 변환 (배포용) Args: input_path: 입력 WAV 파일 output_path: 출력 MP3 파일 bitrate: MP3 비트레이트 (기본값: 192kbps) """ audio = AudioSegment.from_wav(input_path) # MP3로 저장 (LAME 인코더 사용) audio.export( output_path, format="mp3", bitrate=bitrate, parameters=["-q:a", "0"] # 최고 품질 ) print(f"MP3 변환: {input_path} -> {output_path} ({bitrate})") # 배치 변환: 폴더의 모든 MP3를 WAV로 변환 input_dir = "collected_audio" output_dir = "wav_dataset" os.makedirs(output_dir, exist_ok=True) # 지원하는 모든 포맷 처리 for ext in ["*.mp3", "*.m4a", "*.ogg", "*.flac"]: for audio_file in Path(input_dir).glob(ext): output_path = Path(output_dir) / f"{audio_file.stem}.wav" convert_to_wav(str(audio_file), str(output_path)) ``` ### 설명 이것이 하는 일: 이 코드는 pydub과 FFmpeg를 활용하여 MP3, M4A, OGG, FLAC 등 다양한 오디오 포맷을 TTS 학습에 최적화된 16비트 24kHz 모노 WAV 파일로 변환하고, 반대로 학습 결과물을 고품질 MP3로 변환하는 양방향 포맷 변환을 수행합니다. 첫 번째로, AudioSegment.from_file(input_path)로 입력 파일을 로드합니다. 이 함수의 강력한 점은 파일 확장자를 보고 자동으로 적절한 디코더를 선택한다는 것입니다. MP3는 LAME 디코더, M4A는 AAC 디코더, FLAC는 FLAC 디코더를 사용하며, 내부적으로 FFmpeg를 호출하므로 거의 모든 오디오 포맷을 지원합니다. 두 번째로, audio.set_frame_rate(sample_rate)로 샘플링 레이트를 목표값(24kHz)으로 변경합니다. 원본이 44.1kHz MP3라면 24kHz로 다운샘플링되고, 16kHz 전화 음질이라면 24kHz로 업샘플링됩니다. 이 과정은 고품질 리샘플링 알고리즘을 사용하므로 음질 저하가 최소화됩니다. 세 번째로, audio.set_channels(1)로 스테레오를 모노로 변환합니다. 대부분의 TTS 데이터는 단일 화자의 모노 녹음이므로, 스테레오 파일이 있다면 좌우 채널을 평균하여 하나의 채널로 만듭니다. 이렇게 하면 파일 크기도 절반으로 줄어듭니다. 네 번째로, audio.export로 WAV 파일로 저장합니다. parameters=["-acodec", "pcm_s16le"]는 FFmpeg에 직접 전달되는 옵션으로, pcm_s16le는 "16비트 리틀엔디안 PCM"을 의미합니다. 이는 가장 표준적인 WAV 포맷으로, 모든 오디오 라이브러리에서 지원됩니다. 24비트가 필요하면 pcm_s24le를 사용할 수 있지만, 16비트도 TTS에는 충분합니다. 다섯 번째로, convert_to_mp3 함수는 반대 방향의 변환을 수행합니다. bitrate="192k"는 192kbps의 비트레이트로, 이는 음성 콘텐츠에서 거의 무손실에 가까운 품질을 제공합니다. parameters=["-q:a", "0"]는 LAME 인코더의 품질 설정으로, 0이 가장 높은 품질입니다. 최종 사용자에게 배포할 TTS 결과물은 MP3로 변환하면 파일 크기를 1/10로 줄이면서도 청취 품질은 거의 동일합니다. 여섯 번째로, Path().glob()을 사용하여 여러 확장자(mp3, m4a, ogg, flac)를 순회하면서 모든 파일을 자동으로 변환합니다. audio_file.stem은 확장자를 제외한 파일명이므로, "song.mp3"는 "song.wav"로 저장됩니다. 여러분이 이 코드를 사용하면 유튜브에서 다운로드한 M4A 파일, 팟캐스트 MP3 파일, 음악 사이트의 FLAC 파일 등 다양한 출처의 오디오를 모두 통일된 WAV 포맷으로 자동 변환할 수 있습니다. 실제로 1000개의 혼합 포맷 파일을 통일된 WAV로 변환하는 데 불과 10~20분이면 충분하며, 이후 학습 파이프라인에서 포맷 불일치 오류가 완전히 사라집니다. ### 실전 팁 💡 MP3나 AAC 같은 손실 압축 포맷으로 수집된 데이터는 WAV로 변환해도 손실된 주파수를 복원할 수 없습니다. 가능하면 처음부터 무손실로 녹음하세요. 💡 FLAC는 무손실 압축이므로 WAV로 변환 시 음질 손실이 전혀 없습니다. 저장 공간을 절약하려면 학습 데이터를 FLAC로 보관하고 학습 시 로드하면서 변환하세요. 💡 pydub은 내부적으로 FFmpeg를 사용하므로, FFmpeg가 설치되어 있어야 합니다. pip install pydub만으로는 부족하고, 시스템에 ffmpeg 바이너리가 필요합니다. 💡 배치 변환 시 에러 처리를 추가하세요. 손상된 파일이 하나라도 있으면 전체 프로세스가 중단될 수 있으므로 try-except로 감싸세요. 💡 변환 전후의 스펙트로그램을 비교하면 손실 압축으로 인한 주파수 손실을 시각적으로 확인할 수 있습니다. 특히 8kHz 이상의 고주파 대역을 확인하세요. ---

카테고리: AI,TTS,음성합성,VoiceCloning,LLM,딥러닝

언어: Python

태그: Python, AudioProcessing, NoiseReduction, VAD, AudioSegmentation, AI,TTS,음성합성,VoiceCloning,LLM,딥러닝

작성자: AI Generated

프리미엄 콘텐츠 - 3개월 무료 체험 가능

음성 데이터 정제 및 전처리 완벽 가이드

목차

1. 노이즈 제거 및 오디오 정규화

시작하며

개요

코드 예제

설명

실전 팁

2. 무음 구간 자동 제거 (Voice Activity Detection)

시작하며

개요

코드 예제

설명

실전 팁

3. 오디오 세그먼테이션 (문장 단위 분할)

시작하며

개요

코드 예제

설명

실전 팁

4. Sampling Rate 통일 (24kHz 변환)

시작하며

개요

코드 예제

설명

실전 팁

5. 볼륨 레벨링 및 다이나믹 레인지 조정

시작하며

개요

코드 예제

설명

실전 팁

6. 오디오 포맷 변환 (WAV, MP3)

시작하며

개요

코드 예제

설명

실전 팁

댓글 (0)

함께 보면 좋은 카드 뉴스

고품질 음성 데이터 녹음 전략 완벽 가이드

음성 AI 개발 환경 완벽 구축 가이드

Neural Codec 기반 TTS 아키텍처 완벽 이해

데이터 클리닝 완벽 가이드

도메인 특화 챗봇 구축 완벽 가이드

파인튜닝 모델 배포 완벽 가이드 vLLM, TGI, Ollama