RNN과 LSTM 복습 완벽 가이드

순환 신경망의 기초부터 LSTM, GRU까지 시퀀스 데이터 처리의 핵심 개념을 초급자도 이해할 수 있도록 쉽게 설명합니다. 자연어 처리와 시계열 예측의 근간이 되는 딥러닝 아키텍처를 마스터해보세요.

1. 시퀀스 데이터 처리

김개발 씨는 회사에서 주가 예측 프로젝트를 맡게 되었습니다. 처음에는 단순히 어제 주가만 보고 오늘 주가를 예측하면 되겠다고 생각했습니다.

하지만 선배가 물었습니다. "지난 한 달 동안의 흐름은 안 보고요?"

시퀀스 데이터란 순서가 의미를 가지는 데이터를 말합니다. 마치 소설을 읽을 때 앞 문장을 알아야 뒷 문장이 이해되는 것처럼, 시퀀스 데이터는 이전 값들이 다음 값에 영향을 줍니다.

주가, 날씨, 문장 속 단어들이 모두 시퀀스 데이터에 해당합니다.

다음 코드를 살펴봅시다.

import numpy as np

# 시퀀스 데이터 예시: 일주일간의 온도
temperatures = [20, 22, 21, 23, 25, 24, 26]

# 슬라이딩 윈도우로 학습 데이터 생성
def create_sequences(data, window_size):
    X, y = [], []
    for i in range(len(data) - window_size):
        # 이전 window_size개의 값으로
        X.append(data[i:i+window_size])
        # 다음 값을 예측
        y.append(data[i+window_size])
    return np.array(X), np.array(y)

X, y = create_sequences(temperatures, window_size=3)
# X: [[20,22,21], [22,21,23], ...] / y: [23, 25, ...]

김개발 씨는 입사 6개월 차 주니어 데이터 사이언티스트입니다. 어느 날 팀장님이 주가 예측 모델을 만들어보라는 미션을 주었습니다.

김개발 씨는 자신있게 대답했습니다. "어제 주가를 입력하면 오늘 주가가 나오게 하면 되겠네요!" 하지만 옆자리 선배 박시니어 씨가 고개를 저었습니다.

"김개발 씨, 주식을 할 때 어제 가격만 보고 사시나요? 최근 며칠간의 흐름을 보지 않나요?" 그 순간 김개발 씨는 깨달았습니다.

주가는 단순히 어제 값 하나로 결정되는 게 아니라, 지난 며칠, 몇 주간의 흐름이 중요하다는 것을요. 이것이 바로 시퀀스 데이터의 핵심입니다.

시퀀스 데이터란 순서가 의미를 가지는 데이터를 말합니다. 단순히 값들의 집합이 아니라, 그 값들이 어떤 순서로 나열되어 있느냐가 중요한 정보가 됩니다.

쉽게 비유하자면, 시퀀스 데이터는 마치 추리소설과 같습니다. 추리소설을 읽을 때 중간부터 읽으면 범인이 누군지 알 수 없습니다.

처음부터 차근차근 읽어야 복선을 이해하고, 결말을 예측할 수 있습니다. 시퀀스 데이터도 마찬가지로 이전 값들의 맥락이 있어야 다음 값을 예측할 수 있습니다.

우리 주변에는 시퀀스 데이터가 넘쳐납니다. 주가, 날씨, 심전도, 음성 신호 등이 대표적입니다.

그리고 가장 흔하게 접하는 시퀀스 데이터가 바로 자연어입니다. "나는 밥을 먹었다"라는 문장에서 단어의 순서를 바꾸면 의미가 완전히 달라지거나 말이 되지 않습니다.

위 코드에서는 슬라이딩 윈도우 기법을 사용했습니다. 일주일간의 온도 데이터가 있을 때, 3일치 데이터를 보고 4일째 온도를 예측하는 방식입니다.

창문을 한 칸씩 밀듯이 데이터를 순차적으로 학습합니다. 실제 현업에서는 이 window_size를 얼마로 설정하느냐가 중요한 하이퍼파라미터가 됩니다.

너무 짧으면 충분한 맥락을 못 담고, 너무 길면 오래된 정보까지 불필요하게 포함하게 됩니다. 박시니어 씨가 덧붙였습니다.

"시퀀스 데이터를 다룰 때는 항상 시간 순서를 유지해야 해요. 미래 데이터가 과거로 새어들어가면 안 됩니다." 김개발 씨는 고개를 끄덕였습니다.

시퀀스 데이터의 본질을 이해하니, 왜 일반적인 신경망으로는 이런 데이터를 잘 처리하지 못하는지도 궁금해지기 시작했습니다.

실전 팁

💡 - 시퀀스 데이터를 다룰 때는 반드시 시간 순서를 유지하고, 학습/검증/테스트 분할도 시간 기준으로 해야 합니다

window_size는 도메인 지식을 활용하여 결정하세요. 주가라면 영업일 기준, 날씨라면 계절성을 고려합니다

2. RNN 구조와 동작

김개발 씨가 시퀀스 데이터를 일반 신경망에 넣어보았습니다. 하지만 결과가 영 신통치 않았습니다.

박시니어 씨가 화면을 보더니 말했습니다. "일반 신경망은 순서를 기억하지 못해요.

RNN을 써봐야겠네요."

**RNN(Recurrent Neural Network)**은 순환 구조를 가진 신경망입니다. 마치 일기장을 쓰듯이, 이전에 처리한 정보를 기억해두었다가 다음 입력을 처리할 때 함께 사용합니다.

이 기억을 **은닉 상태(hidden state)**라고 부르며, 이것이 RNN의 핵심입니다.

다음 코드를 살펴봅시다.

import torch
import torch.nn as nn

# 간단한 RNN 구현
class SimpleRNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super().__init__()
        # 입력과 이전 은닉상태를 결합하여 새 은닉상태 생성
        self.rnn = nn.RNN(input_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        # h_n: 마지막 시점의 은닉 상태
        out, h_n = self.rnn(x)  # out: 모든 시점의 출력
        # 마지막 시점의 출력으로 예측
        prediction = self.fc(out[:, -1, :])
        return prediction

model = SimpleRNN(input_size=1, hidden_size=32, output_size=1)

박시니어 씨가 화이트보드에 그림을 그리기 시작했습니다. "일반 신경망이 왜 시퀀스를 못 다루는지 알아요?" 김개발 씨가 고개를 갸웃했습니다.

박시니어 씨가 설명을 이어갔습니다. "일반 신경망은 입력을 받으면 출력을 내고 끝이에요.

방금 본 입력을 바로 잊어버립니다. 마치 금붕어처럼요." RNN은 이 문제를 해결하기 위해 탄생했습니다.

RNN의 핵심 아이디어는 간단합니다. 이전에 처리한 정보를 기억해두었다가 다음 입력을 처리할 때 함께 사용하는 것입니다.

쉽게 비유하자면, RNN은 마치 연속극을 보는 시청자와 같습니다. 어제 방송에서 무슨 일이 있었는지 기억하고 있어야 오늘 방송 내용이 이해됩니다.

RNN도 이전 시점의 정보를 은닉 상태라는 형태로 저장해두고, 새로운 입력이 들어올 때마다 이 기억과 함께 처리합니다. 수학적으로 보면, RNN은 매 시점 t에서 두 가지 입력을 받습니다.

현재 시점의 입력 x_t와 이전 시점의 은닉 상태 h_(t-1)입니다. 이 둘을 결합하여 현재 시점의 은닉 상태 h_t를 만들어냅니다.

위 코드에서 nn.RNN 레이어가 바로 이 역할을 합니다. input_size는 각 시점에서 들어오는 입력의 차원이고, hidden_size는 은닉 상태의 크기입니다.

은닉 상태가 클수록 더 많은 정보를 기억할 수 있지만, 그만큼 계산량도 늘어납니다. forward 함수를 보면 self.rnn(x)가 두 가지를 반환합니다.

out은 모든 시점의 출력을, h_n은 마지막 시점의 은닉 상태를 담고 있습니다. 시퀀스 분류 문제에서는 보통 마지막 시점의 출력만 사용하여 예측합니다.

박시니어 씨가 덧붙였습니다. "RNN의 핵심은 파라미터 공유에요.

모든 시점에서 같은 가중치를 사용합니다. 덕분에 시퀀스 길이가 아무리 길어도 파라미터 수는 일정해요." 김개발 씨가 물었습니다.

"그럼 RNN이 완벽한 해결책인가요?" 박시니어 씨가 미소를 지었습니다. "그랬으면 좋겠지만, RNN에도 치명적인 약점이 있어요."

실전 팁

💡 - batch_first=True로 설정하면 입력 형태가 (배치, 시퀀스 길이, 피처)가 되어 직관적입니다

은닉 상태 초기화는 보통 0으로 하지만, 학습 가능한 파라미터로 설정할 수도 있습니다

3. Vanishing Gradient 문제

김개발 씨가 RNN으로 긴 문장을 학습시켜 보았습니다. 그런데 이상하게도 문장이 길어질수록 성능이 뚝뚝 떨어졌습니다.

"앞부분에서 언급한 중요한 정보를 모델이 완전히 잊어버리는 것 같아요." 박시니어 씨가 고개를 끄덕였습니다. "바로 그게 Vanishing Gradient 문제야."

**Vanishing Gradient(기울기 소실)**는 RNN의 고질병입니다. 역전파 과정에서 기울기가 시간을 거슬러 올라갈수록 점점 작아져 결국 0에 가까워지는 현상입니다.

마치 전화기 게임에서 메시지가 전달될수록 원래 내용을 잃어버리는 것과 같습니다.

다음 코드를 살펴봅시다.

import numpy as np

# Vanishing Gradient 시뮬레이션
def simulate_gradient_flow(sequence_length, weight=0.5):
    gradients = []
    current_gradient = 1.0

    for t in range(sequence_length):
        # 매 시점마다 가중치가 곱해짐
        current_gradient *= weight
        gradients.append(current_gradient)

    return gradients

# 시퀀스 길이 20에서의 기울기 변화
grads = simulate_gradient_flow(20, weight=0.5)
print(f"1번째 시점 기울기: {grads[0]:.6f}")   # 0.5
print(f"10번째 시점 기울기: {grads[9]:.6f}")  # 0.000977
print(f"20번째 시점 기울기: {grads[19]:.6f}") # 0.000001
# 기울기가 기하급수적으로 감소!

박시니어 씨가 화이트보드에 긴 체인을 그렸습니다. "RNN의 역전파가 어떻게 일어나는지 아세요?" 신경망은 오차를 줄이기 위해 **역전파(backpropagation)**를 사용합니다.

출력에서 시작해서 입력 방향으로 기울기를 전달하며 가중치를 업데이트합니다. RNN에서는 이것이 시간을 거슬러 올라가기 때문에 **BPTT(Backpropagation Through Time)**라고 부릅니다.

문제는 여기서 발생합니다. 체인 룰에 의해 기울기는 각 시점의 가중치가 계속 곱해집니다.

만약 가중치가 1보다 작으면, 곱할수록 기울기는 기하급수적으로 작아집니다. 위 코드로 시뮬레이션해보면 그 심각성을 알 수 있습니다.

가중치가 0.5일 때, 첫 번째 시점의 기울기는 0.5지만, 10번째 시점에서는 약 0.001, 20번째 시점에서는 0.000001 수준으로 떨어집니다. 사실상 0과 다름없습니다.

쉽게 비유하자면, 이것은 마치 전화기 게임과 같습니다. 첫 번째 사람이 "코끼리"라고 말했는데, 20번째 사람에게 전달될 때쯤이면 "토끼"가 되어버리는 것처럼, 기울기도 전달되면서 원래의 정보를 잃어버립니다.

이것이 왜 치명적일까요? 예를 들어 "어제 철수가 학교에서 영희에게 책을 빌렸는데, 오늘 그가 돌려주었다"라는 문장을 생각해봅시다.

"그가"가 "철수"를 가리킨다는 것을 이해하려면 문장 초반의 정보를 끝까지 기억해야 합니다. 하지만 Vanishing Gradient 때문에 초반 정보의 기울기가 사라지면, 모델은 "그가" 누구인지 학습할 수 없습니다.

반대로 가중치가 1보다 크면 **Exploding Gradient(기울기 폭발)**가 발생합니다. 기울기가 기하급수적으로 커져서 학습이 불안정해집니다.

이 경우 Gradient Clipping으로 어느 정도 해결할 수 있지만, Vanishing Gradient는 단순히 잘라낸다고 해결되지 않습니다. 김개발 씨가 물었습니다.

"그럼 RNN은 긴 시퀀스에서는 쓸 수 없는 건가요?" 박시니어 씨가 웃으며 대답했습니다. "그래서 LSTM이 나온 거야."

실전 팁

💡 - Gradient Clipping은 Exploding Gradient에는 효과적이지만 Vanishing Gradient는 해결하지 못합니다

시퀀스 길이가 100 이상이면 기본 RNN은 거의 사용하지 않습니다

4. LSTM 게이트 구조

박시니어 씨가 새로운 그림을 그리기 시작했습니다. "LSTM은 RNN의 Vanishing Gradient 문제를 해결하기 위해 만들어졌어요.

핵심은 게이트야." 김개발 씨는 게이트라는 단어에 호기심이 생겼습니다. 댐의 수문처럼 정보의 흐름을 조절한다는 뜻일까요?

**LSTM(Long Short-Term Memory)**은 세 개의 게이트와 셀 상태를 가진 구조입니다. 망각 게이트는 무엇을 잊을지, 입력 게이트는 무엇을 기억할지, 출력 게이트는 무엇을 내보낼지 결정합니다.

마치 도서관 사서가 책을 버리고, 새 책을 받고, 책을 대출해주는 것과 같습니다.

다음 코드를 살펴봅시다.

import torch
import torch.nn as nn

class LSTMModel(nn.Module):
    def __init__(self, input_size, hidden_size, output_size, num_layers=1):
        super().__init__()
        # LSTM: 게이트 메커니즘이 내장되어 있음
        self.lstm = nn.LSTM(
            input_size,
            hidden_size,
            num_layers=num_layers,
            batch_first=True
        )
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        # lstm은 (output, (h_n, c_n)) 반환
        # c_n: 셀 상태 - 장기 기억 담당
        out, (h_n, c_n) = self.lstm(x)
        prediction = self.fc(out[:, -1, :])
        return prediction

model = LSTMModel(input_size=10, hidden_size=64, output_size=1)

박시니어 씨가 질문했습니다. "도서관 사서가 하는 일이 뭐라고 생각해요?" 김개발 씨가 대답했습니다.

"책을 정리하고, 대출해주고..." 박시니어 씨가 고개를 끄덕였습니다. "맞아요.

LSTM도 비슷해요. 세 가지 결정을 내립니다." 첫째, **망각 게이트(Forget Gate)**입니다.

도서관에서 오래되어 더 이상 필요 없는 책을 폐기하듯이, LSTM도 더 이상 필요 없는 정보를 셀 상태에서 제거합니다. 시그모이드 함수를 통해 0(완전히 잊음)과 1(완전히 기억) 사이의 값을 출력합니다.

둘째, **입력 게이트(Input Gate)**입니다. 새로운 책이 들어왔을 때 어떤 책을 서가에 꽂을지 결정하듯이, 현재 입력 중 어떤 정보를 셀 상태에 추가할지 결정합니다.

여기서도 시그모이드가 게이트 역할을 하고, tanh가 후보 값을 만듭니다. 셋째, **출력 게이트(Output Gate)**입니다.

이용자가 책을 빌리러 왔을 때 적절한 책을 대출해주듯이, 셀 상태 중 어떤 부분을 은닉 상태로 출력할지 결정합니다. 가장 중요한 것은 **셀 상태(Cell State)**입니다.

박시니어 씨가 강조했습니다. "셀 상태는 컨베이어 벨트라고 생각하면 돼요.

정보가 거의 변형 없이 쭉 흘러갈 수 있어요." 일반 RNN에서는 은닉 상태가 매 시점 완전히 덮어씌워집니다. 반면 LSTM의 셀 상태는 덧셈으로 업데이트됩니다.

망각 게이트로 일부를 지우고, 입력 게이트로 새 정보를 더하는 방식입니다. 덧셈은 곱셈과 달리 기울기를 그대로 전달하기 때문에, Vanishing Gradient 문제가 크게 완화됩니다.

위 코드에서 nn.LSTM은 이 모든 게이트 연산을 내부에서 처리합니다. 반환값을 보면 h_n뿐 아니라 c_n(셀 상태)도 있습니다.

시퀀스 투 시퀀스 모델에서는 이 c_n을 다음 디코더로 전달하기도 합니다. 김개발 씨가 물었습니다.

"그럼 LSTM은 아무리 긴 시퀀스도 처리할 수 있나요?" 박시니어 씨가 대답했습니다. "완벽하진 않지만, 기본 RNN보다는 훨씬 긴 의존성을 학습할 수 있어요.

보통 수백 스텝 정도까지는 잘 처리합니다."

실전 팁

💡 - LSTM은 RNN보다 파라미터가 4배 많습니다. 게이트마다 별도의 가중치가 필요하기 때문입니다

num_layers를 늘려 LSTM을 쌓으면 더 복잡한 패턴을 학습할 수 있지만, 과적합에 주의하세요

5. GRU 비교

김개발 씨가 LSTM을 적용해보니 성능은 좋아졌지만, 학습 시간이 꽤 오래 걸렸습니다. "혹시 LSTM보다 가벼우면서도 비슷한 성능을 내는 구조는 없나요?" 박시니어 씨가 피식 웃었습니다.

"GRU라고 들어봤어요?"

**GRU(Gated Recurrent Unit)**는 LSTM을 단순화한 구조입니다. LSTM의 세 개 게이트를 두 개로 줄이고, 셀 상태와 은닉 상태를 하나로 통합했습니다.

마치 복잡한 기계를 더 간결하게 재설계한 것처럼, 파라미터는 적으면서 비슷한 성능을 냅니다.

다음 코드를 살펴봅시다.

import torch
import torch.nn as nn

class GRUModel(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super().__init__()
        # GRU: LSTM보다 파라미터 25% 적음
        self.gru = nn.GRU(input_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, x):
        # GRU는 셀 상태 없이 은닉 상태만 반환
        out, h_n = self.gru(x)
        prediction = self.fc(out[:, -1, :])
        return prediction

# LSTM vs GRU 파라미터 비교
lstm = nn.LSTM(input_size=10, hidden_size=64)
gru = nn.GRU(input_size=10, hidden_size=64)
print(f"LSTM 파라미터: {sum(p.numel() for p in lstm.parameters())}")  # 19200
print(f"GRU 파라미터: {sum(p.numel() for p in gru.parameters())}")    # 14400

박시니어 씨가 설명을 시작했습니다. "GRU는 2014년에 조경현 교수님 연구팀에서 발표했어요.

LSTM이 1997년에 나왔으니까 거의 20년 만에 간소화된 버전이 나온 거죠." GRU는 LSTM의 복잡성을 줄이면서도 핵심 아이디어는 유지합니다. 가장 큰 차이점은 게이트 개수입니다.

LSTM은 망각, 입력, 출력 세 개의 게이트가 있지만, GRU는 리셋 게이트와 업데이트 게이트 두 개만 있습니다. 쉽게 비유하자면, LSTM이 고급 커피머신이라면 GRU는 드립 커피 세트입니다.

고급 커피머신은 버튼도 많고 기능도 다양하지만, 드립 커피로도 충분히 맛있는 커피를 내릴 수 있습니다. 상황에 따라 적절한 도구를 선택하면 됩니다.

업데이트 게이트는 LSTM의 망각 게이트와 입력 게이트를 합친 것입니다. 이전 정보를 얼마나 유지하고 새 정보를 얼마나 받아들일지 동시에 결정합니다.

리셋 게이트는 이전 은닉 상태를 얼마나 무시할지 결정합니다. 또 하나의 큰 차이점은 GRU에는 별도의 셀 상태가 없다는 것입니다.

LSTM은 셀 상태와 은닉 상태가 따로 있지만, GRU는 은닉 상태만으로 모든 것을 처리합니다. 덕분에 구조가 단순해지고 파라미터 수도 줄어듭니다.

위 코드에서 파라미터 수를 비교해보면, 같은 hidden_size에서 GRU가 LSTM보다 약 25% 적습니다. 이는 학습 시간 단축과 메모리 절약으로 이어집니다.

그렇다면 LSTM과 GRU 중 무엇을 써야 할까요? 박시니어 씨가 정리해주었습니다.

"정답은 없어요. 데이터셋에 따라 다릅니다.

보통 데이터가 많고 복잡하면 LSTM이, 데이터가 적거나 빠른 학습이 필요하면 GRU가 유리한 경향이 있어요." 실제로 많은 논문과 벤치마크에서 LSTM과 GRU의 성능 차이는 크지 않다고 보고합니다. 따라서 실무에서는 둘 다 실험해보고 더 나은 쪽을 선택하는 것이 일반적입니다.

실전 팁

💡 - 데이터가 적거나 빠른 프로토타이핑이 필요할 때는 GRU부터 시작해보세요

LSTM과 GRU 모두 실험해보고 검증 성능이 더 좋은 것을 선택하는 것이 좋습니다

6. 양방향 RNN

김개발 씨가 자연어 처리 프로젝트를 진행하던 중 고민에 빠졌습니다. "나는 ___를 먹었다"에서 빈칸을 채우려면 "나는"이라는 앞 문맥도 중요하지만, "먹었다"라는 뒤 문맥도 중요하지 않나요?" 박시니어 씨가 반갑다는 듯이 웃었습니다.

"바로 그거야! 양방향 RNN이 필요한 이유가 그거야."

**양방향 RNN(Bidirectional RNN)**은 시퀀스를 앞에서 뒤로, 뒤에서 앞으로 두 번 처리합니다. 마치 책을 처음부터 읽으면서 동시에 끝에서부터도 읽는 것과 같습니다.

두 방향의 정보를 결합하면 각 위치에서 전체 문맥을 파악할 수 있습니다.

다음 코드를 살펴봅시다.

import torch
import torch.nn as nn

class BiLSTMModel(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super().__init__()
        # bidirectional=True로 양방향 설정
        self.bilstm = nn.LSTM(
            input_size,
            hidden_size,
            batch_first=True,
            bidirectional=True  # 핵심: 양방향 활성화
        )
        # 양방향이므로 hidden_size * 2
        self.fc = nn.Linear(hidden_size * 2, output_size)

    def forward(self, x):
        # out: [batch, seq_len, hidden_size * 2]
        # 순방향과 역방향 출력이 concat됨
        out, (h_n, c_n) = self.bilstm(x)
        # 마지막 시점의 양방향 정보 사용
        prediction = self.fc(out[:, -1, :])
        return prediction

model = BiLSTMModel(input_size=10, hidden_size=64, output_size=5)

박시니어 씨가 예시를 들었습니다. "I love apple"이라는 문장에서 apple이 과일인지 회사인지 어떻게 알 수 있을까요?" 김개발 씨가 생각해보았습니다.

"앞에 I love가 있으니까... 좋아하는 대상이라는 건 알겠는데, 그래도 애매하네요." 박시니어 씨가 고개를 끄덕였습니다.

"맞아요. 하지만 만약 문장이 I love apple pie였다면?

뒤에 pie가 있으니까 과일이라는 게 확실해지죠." 이것이 양방향 RNN의 핵심 아이디어입니다. 단방향 RNN은 왼쪽에서 오른쪽으로만 정보를 전달합니다.

하지만 언어에서는 뒤에 오는 단어가 앞 단어의 의미를 결정하는 경우가 많습니다. 양방향 RNN은 두 개의 독립적인 RNN을 사용합니다.

하나는 시퀀스를 정방향(왼쪽에서 오른쪽)으로, 다른 하나는 역방향(오른쪽에서 왼쪽)으로 처리합니다. 그리고 각 시점에서 두 방향의 은닉 상태를 **연결(concatenate)**합니다.

쉽게 비유하자면, 양방향 RNN은 마치 탐정 두 명이 사건을 수사하는 것과 같습니다. 한 명은 사건 발생 순서대로 조사하고, 다른 한 명은 결과에서부터 역으로 추적합니다.

두 탐정의 조사 결과를 합치면 더 정확한 결론을 내릴 수 있습니다. 위 코드에서 bidirectional=True 하나만 추가하면 양방향 LSTM이 됩니다.

주의할 점은 출력 차원이 hidden_size의 2배가 된다는 것입니다. 순방향 hidden_size와 역방향 hidden_size가 연결되기 때문입니다.

양방향 RNN은 특히 품사 태깅(POS tagging), 개체명 인식(NER), 기계 번역 등에서 탁월한 성능을 보입니다. 이런 작업들은 각 단어의 의미를 파악하기 위해 전체 문맥이 필요하기 때문입니다.

하지만 주의할 점도 있습니다. 박시니어 씨가 강조했습니다.

"실시간 예측에서는 양방향 RNN을 쓸 수 없어요. 미래 정보를 알 수 없으니까요." 예를 들어 음성 인식에서 사용자가 말하는 도중에 실시간으로 텍스트를 보여주려면 단방향만 가능합니다.

반면 이미 완성된 문장을 분석하는 작업에서는 양방향이 유리합니다. 김개발 씨가 정리했습니다.

"오프라인 분석에는 양방향, 실시간 스트리밍에는 단방향이군요!" 박시니어 씨가 흐뭇하게 웃었습니다.

실전 팁

💡 - 양방향 RNN의 출력 차원은 단방향의 2배이므로, 후속 레이어의 입력 크기를 맞춰주어야 합니다

실시간 처리가 필요한 경우(음성 스트리밍, 채팅 등)에는 단방향 RNN을 사용하세요

이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

#Python#RNN#LSTM#GRU#DeepLearning#RNN,LSTM,NLP

RNN과 LSTM 복습 완벽 가이드

# RNN과 LSTM 복습 완벽 가이드 순환 신경망의 기초부터 LSTM, GRU까지 시퀀스 데이터 처리의 핵심 개념을 초급자도 이해할 수 있도록 쉽게 설명합니다. 자연어 처리와 시계열 예측의 근간이 되는 딥러닝 아키텍처를 마스터해보세요. --- ## 목차 1. [시퀀스_데이터_처리](#시퀀스-데이터-처리) 2. [RNN_구조와_동작](#rnn-구조와-동작) 3. [Vanishing_Gradient_문제](#vanishing-gradient-문제) 4. [LSTM_게이트_구조](#lstm-게이트-구조) 5. [GRU_비교](#gru-비교) 6. [양방향_RNN](#양방향-rnn) --- ## 1. 시퀀스_데이터_처리 김개발 씨는 회사에서 주가 예측 프로젝트를 맡게 되었습니다. 처음에는 단순히 어제 주가만 보고 오늘 주가를 예측하면 되겠다고 생각했습니다. 하지만 선배가 물었습니다. "지난 한 달 동안의 흐름은 안 보고요?" **시퀀스 데이터**란 순서가 의미를 가지는 데이터를 말합니다. 마치 소설을 읽을 때 앞 문장을 알아야 뒷 문장이 이해되는 것처럼, 시퀀스 데이터는 이전 값들이 다음 값에 영향을 줍니다. 주가, 날씨, 문장 속 단어들이 모두 시퀀스 데이터에 해당합니다. 다음 코드를 살펴봅시다. ```python import numpy as np # 시퀀스 데이터 예시: 일주일간의 온도 temperatures = [20, 22, 21, 23, 25, 24, 26] # 슬라이딩 윈도우로 학습 데이터 생성 def create_sequences(data, window_size): X, y = [], [] for i in range(len(data) - window_size): # 이전 window_size개의 값으로 X.append(data[i:i+window_size]) # 다음 값을 예측 y.append(data[i+window_size]) return np.array(X), np.array(y) X, y = create_sequences(temperatures, window_size=3) # X: [[20,22,21], [22,21,23], ...] / y: [23, 25, ...] ``` 김개발 씨는 입사 6개월 차 주니어 데이터 사이언티스트입니다. 어느 날 팀장님이 주가 예측 모델을 만들어보라는 미션을 주었습니다. 김개발 씨는 자신있게 대답했습니다. "어제 주가를 입력하면 오늘 주가가 나오게 하면 되겠네요!" 하지만 옆자리 선배 박시니어 씨가 고개를 저었습니다. "김개발 씨, 주식을 할 때 어제 가격만 보고 사시나요? 최근 며칠간의 흐름을 보지 않나요?" 그 순간 김개발 씨는 깨달았습니다. 주가는 단순히 어제 값 하나로 결정되는 게 아니라, 지난 며칠, 몇 주간의 **흐름**이 중요하다는 것을요. 이것이 바로 **시퀀스 데이터**의 핵심입니다. 시퀀스 데이터란 순서가 의미를 가지는 데이터를 말합니다. 단순히 값들의 집합이 아니라, 그 값들이 **어떤 순서로 나열되어 있느냐**가 중요한 정보가 됩니다. 쉽게 비유하자면, 시퀀스 데이터는 마치 추리소설과 같습니다. 추리소설을 읽을 때 중간부터 읽으면 범인이 누군지 알 수 없습니다. 처음부터 차근차근 읽어야 복선을 이해하고, 결말을 예측할 수 있습니다. 시퀀스 데이터도 마찬가지로 이전 값들의 맥락이 있어야 다음 값을 예측할 수 있습니다. 우리 주변에는 시퀀스 데이터가 넘쳐납니다. 주가, 날씨, 심전도, 음성 신호 등이 대표적입니다. 그리고 가장 흔하게 접하는 시퀀스 데이터가 바로 **자연어**입니다. "나는 밥을 먹었다"라는 문장에서 단어의 순서를 바꾸면 의미가 완전히 달라지거나 말이 되지 않습니다. 위 코드에서는 **슬라이딩 윈도우** 기법을 사용했습니다. 일주일간의 온도 데이터가 있을 때, 3일치 데이터를 보고 4일째 온도를 예측하는 방식입니다. 창문을 한 칸씩 밀듯이 데이터를 순차적으로 학습합니다. 실제 현업에서는 이 window_size를 얼마로 설정하느냐가 중요한 하이퍼파라미터가 됩니다. 너무 짧으면 충분한 맥락을 못 담고, 너무 길면 오래된 정보까지 불필요하게 포함하게 됩니다. 박시니어 씨가 덧붙였습니다. "시퀀스 데이터를 다룰 때는 항상 시간 순서를 유지해야 해요. 미래 데이터가 과거로 새어들어가면 안 됩니다." 김개발 씨는 고개를 끄덕였습니다. 시퀀스 데이터의 본질을 이해하니, 왜 일반적인 신경망으로는 이런 데이터를 잘 처리하지 못하는지도 궁금해지기 시작했습니다. **실전 팁** 💡 - 시퀀스 데이터를 다룰 때는 반드시 시간 순서를 유지하고, 학습/검증/테스트 분할도 시간 기준으로 해야 합니다 - window_size는 도메인 지식을 활용하여 결정하세요. 주가라면 영업일 기준, 날씨라면 계절성을 고려합니다 --- ## 2. RNN_구조와_동작 김개발 씨가 시퀀스 데이터를 일반 신경망에 넣어보았습니다. 하지만 결과가 영 신통치 않았습니다. 박시니어 씨가 화면을 보더니 말했습니다. "일반 신경망은 순서를 기억하지 못해요. RNN을 써봐야겠네요." **RNN(Recurrent Neural Network)**은 순환 구조를 가진 신경망입니다. 마치 일기장을 쓰듯이, 이전에 처리한 정보를 기억해두었다가 다음 입력을 처리할 때 함께 사용합니다. 이 기억을 **은닉 상태(hidden state)**라고 부르며, 이것이 RNN의 핵심입니다. 다음 코드를 살펴봅시다. ```python import torch import torch.nn as nn # 간단한 RNN 구현 class SimpleRNN(nn.Module): def __init__(self, input_size, hidden_size, output_size): super().__init__() # 입력과 이전 은닉상태를 결합하여 새 은닉상태 생성 self.rnn = nn.RNN(input_size, hidden_size, batch_first=True) self.fc = nn.Linear(hidden_size, output_size) def forward(self, x): # h_n: 마지막 시점의 은닉 상태 out, h_n = self.rnn(x) # out: 모든 시점의 출력 # 마지막 시점의 출력으로 예측 prediction = self.fc(out[:, -1, :]) return prediction model = SimpleRNN(input_size=1, hidden_size=32, output_size=1) ``` 박시니어 씨가 화이트보드에 그림을 그리기 시작했습니다. "일반 신경망이 왜 시퀀스를 못 다루는지 알아요?" 김개발 씨가 고개를 갸웃했습니다. 박시니어 씨가 설명을 이어갔습니다. "일반 신경망은 입력을 받으면 출력을 내고 끝이에요. 방금 본 입력을 바로 잊어버립니다. 마치 금붕어처럼요." **RNN**은 이 문제를 해결하기 위해 탄생했습니다. RNN의 핵심 아이디어는 간단합니다. 이전에 처리한 정보를 **기억해두었다가** 다음 입력을 처리할 때 함께 사용하는 것입니다. 쉽게 비유하자면, RNN은 마치 **연속극을 보는 시청자**와 같습니다. 어제 방송에서 무슨 일이 있었는지 기억하고 있어야 오늘 방송 내용이 이해됩니다. RNN도 이전 시점의 정보를 은닉 상태라는 형태로 저장해두고, 새로운 입력이 들어올 때마다 이 기억과 함께 처리합니다. 수학적으로 보면, RNN은 매 시점 t에서 두 가지 입력을 받습니다. 현재 시점의 입력 x_t와 이전 시점의 은닉 상태 h_(t-1)입니다. 이 둘을 결합하여 현재 시점의 은닉 상태 h_t를 만들어냅니다. 위 코드에서 nn.RNN 레이어가 바로 이 역할을 합니다. input_size는 각 시점에서 들어오는 입력의 차원이고, hidden_size는 은닉 상태의 크기입니다. 은닉 상태가 클수록 더 많은 정보를 기억할 수 있지만, 그만큼 계산량도 늘어납니다. forward 함수를 보면 self.rnn(x)가 두 가지를 반환합니다. out은 모든 시점의 출력을, h_n은 마지막 시점의 은닉 상태를 담고 있습니다. 시퀀스 분류 문제에서는 보통 마지막 시점의 출력만 사용하여 예측합니다. 박시니어 씨가 덧붙였습니다. "RNN의 핵심은 **파라미터 공유**에요. 모든 시점에서 같은 가중치를 사용합니다. 덕분에 시퀀스 길이가 아무리 길어도 파라미터 수는 일정해요." 김개발 씨가 물었습니다. "그럼 RNN이 완벽한 해결책인가요?" 박시니어 씨가 미소를 지었습니다. "그랬으면 좋겠지만, RNN에도 치명적인 약점이 있어요." **실전 팁** 💡 - batch_first=True로 설정하면 입력 형태가 (배치, 시퀀스 길이, 피처)가 되어 직관적입니다 - 은닉 상태 초기화는 보통 0으로 하지만, 학습 가능한 파라미터로 설정할 수도 있습니다 --- ## 3. Vanishing_Gradient_문제 김개발 씨가 RNN으로 긴 문장을 학습시켜 보았습니다. 그런데 이상하게도 문장이 길어질수록 성능이 뚝뚝 떨어졌습니다. "앞부분에서 언급한 중요한 정보를 모델이 완전히 잊어버리는 것 같아요." 박시니어 씨가 고개를 끄덕였습니다. "바로 그게 Vanishing Gradient 문제야." **Vanishing Gradient(기울기 소실)**는 RNN의 고질병입니다. 역전파 과정에서 기울기가 시간을 거슬러 올라갈수록 점점 작아져 결국 0에 가까워지는 현상입니다. 마치 전화기 게임에서 메시지가 전달될수록 원래 내용을 잃어버리는 것과 같습니다. 다음 코드를 살펴봅시다. ```python import numpy as np # Vanishing Gradient 시뮬레이션 def simulate_gradient_flow(sequence_length, weight=0.5): gradients = [] current_gradient = 1.0 for t in range(sequence_length): # 매 시점마다 가중치가 곱해짐 current_gradient *= weight gradients.append(current_gradient) return gradients # 시퀀스 길이 20에서의 기울기 변화 grads = simulate_gradient_flow(20, weight=0.5) print(f"1번째 시점 기울기: {grads[0]:.6f}") # 0.5 print(f"10번째 시점 기울기: {grads[9]:.6f}") # 0.000977 print(f"20번째 시점 기울기: {grads[19]:.6f}") # 0.000001 # 기울기가 기하급수적으로 감소! ``` 박시니어 씨가 화이트보드에 긴 체인을 그렸습니다. "RNN의 역전파가 어떻게 일어나는지 아세요?" 신경망은 오차를 줄이기 위해 **역전파(backpropagation)**를 사용합니다. 출력에서 시작해서 입력 방향으로 기울기를 전달하며 가중치를 업데이트합니다. RNN에서는 이것이 시간을 거슬러 올라가기 때문에 **BPTT(Backpropagation Through Time)**라고 부릅니다. 문제는 여기서 발생합니다. 체인 룰에 의해 기울기는 각 시점의 가중치가 계속 곱해집니다. 만약 가중치가 1보다 작으면, 곱할수록 기울기는 **기하급수적으로 작아집니다**. 위 코드로 시뮬레이션해보면 그 심각성을 알 수 있습니다. 가중치가 0.5일 때, 첫 번째 시점의 기울기는 0.5지만, 10번째 시점에서는 약 0.001, 20번째 시점에서는 0.000001 수준으로 떨어집니다. 사실상 0과 다름없습니다. 쉽게 비유하자면, 이것은 마치 **전화기 게임**과 같습니다. 첫 번째 사람이 "코끼리"라고 말했는데, 20번째 사람에게 전달될 때쯤이면 "토끼"가 되어버리는 것처럼, 기울기도 전달되면서 원래의 정보를 잃어버립니다. 이것이 왜 치명적일까요? 예를 들어 "어제 철수가 학교에서 영희에게 책을 빌렸는데, 오늘 그가 돌려주었다"라는 문장을 생각해봅시다. "그가"가 "철수"를 가리킨다는 것을 이해하려면 문장 초반의 정보를 끝까지 기억해야 합니다. 하지만 Vanishing Gradient 때문에 초반 정보의 기울기가 사라지면, 모델은 "그가" 누구인지 학습할 수 없습니다. 반대로 가중치가 1보다 크면 **Exploding Gradient(기울기 폭발)**가 발생합니다. 기울기가 기하급수적으로 커져서 학습이 불안정해집니다. 이 경우 **Gradient Clipping**으로 어느 정도 해결할 수 있지만, Vanishing Gradient는 단순히 잘라낸다고 해결되지 않습니다. 김개발 씨가 물었습니다. "그럼 RNN은 긴 시퀀스에서는 쓸 수 없는 건가요?" 박시니어 씨가 웃으며 대답했습니다. "그래서 LSTM이 나온 거야." **실전 팁** 💡 - Gradient Clipping은 Exploding Gradient에는 효과적이지만 Vanishing Gradient는 해결하지 못합니다 - 시퀀스 길이가 100 이상이면 기본 RNN은 거의 사용하지 않습니다 --- ## 4. LSTM_게이트_구조 박시니어 씨가 새로운 그림을 그리기 시작했습니다. "LSTM은 RNN의 Vanishing Gradient 문제를 해결하기 위해 만들어졌어요. 핵심은 게이트야." 김개발 씨는 게이트라는 단어에 호기심이 생겼습니다. 댐의 수문처럼 정보의 흐름을 조절한다는 뜻일까요? **LSTM(Long Short-Term Memory)**은 세 개의 게이트와 셀 상태를 가진 구조입니다. **망각 게이트**는 무엇을 잊을지, **입력 게이트**는 무엇을 기억할지, **출력 게이트**는 무엇을 내보낼지 결정합니다. 마치 도서관 사서가 책을 버리고, 새 책을 받고, 책을 대출해주는 것과 같습니다. 다음 코드를 살펴봅시다. ```python import torch import torch.nn as nn class LSTMModel(nn.Module): def __init__(self, input_size, hidden_size, output_size, num_layers=1): super().__init__() # LSTM: 게이트 메커니즘이 내장되어 있음 self.lstm = nn.LSTM( input_size, hidden_size, num_layers=num_layers, batch_first=True ) self.fc = nn.Linear(hidden_size, output_size) def forward(self, x): # lstm은 (output, (h_n, c_n)) 반환 # c_n: 셀 상태 - 장기 기억 담당 out, (h_n, c_n) = self.lstm(x) prediction = self.fc(out[:, -1, :]) return prediction model = LSTMModel(input_size=10, hidden_size=64, output_size=1) ``` 박시니어 씨가 질문했습니다. "도서관 사서가 하는 일이 뭐라고 생각해요?" 김개발 씨가 대답했습니다. "책을 정리하고, 대출해주고..." 박시니어 씨가 고개를 끄덕였습니다. "맞아요. LSTM도 비슷해요. 세 가지 결정을 내립니다." 첫째, **망각 게이트(Forget Gate)**입니다. 도서관에서 오래되어 더 이상 필요 없는 책을 폐기하듯이, LSTM도 더 이상 필요 없는 정보를 셀 상태에서 제거합니다. 시그모이드 함수를 통해 0(완전히 잊음)과 1(완전히 기억) 사이의 값을 출력합니다. 둘째, **입력 게이트(Input Gate)**입니다. 새로운 책이 들어왔을 때 어떤 책을 서가에 꽂을지 결정하듯이, 현재 입력 중 어떤 정보를 셀 상태에 추가할지 결정합니다. 여기서도 시그모이드가 게이트 역할을 하고, tanh가 후보 값을 만듭니다. 셋째, **출력 게이트(Output Gate)**입니다. 이용자가 책을 빌리러 왔을 때 적절한 책을 대출해주듯이, 셀 상태 중 어떤 부분을 은닉 상태로 출력할지 결정합니다. 가장 중요한 것은 **셀 상태(Cell State)**입니다. 박시니어 씨가 강조했습니다. "셀 상태는 컨베이어 벨트라고 생각하면 돼요. 정보가 거의 변형 없이 쭉 흘러갈 수 있어요." 일반 RNN에서는 은닉 상태가 매 시점 완전히 덮어씌워집니다. 반면 LSTM의 셀 상태는 **덧셈**으로 업데이트됩니다. 망각 게이트로 일부를 지우고, 입력 게이트로 새 정보를 더하는 방식입니다. 덧셈은 곱셈과 달리 기울기를 그대로 전달하기 때문에, Vanishing Gradient 문제가 크게 완화됩니다. 위 코드에서 nn.LSTM은 이 모든 게이트 연산을 내부에서 처리합니다. 반환값을 보면 h_n뿐 아니라 c_n(셀 상태)도 있습니다. 시퀀스 투 시퀀스 모델에서는 이 c_n을 다음 디코더로 전달하기도 합니다. 김개발 씨가 물었습니다. "그럼 LSTM은 아무리 긴 시퀀스도 처리할 수 있나요?" 박시니어 씨가 대답했습니다. "완벽하진 않지만, 기본 RNN보다는 훨씬 긴 의존성을 학습할 수 있어요. 보통 수백 스텝 정도까지는 잘 처리합니다." **실전 팁** 💡 - LSTM은 RNN보다 파라미터가 4배 많습니다. 게이트마다 별도의 가중치가 필요하기 때문입니다 - num_layers를 늘려 LSTM을 쌓으면 더 복잡한 패턴을 학습할 수 있지만, 과적합에 주의하세요 --- ## 5. GRU_비교 김개발 씨가 LSTM을 적용해보니 성능은 좋아졌지만, 학습 시간이 꽤 오래 걸렸습니다. "혹시 LSTM보다 가벼우면서도 비슷한 성능을 내는 구조는 없나요?" 박시니어 씨가 피식 웃었습니다. "GRU라고 들어봤어요?" **GRU(Gated Recurrent Unit)**는 LSTM을 단순화한 구조입니다. LSTM의 세 개 게이트를 두 개로 줄이고, 셀 상태와 은닉 상태를 하나로 통합했습니다. 마치 복잡한 기계를 더 간결하게 재설계한 것처럼, 파라미터는 적으면서 비슷한 성능을 냅니다. 다음 코드를 살펴봅시다. ```python import torch import torch.nn as nn class GRUModel(nn.Module): def __init__(self, input_size, hidden_size, output_size): super().__init__() # GRU: LSTM보다 파라미터 25% 적음 self.gru = nn.GRU(input_size, hidden_size, batch_first=True) self.fc = nn.Linear(hidden_size, output_size) def forward(self, x): # GRU는 셀 상태 없이 은닉 상태만 반환 out, h_n = self.gru(x) prediction = self.fc(out[:, -1, :]) return prediction # LSTM vs GRU 파라미터 비교 lstm = nn.LSTM(input_size=10, hidden_size=64) gru = nn.GRU(input_size=10, hidden_size=64) print(f"LSTM 파라미터: {sum(p.numel() for p in lstm.parameters())}") # 19200 print(f"GRU 파라미터: {sum(p.numel() for p in gru.parameters())}") # 14400 ``` 박시니어 씨가 설명을 시작했습니다. "GRU는 2014년에 조경현 교수님 연구팀에서 발표했어요. LSTM이 1997년에 나왔으니까 거의 20년 만에 간소화된 버전이 나온 거죠." GRU는 LSTM의 복잡성을 줄이면서도 핵심 아이디어는 유지합니다. 가장 큰 차이점은 **게이트 개수**입니다. LSTM은 망각, 입력, 출력 세 개의 게이트가 있지만, GRU는 **리셋 게이트**와 **업데이트 게이트** 두 개만 있습니다. 쉽게 비유하자면, LSTM이 **고급 커피머신**이라면 GRU는 **드립 커피 세트**입니다. 고급 커피머신은 버튼도 많고 기능도 다양하지만, 드립 커피로도 충분히 맛있는 커피를 내릴 수 있습니다. 상황에 따라 적절한 도구를 선택하면 됩니다. **업데이트 게이트**는 LSTM의 망각 게이트와 입력 게이트를 합친 것입니다. 이전 정보를 얼마나 유지하고 새 정보를 얼마나 받아들일지 동시에 결정합니다. **리셋 게이트**는 이전 은닉 상태를 얼마나 무시할지 결정합니다. 또 하나의 큰 차이점은 GRU에는 **별도의 셀 상태가 없다**는 것입니다. LSTM은 셀 상태와 은닉 상태가 따로 있지만, GRU는 은닉 상태만으로 모든 것을 처리합니다. 덕분에 구조가 단순해지고 파라미터 수도 줄어듭니다. 위 코드에서 파라미터 수를 비교해보면, 같은 hidden_size에서 GRU가 LSTM보다 약 25% 적습니다. 이는 학습 시간 단축과 메모리 절약으로 이어집니다. 그렇다면 LSTM과 GRU 중 무엇을 써야 할까요? 박시니어 씨가 정리해주었습니다. "정답은 없어요. 데이터셋에 따라 다릅니다. 보통 데이터가 많고 복잡하면 LSTM이, 데이터가 적거나 빠른 학습이 필요하면 GRU가 유리한 경향이 있어요." 실제로 많은 논문과 벤치마크에서 LSTM과 GRU의 성능 차이는 크지 않다고 보고합니다. 따라서 실무에서는 둘 다 실험해보고 더 나은 쪽을 선택하는 것이 일반적입니다. **실전 팁** 💡 - 데이터가 적거나 빠른 프로토타이핑이 필요할 때는 GRU부터 시작해보세요 - LSTM과 GRU 모두 실험해보고 검증 성능이 더 좋은 것을 선택하는 것이 좋습니다 --- ## 6. 양방향_RNN 김개발 씨가 자연어 처리 프로젝트를 진행하던 중 고민에 빠졌습니다. "나는 ___를 먹었다"에서 빈칸을 채우려면 "나는"이라는 앞 문맥도 중요하지만, "먹었다"라는 뒤 문맥도 중요하지 않나요?" 박시니어 씨가 반갑다는 듯이 웃었습니다. "바로 그거야! 양방향 RNN이 필요한 이유가 그거야." **양방향 RNN(Bidirectional RNN)**은 시퀀스를 앞에서 뒤로, 뒤에서 앞으로 두 번 처리합니다. 마치 책을 처음부터 읽으면서 동시에 끝에서부터도 읽는 것과 같습니다. 두 방향의 정보를 결합하면 각 위치에서 전체 문맥을 파악할 수 있습니다. 다음 코드를 살펴봅시다. ```python import torch import torch.nn as nn class BiLSTMModel(nn.Module): def __init__(self, input_size, hidden_size, output_size): super().__init__() # bidirectional=True로 양방향 설정 self.bilstm = nn.LSTM( input_size, hidden_size, batch_first=True, bidirectional=True # 핵심: 양방향 활성화 ) # 양방향이므로 hidden_size * 2 self.fc = nn.Linear(hidden_size * 2, output_size) def forward(self, x): # out: [batch, seq_len, hidden_size * 2] # 순방향과 역방향 출력이 concat됨 out, (h_n, c_n) = self.bilstm(x) # 마지막 시점의 양방향 정보 사용 prediction = self.fc(out[:, -1, :]) return prediction model = BiLSTMModel(input_size=10, hidden_size=64, output_size=5) ``` 박시니어 씨가 예시를 들었습니다. "I love apple"이라는 문장에서 apple이 과일인지 회사인지 어떻게 알 수 있을까요?" 김개발 씨가 생각해보았습니다. "앞에 I love가 있으니까... 좋아하는 대상이라는 건 알겠는데, 그래도 애매하네요." 박시니어 씨가 고개를 끄덕였습니다. "맞아요. 하지만 만약 문장이 I love apple pie였다면? 뒤에 pie가 있으니까 과일이라는 게 확실해지죠." 이것이 **양방향 RNN**의 핵심 아이디어입니다. 단방향 RNN은 왼쪽에서 오른쪽으로만 정보를 전달합니다. 하지만 언어에서는 뒤에 오는 단어가 앞 단어의 의미를 결정하는 경우가 많습니다. 양방향 RNN은 두 개의 독립적인 RNN을 사용합니다. 하나는 시퀀스를 정방향(왼쪽에서 오른쪽)으로, 다른 하나는 역방향(오른쪽에서 왼쪽)으로 처리합니다. 그리고 각 시점에서 두 방향의 은닉 상태를 **연결(concatenate)**합니다. 쉽게 비유하자면, 양방향 RNN은 마치 **탐정 두 명이 사건을 수사하는 것**과 같습니다. 한 명은 사건 발생 순서대로 조사하고, 다른 한 명은 결과에서부터 역으로 추적합니다. 두 탐정의 조사 결과를 합치면 더 정확한 결론을 내릴 수 있습니다. 위 코드에서 bidirectional=True 하나만 추가하면 양방향 LSTM이 됩니다. 주의할 점은 출력 차원이 **hidden_size의 2배**가 된다는 것입니다. 순방향 hidden_size와 역방향 hidden_size가 연결되기 때문입니다. 양방향 RNN은 특히 **품사 태깅(POS tagging)**, **개체명 인식(NER)**, **기계 번역** 등에서 탁월한 성능을 보입니다. 이런 작업들은 각 단어의 의미를 파악하기 위해 전체 문맥이 필요하기 때문입니다. 하지만 주의할 점도 있습니다. 박시니어 씨가 강조했습니다. "실시간 예측에서는 양방향 RNN을 쓸 수 없어요. 미래 정보를 알 수 없으니까요." 예를 들어 음성 인식에서 사용자가 말하는 도중에 실시간으로 텍스트를 보여주려면 단방향만 가능합니다. 반면 이미 완성된 문장을 분석하는 작업에서는 양방향이 유리합니다. 김개발 씨가 정리했습니다. "오프라인 분석에는 양방향, 실시간 스트리밍에는 단방향이군요!" 박시니어 씨가 흐뭇하게 웃었습니다. **실전 팁** 💡 - 양방향 RNN의 출력 차원은 단방향의 2배이므로, 후속 레이어의 입력 크기를 맞춰주어야 합니다 - 실시간 처리가 필요한 경우(음성 스트리밍, 채팅 등)에는 단방향 RNN을 사용하세요 --- 이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

카테고리: RNN,LSTM,NLP

언어: Python

태그: Python, RNN, LSTM, GRU, DeepLearning, RNN,LSTM,NLP

작성자: AI Generated

프리미엄 콘텐츠 - 3개월 무료 체험 가능

CodeDeck

RNN과 LSTM 복습 완벽 가이드

목차

1. 시퀀스 데이터 처리

2. RNN 구조와 동작

3. Vanishing Gradient 문제

4. LSTM 게이트 구조

5. GRU 비교

6. 양방향 RNN

이 카드뉴스가 포함된 코스

NLP 자연어 처리 심화

댓글 (0)

함께 보면 좋은 카드 뉴스

vLLM 통합 완벽 가이드

Web UI Demo 구축 완벽 가이드

Sandboxing & Execution Control 완벽 가이드

Voice Design then Clone 워크플로우 완벽 가이드

Tool Use 완벽 가이드 - Shell, Browser, DB 실전 활용