RNN과 LSTM으로 시퀀스 처리 완벽 가이드

순환 신경망(RNN)의 기초 개념부터 LSTM, GRU, 그리고 양방향 RNN까지 딥러닝 시퀀스 모델링의 핵심을 다룹니다. 텍스트 데이터 전처리와 감성 분석 실습을 통해 실무에서 바로 활용할 수 있는 지식을 전달합니다.

1. 순환 신경망 RNN 개념

김개발 씨는 회사에서 챗봇 프로젝트를 맡게 되었습니다. 사용자가 입력한 문장을 이해하고 적절한 답변을 생성해야 하는데, 기존에 배웠던 신경망으로는 문장의 흐름을 이해할 수 없었습니다.

"문장은 단어들의 순서가 중요한데, 이걸 어떻게 처리하지?"

**순환 신경망(RNN)**은 순서가 있는 데이터를 처리하기 위해 설계된 신경망입니다. 마치 소설을 읽을 때 앞 문장의 내용을 기억하며 다음 문장을 이해하는 것처럼, RNN은 이전 입력의 정보를 **은닉 상태(hidden state)**에 저장하고 다음 입력을 처리할 때 함께 사용합니다.

이를 통해 시계열 데이터나 자연어처럼 순서가 중요한 데이터를 효과적으로 다룰 수 있습니다.

다음 코드를 살펴봅시다.

import numpy as np

# RNN의 핵심 원리: 은닉 상태를 다음 스텝으로 전달
def simple_rnn_step(input_t, hidden_prev, Wx, Wh, b):
    # 현재 입력과 이전 은닉 상태를 결합
    hidden_new = np.tanh(
        np.dot(input_t, Wx) + np.dot(hidden_prev, Wh) + b
    )
    # 새로운 은닉 상태가 다음 스텝으로 전달됨
    return hidden_new

# 시퀀스를 순차적으로 처리
hidden = np.zeros(64)  # 초기 은닉 상태
for word in sequence:
    hidden = simple_rnn_step(word, hidden, Wx, Wh, b)

김개발 씨는 입사 6개월 차 주니어 개발자입니다. 오늘 팀장님으로부터 새로운 프로젝트를 할당받았습니다.

고객 문의를 자동으로 분류하는 시스템을 만들어야 하는데, 문제는 입력이 텍스트라는 점이었습니다. "이미지는 CNN으로 처리하면 되는데, 텍스트는 어떻게 해야 하지?" 김개발 씨는 고민에 빠졌습니다.

기존에 배웠던 **완전 연결 신경망(Dense)**이나 **합성곱 신경망(CNN)**은 입력의 크기가 고정되어 있어야 했습니다. 하지만 문장은 단어 3개일 수도 있고, 100개일 수도 있습니다.

선배 개발자 박시니어 씨가 커피를 들고 다가왔습니다. "고민이 있어 보이네요.

뭐가 문제예요?" 김개발 씨가 상황을 설명하자, 박시니어 씨는 고개를 끄덕이며 말했습니다. "아, 그건 **순환 신경망(RNN)**을 쓰면 돼요.

순서가 있는 데이터를 처리하는 데 특화된 구조거든요." 그렇다면 RNN이란 정확히 무엇일까요? 쉽게 비유하자면, RNN은 마치 일기장을 쓰는 것과 같습니다.

오늘 일기를 쓸 때 어제 있었던 일을 떠올리며 "어제 만났던 친구와 오늘도 점심을 먹었다"라고 쓸 수 있습니다. 이처럼 RNN도 이전에 처리한 정보를 기억하면서 현재 입력을 처리합니다.

기존 신경망에서는 각 입력이 독립적으로 처리되었습니다. "나는 밥을 먹었다"라는 문장을 처리할 때, '나는', '밥을', '먹었다'가 각각 따로따로 처리되어 문맥을 이해할 수 없었습니다.

마치 단어 카드를 무작위로 섞어놓고 의미를 파악하려는 것과 같았습니다. RNN의 핵심 아이디어는 **은닉 상태(hidden state)**입니다.

각 시점에서 입력을 처리한 후, 그 결과를 은닉 상태에 저장합니다. 그리고 다음 시점에서는 새로운 입력과 함께 이 은닉 상태를 사용합니다.

이렇게 정보가 시간 축을 따라 흘러가면서 문맥이 형성됩니다. 위의 코드를 살펴보면, simple_rnn_step 함수가 RNN의 한 스텝을 구현하고 있습니다.

현재 입력 input_t와 이전 은닉 상태 hidden_prev를 받아서 새로운 은닉 상태를 계산합니다. tanh 활성화 함수를 통해 값을 -1과 1 사이로 조절합니다.

중요한 것은 for 루프 부분입니다. 시퀀스의 각 단어를 순차적으로 처리하면서 은닉 상태가 계속 업데이트됩니다.

마지막 단어를 처리한 후의 은닉 상태에는 전체 문장의 정보가 압축되어 담겨 있습니다. 실제 현업에서 RNN은 다양한 곳에 활용됩니다.

주가 예측에서는 과거 가격의 흐름을 분석하고, 음성 인식에서는 소리의 시퀀스를 텍스트로 변환합니다. 번역 시스템에서는 원문의 의미를 이해하고 다른 언어로 표현합니다.

하지만 RNN에는 한계가 있습니다. 문장이 너무 길어지면 앞부분의 정보가 점점 희미해지는 문제가 발생합니다.

이것을 장기 의존성 문제라고 부릅니다. 마치 아침에 읽은 신문 기사의 첫 문장을 저녁에 기억하기 어려운 것처럼요.

박시니어 씨의 설명을 들은 김개발 씨는 RNN의 개념을 이해했습니다. "그런데 선배님, 긴 문장에서 앞부분을 잊어버리면 어떻게 해요?" 박시니어 씨가 웃으며 답했습니다.

"좋은 질문이에요. 그래서 LSTM이라는 게 나왔어요.

다음에 알려줄게요."

실전 팁

💡 - RNN은 순서가 있는 모든 데이터에 적용 가능합니다 (텍스트, 시계열, 음성 등)

은닉 상태의 크기는 모델이 기억할 수 있는 정보량을 결정합니다
긴 시퀀스에서는 기본 RNN 대신 LSTM이나 GRU를 사용하세요

2. SimpleRNN 레이어

RNN의 개념을 이해한 김개발 씨는 이제 실제 코드를 작성해보고 싶어졌습니다. 하지만 매번 RNN을 직접 구현하기는 번거롭습니다.

"분명 라이브러리가 있을 텐데..." 김개발 씨는 TensorFlow 문서를 펼쳤습니다.

SimpleRNN은 TensorFlow와 Keras에서 제공하는 가장 기본적인 순환 신경망 레이어입니다. 앞서 배운 RNN의 개념을 그대로 구현한 것으로, 몇 줄의 코드만으로 순환 신경망을 구축할 수 있습니다.

입력 시퀀스를 받아 은닉 상태를 업데이트하며 처리하고, 마지막 출력 또는 전체 시퀀스의 출력을 반환합니다.

다음 코드를 살펴봅시다.

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Dense, Embedding

# 텍스트 분류를 위한 SimpleRNN 모델
model = Sequential([
    # 단어를 32차원 벡터로 변환
    Embedding(input_dim=10000, output_dim=32),
    # 64개의 유닛을 가진 SimpleRNN
    SimpleRNN(units=64, return_sequences=False),
    # 이진 분류를 위한 출력층
    Dense(1, activation='sigmoid')
])

model.compile(optimizer='adam', loss='binary_crossentropy')
# model.fit(X_train, y_train, epochs=5)

김개발 씨는 드디어 실제 코드를 작성할 시간이 되었습니다. 이론은 충분히 배웠으니, 이제 손을 움직일 차례입니다.

노트북을 열고 Jupyter Notebook을 실행했습니다. "일단 TensorFlow를 임포트하고..." 김개발 씨가 코드를 입력하기 시작했습니다.

다행히 Keras에서는 SimpleRNN이라는 레이어를 제공하고 있었습니다. 직접 수식을 구현할 필요가 없었습니다.

SimpleRNN을 사용하기 전에 먼저 이해해야 할 것이 있습니다. 바로 Embedding 레이어입니다.

컴퓨터는 단어를 직접 이해하지 못합니다. "사랑"이라는 단어를 신경망에 넣으려면 숫자로 변환해야 합니다.

가장 간단한 방법은 단어마다 번호를 붙이는 것입니다. 하지만 단순한 번호는 단어 간의 의미적 관계를 표현하지 못합니다.

Embedding은 각 단어를 의미를 담은 벡터로 변환합니다. 예를 들어 "왕"과 "여왕"은 비슷한 벡터를 가지고, "사과"와 "바나나"도 비슷한 벡터를 가집니다.

이렇게 하면 신경망이 단어의 의미를 더 잘 파악할 수 있습니다. 위 코드에서 input_dim=10000은 전체 어휘의 크기가 10,000개라는 의미입니다.

output_dim=32는 각 단어를 32차원 벡터로 표현한다는 뜻입니다. 이 벡터는 학습 과정에서 자동으로 조정됩니다.

다음으로 **SimpleRNN(units=64)**를 살펴봅시다. units는 은닉 상태의 크기를 의미합니다.

64개의 유닛이 있다면, 은닉 상태는 64차원 벡터가 됩니다. 유닛이 많을수록 더 많은 정보를 기억할 수 있지만, 그만큼 계산량도 늘어납니다.

return_sequences 매개변수는 중요한 역할을 합니다. False로 설정하면 마지막 시점의 출력만 반환합니다.

문장 전체를 보고 분류해야 하는 경우에 적합합니다. True로 설정하면 모든 시점의 출력을 반환합니다.

시퀀스-투-시퀀스 작업이나 여러 RNN 레이어를 쌓을 때 사용합니다. 마지막 Dense 레이어는 RNN의 출력을 받아 최종 예측을 수행합니다.

sigmoid 활성화 함수는 출력을 0과 1 사이로 만들어 이진 분류에 적합합니다. 김개발 씨는 코드를 실행해 보았습니다.

모델이 잘 만들어졌습니다. 하지만 학습을 돌려보니 정확도가 그다지 높지 않았습니다.

"이상하다. 분명히 맞게 한 것 같은데..." 김개발 씨가 고개를 갸웃거렸습니다.

박시니어 씨가 지나가다 화면을 보았습니다. "아, SimpleRNN을 쓰고 있구나.

긴 문장에서는 성능이 좀 떨어질 수 있어요. 다음에는 LSTM을 써보세요." SimpleRNN은 개념을 이해하기에 좋지만, 실무에서는 주로 LSTM이나 GRU를 사용합니다.

기본 RNN은 긴 시퀀스에서 그래디언트가 사라지거나 폭발하는 문제가 있기 때문입니다. 하지만 SimpleRNN으로 먼저 연습하고 개념을 익히는 것은 매우 좋은 접근법입니다.

실전 팁

💡 - SimpleRNN은 학습용으로는 좋지만 실무에서는 LSTM이나 GRU를 선호합니다

return_sequences=True는 RNN 레이어를 여러 개 쌓을 때 중간 레이어에서 사용합니다
Embedding의 output_dim은 보통 32, 64, 128 등 2의 거듭제곱을 사용합니다

3. LSTM과 GRU 차이점

SimpleRNN으로 첫 모델을 만들어본 김개발 씨는 긴 리뷰 텍스트에서 성능이 떨어지는 문제를 발견했습니다. 박시니어 씨가 언급한 LSTM이 뭔지 궁금해졌습니다.

"장기 기억을 더 잘 유지한다고 했는데, 어떻게 가능한 거지?"

**LSTM(Long Short-Term Memory)**과 **GRU(Gated Recurrent Unit)**는 기본 RNN의 장기 의존성 문제를 해결하기 위해 고안된 구조입니다. LSTM은 **셀 상태(cell state)**와 세 개의 게이트(forget, input, output)를 사용하여 정보의 흐름을 정교하게 제어합니다.

GRU는 LSTM을 단순화한 버전으로, 두 개의 게이트(reset, update)만 사용하여 비슷한 성능을 더 빠르게 달성합니다.

다음 코드를 살펴봅시다.

from tensorflow.keras.layers import LSTM, GRU, Bidirectional

# LSTM 모델: 장기 의존성에 강함
lstm_model = Sequential([
    Embedding(10000, 64),
    LSTM(128, return_sequences=True),  # 첫 번째 LSTM
    LSTM(64),                           # 두 번째 LSTM
    Dense(1, activation='sigmoid')
])

# GRU 모델: LSTM보다 빠르고 파라미터 적음
gru_model = Sequential([
    Embedding(10000, 64),
    GRU(128, dropout=0.2, recurrent_dropout=0.2),
    Dense(1, activation='sigmoid')
])

김개발 씨는 LSTM에 대해 더 알아보기로 했습니다. 인터넷을 검색하다 보니 온갖 수식이 나와서 머리가 아파왔습니다.

"이걸 다 이해해야 하나..." 그때 박시니어 씨가 다가왔습니다. "수식에 겁먹지 마세요.

핵심 아이디어만 이해하면 돼요." LSTM을 이해하기 위해 먼저 기본 RNN의 문제점을 다시 짚어봅시다. 기본 RNN은 정보를 은닉 상태 하나에 모두 담습니다.

문장이 길어지면 앞부분의 정보가 점점 희석됩니다. 마치 전화기 게임처럼 처음 메시지가 끝까지 전달되면서 왜곡되는 것과 같습니다.

LSTM은 이 문제를 해결하기 위해 **셀 상태(cell state)**라는 별도의 경로를 추가했습니다. 셀 상태는 마치 컨베이어 벨트와 같습니다.

정보가 거의 손실 없이 쭉 흘러갈 수 있습니다. 필요할 때만 정보를 추가하거나 제거합니다.

LSTM에는 세 개의 게이트가 있습니다. 게이트는 정보의 흐름을 조절하는 밸브라고 생각하면 됩니다.

첫 번째는 **망각 게이트(forget gate)**입니다. "이 정보를 버릴까, 유지할까?"를 결정합니다.

예를 들어 "그녀는 프랑스에 갔다. 그는 독일에 갔다."라는 문장에서 주어가 바뀌면 이전 주어 정보를 잊어야 합니다.

두 번째는 **입력 게이트(input gate)**입니다. "새로운 정보 중 무엇을 저장할까?"를 결정합니다.

모든 단어가 똑같이 중요한 것은 아닙니다. 핵심 단어의 정보를 더 강하게 저장합니다.

세 번째는 **출력 게이트(output gate)**입니다. "셀 상태 중 무엇을 출력할까?"를 결정합니다.

다음 단어를 예측하는 데 필요한 정보만 선별하여 내보냅니다. GRU는 LSTM을 단순화한 버전입니다.

셀 상태와 은닉 상태를 하나로 합치고, 게이트를 두 개(리셋 게이트, 업데이트 게이트)로 줄였습니다. 파라미터가 적어서 학습이 빠르고, 작은 데이터셋에서 과적합 위험이 낮습니다.

그렇다면 언제 LSTM을 쓰고 언제 GRU를 써야 할까요? 일반적으로 데이터가 많고 시퀀스가 길면 LSTM을 사용합니다.

더 복잡한 패턴을 학습할 수 있기 때문입니다. 데이터가 적거나 빠른 학습이 필요하면 GRU를 사용합니다.

실제로 많은 경우 성능 차이가 크지 않아서, 둘 다 실험해보고 더 나은 것을 선택하는 것이 일반적입니다. 위 코드에서 dropout과 recurrent_dropout을 주목하세요.

이것은 과적합을 방지하는 기법입니다. dropout은 입력에 드롭아웃을 적용하고, recurrent_dropout은 순환 연결에 드롭아웃을 적용합니다.

김개발 씨는 SimpleRNN을 LSTM으로 교체하고 다시 학습을 돌렸습니다. 정확도가 눈에 띄게 올랐습니다.

"와, 진짜 차이가 나네요!" 박시니어 씨가 웃으며 말했습니다. "그래서 요즘은 거의 LSTM이나 GRU만 써요.

기본 RNN은 교육용이라고 보면 돼요."

실전 팁

💡 - 처음에는 GRU로 빠르게 실험하고, 성능이 부족하면 LSTM으로 전환해보세요

dropout은 보통 0.2~0.5 사이 값을 사용합니다
LSTM 레이어를 여러 개 쌓을 때는 중간 레이어에 return_sequences=True를 설정하세요

4. 텍스트 데이터 전처리

LSTM으로 모델을 만들었지만, 김개발 씨는 아직 해결하지 못한 문제가 있었습니다. 실제 텍스트 데이터를 어떻게 숫자로 변환하는지, 그리고 길이가 다른 문장들은 어떻게 처리하는지 막막했습니다.

"데이터 전처리가 절반이라더니, 정말 그런 것 같아요."

텍스트 데이터를 신경망에 입력하려면 여러 단계의 전처리가 필요합니다. 먼저 **토큰화(Tokenization)**로 문장을 단어 단위로 분리하고, 각 단어에 고유한 정수 인덱스를 부여합니다.

그 다음 **패딩(Padding)**으로 모든 시퀀스의 길이를 맞춥니다. 이 과정을 통해 다양한 길이의 텍스트를 일관된 형태의 숫자 배열로 변환할 수 있습니다.

다음 코드를 살펴봅시다.

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 샘플 텍스트 데이터
texts = ["이 영화 정말 재미있어요", "최악의 영화였습니다", "감동적인 스토리"]

# 토큰화: 단어를 정수 인덱스로 변환
tokenizer = Tokenizer(num_words=5000, oov_token="<OOV>")
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)

# 패딩: 모든 시퀀스를 같은 길이로 맞춤
padded = pad_sequences(sequences, maxlen=20, padding='post', truncating='post')

print(f"단어 인덱스: {tokenizer.word_index}")
print(f"패딩된 시퀀스 형태: {padded.shape}")

김개발 씨는 데이터 전처리의 중요성을 절감하고 있었습니다. 아무리 좋은 모델을 만들어도 입력 데이터가 제대로 준비되지 않으면 소용없다는 것을 깨달았기 때문입니다.

"선배님, 텍스트를 숫자로 어떻게 바꾸는 거예요?" 김개발 씨가 물었습니다. 박시니어 씨가 화이트보드에 그림을 그리기 시작했습니다.

"일단 문장을 단어로 쪼개야 해요. 이걸 토큰화라고 해요." 토큰화는 마치 문장을 레고 블록으로 분해하는 것과 같습니다.

"이 영화 정말 재미있어요"라는 문장은 "이", "영화", "정말", "재미있어요"라는 네 개의 토큰으로 분리됩니다. 다음으로 각 토큰에 고유 번호를 부여합니다.

"이"는 1번, "영화"는 2번 하는 식입니다. 이것을 정수 인코딩이라고 합니다.

위 코드에서 tokenizer.word_index를 출력하면 단어와 번호의 매핑을 확인할 수 있습니다. num_words=5000은 가장 빈번한 5,000개의 단어만 사용하겠다는 의미입니다.

어휘 크기를 제한하면 모델이 가벼워지고 과적합 위험이 줄어듭니다. oov_token은 중요한 개념입니다.

학습 데이터에 없던 새로운 단어가 나타나면 어떻게 할까요? 그 단어를 **OOV(Out Of Vocabulary)**로 처리합니다.

이렇게 하면 모르는 단어가 나와도 에러가 발생하지 않습니다. 이제 패딩에 대해 알아봅시다.

신경망은 입력의 크기가 일정해야 합니다. 하지만 문장은 길이가 제각각입니다.

3단어짜리 문장도 있고, 50단어짜리 문장도 있습니다. pad_sequences는 모든 시퀀스를 동일한 길이로 맞춥니다.

maxlen=20은 최대 길이를 20으로 설정합니다. 이보다 짧은 문장은 0으로 채워지고, 이보다 긴 문장은 잘립니다.

**padding='post'**는 뒤쪽에 0을 채운다는 의미입니다. 'pre'로 설정하면 앞쪽에 채웁니다.

RNN 계열에서는 보통 'post'를 사용합니다. 마지막 단어가 출력에 가까이 있어서 학습이 더 잘 됩니다.

**truncating='post'**는 긴 문장을 뒤에서 자른다는 의미입니다. 문장의 앞부분이 더 중요한 경우가 많아서 이렇게 설정합니다.

김개발 씨가 코드를 실행해보았습니다. 문자열이었던 텍스트가 깔끔한 숫자 배열로 변환되었습니다.

"오, 이제 이걸 모델에 넣으면 되는 거네요!" 박시니어 씨가 덧붙였습니다. "맞아요.

그리고 실무에서는 띄어쓰기 기반 토큰화 말고 형태소 분석기를 쓰는 경우도 많아요. 한국어는 조사가 붙어서 단어가 변하거든요." 데이터 전처리는 NLP의 기초 중의 기초입니다.

이 단계를 제대로 하지 않으면 아무리 좋은 모델도 제 성능을 발휘하지 못합니다.

실전 팁

💡 - 한국어 텍스트는 KoNLPy 같은 형태소 분석기를 함께 사용하면 성능이 올라갑니다

maxlen은 데이터의 길이 분포를 확인한 후 결정하세요 (보통 95% 커버리지)
토크나이저는 저장해두었다가 추론 시에도 동일하게 사용해야 합니다

5. 감성 분석 실습

이론과 전처리를 모두 배운 김개발 씨는 드디어 실전 프로젝트에 도전할 준비가 되었습니다. 팀장님이 주신 과제는 고객 리뷰를 분석하여 긍정인지 부정인지 자동으로 판별하는 시스템이었습니다.

"드디어 내가 만든 모델이 실제로 쓰이게 되는구나!"

**감성 분석(Sentiment Analysis)**은 텍스트에 담긴 감정이나 의견을 파악하는 NLP 과제입니다. 영화 리뷰가 긍정적인지 부정적인지, 고객 피드백이 만족인지 불만인지를 자동으로 분류합니다.

LSTM을 활용하면 문장의 맥락을 파악하여 높은 정확도의 감성 분류기를 만들 수 있습니다.

다음 코드를 살펴봅시다.

from tensorflow.keras.datasets import imdb
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

# IMDB 데이터셋 로드 (영화 리뷰 감성 분석)
vocab_size = 10000
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=vocab_size)

# 패딩 적용
X_train = pad_sequences(X_train, maxlen=200)
X_test = pad_sequences(X_test, maxlen=200)

# 감성 분석 모델 구축
model = Sequential([
    Embedding(vocab_size, 128, input_length=200),
    LSTM(64, dropout=0.2),
    Dense(1, activation='sigmoid')
])

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(X_train, y_train, epochs=3, batch_size=64, validation_split=0.2)

김개발 씨는 노트북 앞에 앉아 본격적인 코딩을 시작했습니다. 이번에는 진짜 데이터로 진짜 모델을 만드는 것입니다.

가슴이 두근거렸습니다. IMDB 데이터셋은 NLP 입문자에게 가장 인기 있는 데이터셋 중 하나입니다.

5만 개의 영화 리뷰가 담겨 있고, 각 리뷰는 긍정(1) 또는 부정(0)으로 레이블링되어 있습니다. 마치 NLP계의 MNIST라고 할 수 있습니다.

Keras에서는 이 데이터셋을 바로 불러올 수 있습니다. num_words=10000으로 설정하면 가장 빈번한 1만 개의 단어만 사용합니다.

나머지 단어는 OOV로 처리됩니다. 데이터를 불러온 후에는 패딩을 적용합니다.

maxlen=200은 리뷰 길이를 최대 200단어로 제한합니다. 영화 리뷰는 보통 그리 길지 않아서 200이면 대부분 커버됩니다.

모델 구조를 살펴봅시다. **Embedding(vocab_size, 128)**은 1만 개의 단어를 각각 128차원 벡터로 표현합니다.

앞서 32차원을 사용했는데, 이번에는 데이터가 더 많으니 차원을 높였습니다. **LSTM(64, dropout=0.2)**는 64개의 유닛을 가진 LSTM 레이어입니다.

dropout=0.2는 학습 중에 20%의 연결을 무작위로 끊어서 과적합을 방지합니다. 마지막 **Dense(1, activation='sigmoid')**는 확률값을 출력합니다.

0.5보다 크면 긍정, 작으면 부정으로 분류합니다. 김개발 씨가 학습을 시작했습니다.

에폭이 지나갈 때마다 손실이 줄어들고 정확도가 올라갔습니다. 3 에폭 후에 검증 정확도가 85%를 넘었습니다.

"와, 85%나 나오다니!" 김개발 씨가 감탄했습니다. 박시니어 씨가 화면을 보며 말했습니다.

"좋은 시작이에요. 하지만 실무에서는 여기서 더 개선해야 해요.

에폭을 더 늘리거나, 모델을 더 깊게 만들거나, 사전 훈련된 임베딩을 사용하거나..." 감성 분석은 다양한 분야에서 활용됩니다. 쇼핑몰에서는 상품 리뷰를 분석하여 품질 문제를 조기에 발견합니다.

소셜 미디어에서는 브랜드에 대한 여론을 모니터링합니다. 고객 서비스에서는 불만 고객을 우선 처리합니다.

김개발 씨는 학습된 모델로 새로운 리뷰를 예측해보았습니다. "이 영화 진짜 최고였어요 강추합니다"를 넣으니 0.92가 나왔습니다.

긍정이 맞네요! 하지만 "지루하지 않았어요"처럼 부정어가 포함된 긍정 문장에서는 정확도가 떨어졌습니다.

이런 복잡한 케이스를 처리하려면 더 발전된 기법이 필요합니다.

실전 팁

💡 - validation_split으로 학습 중 과적합 여부를 모니터링하세요

정확도가 더 이상 오르지 않으면 조기 종료(Early Stopping)를 사용하세요
Word2Vec이나 GloVe 같은 사전 훈련 임베딩을 사용하면 성능이 올라갑니다

6. Bidirectional RNN

감성 분석 모델을 완성한 김개발 씨는 성능을 더 높이고 싶어졌습니다. 박시니어 씨가 힌트를 주었습니다.

"RNN이 앞에서 뒤로만 읽잖아요. 만약 뒤에서 앞으로도 읽으면 어떨까요?" 김개발 씨의 눈이 반짝였습니다.

**Bidirectional RNN(양방향 RNN)**은 시퀀스를 앞에서 뒤로, 그리고 뒤에서 앞으로 두 번 처리합니다. 이렇게 하면 각 시점에서 과거와 미래의 문맥을 모두 활용할 수 있습니다.

특히 문장의 의미가 뒷부분에 의해 결정되는 경우에 효과적입니다. Keras에서는 Bidirectional 래퍼로 간단히 구현할 수 있습니다.

다음 코드를 살펴봅시다.

from tensorflow.keras.layers import Bidirectional, LSTM, Dense, Embedding

# 양방향 LSTM 모델
model = Sequential([
    Embedding(10000, 128, input_length=200),
    # 양방향 래퍼로 LSTM 감싸기
    Bidirectional(LSTM(64, return_sequences=True)),
    Bidirectional(LSTM(32)),
    Dense(64, activation='relu'),
    Dense(1, activation='sigmoid')
])

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
# 출력 차원은 LSTM의 2배 (순방향 + 역방향)
model.summary()

김개발 씨는 곰곰이 생각해보았습니다. "뒤에서 앞으로 읽는다고?" 처음에는 이상하게 느껴졌습니다.

하지만 예시를 생각해보니 이해가 되었습니다. "그 영화는 정말 지루하지 않았어요"라는 문장을 봅시다.

앞에서 순서대로 읽으면 "지루하"를 보고 부정적이라고 판단할 수 있습니다. 하지만 "않았어요"를 먼저 보면 부정이 뒤집힌다는 것을 알 수 있습니다.

양방향 RNN은 이런 상황에서 빛을 발합니다. 마치 책을 처음부터 끝까지 읽고, 다시 끝에서 처음으로 읽는 것과 같습니다.

두 번 읽으면 이해가 더 깊어지는 것처럼, 양방향으로 처리하면 문맥 파악이 더 정확해집니다. 기술적으로 보면, 양방향 RNN은 두 개의 RNN을 사용합니다.

하나는 정방향(왼쪽에서 오른쪽)으로 처리하고, 다른 하나는 역방향(오른쪽에서 왼쪽)으로 처리합니다. 각 시점에서 두 RNN의 출력을 합칩니다.

Keras에서는 Bidirectional 래퍼를 사용합니다. 사용법은 아주 간단합니다.

기존 LSTM 레이어를 Bidirectional()로 감싸기만 하면 됩니다. 한 가지 주의할 점은 출력 차원이 2배가 된다는 것입니다.

LSTM(64)를 Bidirectional로 감싸면 출력 차원이 128이 됩니다. 순방향 64개와 역방향 64개가 합쳐지기 때문입니다.

위 코드에서는 양방향 LSTM을 두 개 쌓았습니다. 첫 번째 레이어는 return_sequences=True로 설정하여 모든 시점의 출력을 다음 레이어로 전달합니다.

두 번째 레이어는 마지막 출력만 반환합니다. **Dense(64, activation='relu')**는 RNN 출력을 한 번 더 처리하는 역할을 합니다.

이렇게 완전 연결층을 추가하면 더 복잡한 패턴을 학습할 수 있습니다. 양방향 RNN은 언제 유용할까요?

**개체명 인식(NER)**에서는 단어의 앞뒤 문맥이 모두 중요합니다. "Apple은 맛있다"와 "Apple은 아이폰을 만든다"에서 Apple의 의미는 뒤에 오는 단어로 결정됩니다.

품사 태깅에서도 마찬가지입니다. "그녀의 배가 고프다"와 "배를 타고 떠났다"에서 "배"의 품사는 문맥에 따라 달라집니다.

하지만 양방향 RNN을 사용할 수 없는 경우도 있습니다. 실시간 예측이나 언어 모델에서는 미래 정보를 사용할 수 없습니다.

다음 단어를 예측해야 하는데 미래 단어를 이미 안다면 그건 반칙이니까요. 김개발 씨는 감성 분석 모델에 Bidirectional을 적용해보았습니다.

정확도가 약 2% 올랐습니다. "작은 변화가 이렇게 차이를 만드네요!" 박시니어 씨가 마무리했습니다.

"요즘에는 BERT 같은 트랜스포머 모델이 대세지만, RNN 기반 모델도 여전히 많이 쓰여요. 특히 자원이 제한된 환경에서는요."

실전 팁

💡 - 양방향 RNN은 배치 처리에서 특히 효과적입니다 (전체 시퀀스를 알고 있으므로)

실시간 스트리밍 데이터에서는 단방향 RNN을 사용해야 합니다
양방향 LSTM을 여러 층 쌓으면 복잡한 문맥도 잘 잡아냅니다

이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

#Python#RNN#LSTM#GRU#NLP#AI,DeepLearning,NLP

RNN과 LSTM으로 시퀀스 처리 완벽 가이드

# RNN과 LSTM으로 시퀀스 처리 완벽 가이드 순환 신경망(RNN)의 기초 개념부터 LSTM, GRU, 그리고 양방향 RNN까지 딥러닝 시퀀스 모델링의 핵심을 다룹니다. 텍스트 데이터 전처리와 감성 분석 실습을 통해 실무에서 바로 활용할 수 있는 지식을 전달합니다. --- ## 목차 1. [순환_신경망_RNN_개념](#순환-신경망-rnn-개념) 2. [SimpleRNN_레이어](#simplernn-레이어) 3. [LSTM과_GRU_차이점](#lstm과-gru-차이점) 4. [텍스트_데이터_전처리](#텍스트-데이터-전처리) 5. [감성_분석_실습](#감성-분석-실습) 6. [Bidirectional_RNN](#bidirectional-rnn) --- ## 1. 순환_신경망_RNN_개념 김개발 씨는 회사에서 챗봇 프로젝트를 맡게 되었습니다. 사용자가 입력한 문장을 이해하고 적절한 답변을 생성해야 하는데, 기존에 배웠던 신경망으로는 문장의 흐름을 이해할 수 없었습니다. "문장은 단어들의 순서가 중요한데, 이걸 어떻게 처리하지?" **순환 신경망(RNN)**은 순서가 있는 데이터를 처리하기 위해 설계된 신경망입니다. 마치 소설을 읽을 때 앞 문장의 내용을 기억하며 다음 문장을 이해하는 것처럼, RNN은 이전 입력의 정보를 **은닉 상태(hidden state)**에 저장하고 다음 입력을 처리할 때 함께 사용합니다. 이를 통해 시계열 데이터나 자연어처럼 순서가 중요한 데이터를 효과적으로 다룰 수 있습니다. 다음 코드를 살펴봅시다. ```python import numpy as np # RNN의 핵심 원리: 은닉 상태를 다음 스텝으로 전달 def simple_rnn_step(input_t, hidden_prev, Wx, Wh, b): # 현재 입력과 이전 은닉 상태를 결합 hidden_new = np.tanh( np.dot(input_t, Wx) + np.dot(hidden_prev, Wh) + b ) # 새로운 은닉 상태가 다음 스텝으로 전달됨 return hidden_new # 시퀀스를 순차적으로 처리 hidden = np.zeros(64) # 초기 은닉 상태 for word in sequence: hidden = simple_rnn_step(word, hidden, Wx, Wh, b) ``` 김개발 씨는 입사 6개월 차 주니어 개발자입니다. 오늘 팀장님으로부터 새로운 프로젝트를 할당받았습니다. 고객 문의를 자동으로 분류하는 시스템을 만들어야 하는데, 문제는 입력이 텍스트라는 점이었습니다. "이미지는 CNN으로 처리하면 되는데, 텍스트는 어떻게 해야 하지?" 김개발 씨는 고민에 빠졌습니다. 기존에 배웠던 **완전 연결 신경망(Dense)**이나 **합성곱 신경망(CNN)**은 입력의 크기가 고정되어 있어야 했습니다. 하지만 문장은 단어 3개일 수도 있고, 100개일 수도 있습니다. 선배 개발자 박시니어 씨가 커피를 들고 다가왔습니다. "고민이 있어 보이네요. 뭐가 문제예요?" 김개발 씨가 상황을 설명하자, 박시니어 씨는 고개를 끄덕이며 말했습니다. "아, 그건 **순환 신경망(RNN)**을 쓰면 돼요. 순서가 있는 데이터를 처리하는 데 특화된 구조거든요." 그렇다면 RNN이란 정확히 무엇일까요? 쉽게 비유하자면, RNN은 마치 **일기장을 쓰는 것**과 같습니다. 오늘 일기를 쓸 때 어제 있었던 일을 떠올리며 "어제 만났던 친구와 오늘도 점심을 먹었다"라고 쓸 수 있습니다. 이처럼 RNN도 **이전에 처리한 정보를 기억**하면서 현재 입력을 처리합니다. 기존 신경망에서는 각 입력이 독립적으로 처리되었습니다. "나는 밥을 먹었다"라는 문장을 처리할 때, '나는', '밥을', '먹었다'가 각각 따로따로 처리되어 문맥을 이해할 수 없었습니다. 마치 단어 카드를 무작위로 섞어놓고 의미를 파악하려는 것과 같았습니다. RNN의 핵심 아이디어는 **은닉 상태(hidden state)**입니다. 각 시점에서 입력을 처리한 후, 그 결과를 은닉 상태에 저장합니다. 그리고 다음 시점에서는 새로운 입력과 함께 이 은닉 상태를 사용합니다. 이렇게 정보가 시간 축을 따라 흘러가면서 **문맥**이 형성됩니다. 위의 코드를 살펴보면, **simple_rnn_step** 함수가 RNN의 한 스텝을 구현하고 있습니다. 현재 입력 **input_t**와 이전 은닉 상태 **hidden_prev**를 받아서 새로운 은닉 상태를 계산합니다. **tanh** 활성화 함수를 통해 값을 -1과 1 사이로 조절합니다. 중요한 것은 for 루프 부분입니다. 시퀀스의 각 단어를 순차적으로 처리하면서 은닉 상태가 계속 업데이트됩니다. 마지막 단어를 처리한 후의 은닉 상태에는 전체 문장의 정보가 압축되어 담겨 있습니다. 실제 현업에서 RNN은 다양한 곳에 활용됩니다. 주가 예측에서는 과거 가격의 흐름을 분석하고, 음성 인식에서는 소리의 시퀀스를 텍스트로 변환합니다. 번역 시스템에서는 원문의 의미를 이해하고 다른 언어로 표현합니다. 하지만 RNN에는 한계가 있습니다. 문장이 너무 길어지면 **앞부분의 정보가 점점 희미해지는 문제**가 발생합니다. 이것을 **장기 의존성 문제**라고 부릅니다. 마치 아침에 읽은 신문 기사의 첫 문장을 저녁에 기억하기 어려운 것처럼요. 박시니어 씨의 설명을 들은 김개발 씨는 RNN의 개념을 이해했습니다. "그런데 선배님, 긴 문장에서 앞부분을 잊어버리면 어떻게 해요?" 박시니어 씨가 웃으며 답했습니다. "좋은 질문이에요. 그래서 LSTM이라는 게 나왔어요. 다음에 알려줄게요." **실전 팁** 💡 - RNN은 순서가 있는 모든 데이터에 적용 가능합니다 (텍스트, 시계열, 음성 등) - 은닉 상태의 크기는 모델이 기억할 수 있는 정보량을 결정합니다 - 긴 시퀀스에서는 기본 RNN 대신 LSTM이나 GRU를 사용하세요 --- ## 2. SimpleRNN_레이어 RNN의 개념을 이해한 김개발 씨는 이제 실제 코드를 작성해보고 싶어졌습니다. 하지만 매번 RNN을 직접 구현하기는 번거롭습니다. "분명 라이브러리가 있을 텐데..." 김개발 씨는 TensorFlow 문서를 펼쳤습니다. **SimpleRNN**은 TensorFlow와 Keras에서 제공하는 가장 기본적인 순환 신경망 레이어입니다. 앞서 배운 RNN의 개념을 그대로 구현한 것으로, 몇 줄의 코드만으로 순환 신경망을 구축할 수 있습니다. 입력 시퀀스를 받아 은닉 상태를 업데이트하며 처리하고, 마지막 출력 또는 전체 시퀀스의 출력을 반환합니다. 다음 코드를 살펴봅시다. ```python from tensorflow.keras.models import Sequential from tensorflow.keras.layers import SimpleRNN, Dense, Embedding # 텍스트 분류를 위한 SimpleRNN 모델 model = Sequential([ # 단어를 32차원 벡터로 변환 Embedding(input_dim=10000, output_dim=32), # 64개의 유닛을 가진 SimpleRNN SimpleRNN(units=64, return_sequences=False), # 이진 분류를 위한 출력층 Dense(1, activation='sigmoid') ]) model.compile(optimizer='adam', loss='binary_crossentropy') # model.fit(X_train, y_train, epochs=5) ``` 김개발 씨는 드디어 실제 코드를 작성할 시간이 되었습니다. 이론은 충분히 배웠으니, 이제 손을 움직일 차례입니다. 노트북을 열고 Jupyter Notebook을 실행했습니다. "일단 TensorFlow를 임포트하고..." 김개발 씨가 코드를 입력하기 시작했습니다. 다행히 Keras에서는 **SimpleRNN**이라는 레이어를 제공하고 있었습니다. 직접 수식을 구현할 필요가 없었습니다. SimpleRNN을 사용하기 전에 먼저 이해해야 할 것이 있습니다. 바로 **Embedding** 레이어입니다. 컴퓨터는 단어를 직접 이해하지 못합니다. "사랑"이라는 단어를 신경망에 넣으려면 숫자로 변환해야 합니다. 가장 간단한 방법은 단어마다 번호를 붙이는 것입니다. 하지만 단순한 번호는 단어 간의 의미적 관계를 표현하지 못합니다. **Embedding**은 각 단어를 **의미를 담은 벡터**로 변환합니다. 예를 들어 "왕"과 "여왕"은 비슷한 벡터를 가지고, "사과"와 "바나나"도 비슷한 벡터를 가집니다. 이렇게 하면 신경망이 단어의 의미를 더 잘 파악할 수 있습니다. 위 코드에서 **input_dim=10000**은 전체 어휘의 크기가 10,000개라는 의미입니다. **output_dim=32**는 각 단어를 32차원 벡터로 표현한다는 뜻입니다. 이 벡터는 학습 과정에서 자동으로 조정됩니다. 다음으로 **SimpleRNN(units=64)**를 살펴봅시다. **units**는 은닉 상태의 크기를 의미합니다. 64개의 유닛이 있다면, 은닉 상태는 64차원 벡터가 됩니다. 유닛이 많을수록 더 많은 정보를 기억할 수 있지만, 그만큼 계산량도 늘어납니다. **return_sequences** 매개변수는 중요한 역할을 합니다. **False**로 설정하면 마지막 시점의 출력만 반환합니다. 문장 전체를 보고 분류해야 하는 경우에 적합합니다. **True**로 설정하면 모든 시점의 출력을 반환합니다. 시퀀스-투-시퀀스 작업이나 여러 RNN 레이어를 쌓을 때 사용합니다. 마지막 **Dense** 레이어는 RNN의 출력을 받아 최종 예측을 수행합니다. **sigmoid** 활성화 함수는 출력을 0과 1 사이로 만들어 이진 분류에 적합합니다. 김개발 씨는 코드를 실행해 보았습니다. 모델이 잘 만들어졌습니다. 하지만 학습을 돌려보니 정확도가 그다지 높지 않았습니다. "이상하다. 분명히 맞게 한 것 같은데..." 김개발 씨가 고개를 갸웃거렸습니다. 박시니어 씨가 지나가다 화면을 보았습니다. "아, SimpleRNN을 쓰고 있구나. 긴 문장에서는 성능이 좀 떨어질 수 있어요. 다음에는 LSTM을 써보세요." SimpleRNN은 개념을 이해하기에 좋지만, 실무에서는 주로 **LSTM**이나 **GRU**를 사용합니다. 기본 RNN은 긴 시퀀스에서 그래디언트가 사라지거나 폭발하는 문제가 있기 때문입니다. 하지만 SimpleRNN으로 먼저 연습하고 개념을 익히는 것은 매우 좋은 접근법입니다. **실전 팁** 💡 - SimpleRNN은 학습용으로는 좋지만 실무에서는 LSTM이나 GRU를 선호합니다 - return_sequences=True는 RNN 레이어를 여러 개 쌓을 때 중간 레이어에서 사용합니다 - Embedding의 output_dim은 보통 32, 64, 128 등 2의 거듭제곱을 사용합니다 --- ## 3. LSTM과_GRU_차이점 SimpleRNN으로 첫 모델을 만들어본 김개발 씨는 긴 리뷰 텍스트에서 성능이 떨어지는 문제를 발견했습니다. 박시니어 씨가 언급한 LSTM이 뭔지 궁금해졌습니다. "장기 기억을 더 잘 유지한다고 했는데, 어떻게 가능한 거지?" **LSTM(Long Short-Term Memory)**과 **GRU(Gated Recurrent Unit)**는 기본 RNN의 장기 의존성 문제를 해결하기 위해 고안된 구조입니다. LSTM은 **셀 상태(cell state)**와 세 개의 게이트(forget, input, output)를 사용하여 정보의 흐름을 정교하게 제어합니다. GRU는 LSTM을 단순화한 버전으로, 두 개의 게이트(reset, update)만 사용하여 비슷한 성능을 더 빠르게 달성합니다. 다음 코드를 살펴봅시다. ```python from tensorflow.keras.layers import LSTM, GRU, Bidirectional # LSTM 모델: 장기 의존성에 강함 lstm_model = Sequential([ Embedding(10000, 64), LSTM(128, return_sequences=True), # 첫 번째 LSTM LSTM(64), # 두 번째 LSTM Dense(1, activation='sigmoid') ]) # GRU 모델: LSTM보다 빠르고 파라미터 적음 gru_model = Sequential([ Embedding(10000, 64), GRU(128, dropout=0.2, recurrent_dropout=0.2), Dense(1, activation='sigmoid') ]) ``` 김개발 씨는 LSTM에 대해 더 알아보기로 했습니다. 인터넷을 검색하다 보니 온갖 수식이 나와서 머리가 아파왔습니다. "이걸 다 이해해야 하나..." 그때 박시니어 씨가 다가왔습니다. "수식에 겁먹지 마세요. 핵심 아이디어만 이해하면 돼요." LSTM을 이해하기 위해 먼저 기본 RNN의 문제점을 다시 짚어봅시다. 기본 RNN은 정보를 은닉 상태 하나에 모두 담습니다. 문장이 길어지면 앞부분의 정보가 점점 희석됩니다. 마치 **전화기 게임**처럼 처음 메시지가 끝까지 전달되면서 왜곡되는 것과 같습니다. LSTM은 이 문제를 해결하기 위해 **셀 상태(cell state)**라는 별도의 경로를 추가했습니다. 셀 상태는 마치 **컨베이어 벨트**와 같습니다. 정보가 거의 손실 없이 쭉 흘러갈 수 있습니다. 필요할 때만 정보를 추가하거나 제거합니다. LSTM에는 세 개의 **게이트**가 있습니다. 게이트는 정보의 흐름을 조절하는 밸브라고 생각하면 됩니다. 첫 번째는 **망각 게이트(forget gate)**입니다. "이 정보를 버릴까, 유지할까?"를 결정합니다. 예를 들어 "그녀는 프랑스에 갔다. 그는 독일에 갔다."라는 문장에서 주어가 바뀌면 이전 주어 정보를 잊어야 합니다. 두 번째는 **입력 게이트(input gate)**입니다. "새로운 정보 중 무엇을 저장할까?"를 결정합니다. 모든 단어가 똑같이 중요한 것은 아닙니다. 핵심 단어의 정보를 더 강하게 저장합니다. 세 번째는 **출력 게이트(output gate)**입니다. "셀 상태 중 무엇을 출력할까?"를 결정합니다. 다음 단어를 예측하는 데 필요한 정보만 선별하여 내보냅니다. GRU는 LSTM을 단순화한 버전입니다. 셀 상태와 은닉 상태를 하나로 합치고, 게이트를 두 개(**리셋 게이트, 업데이트 게이트**)로 줄였습니다. 파라미터가 적어서 학습이 빠르고, 작은 데이터셋에서 과적합 위험이 낮습니다. 그렇다면 언제 LSTM을 쓰고 언제 GRU를 써야 할까요? 일반적으로 **데이터가 많고 시퀀스가 길면 LSTM**을 사용합니다. 더 복잡한 패턴을 학습할 수 있기 때문입니다. **데이터가 적거나 빠른 학습이 필요하면 GRU**를 사용합니다. 실제로 많은 경우 성능 차이가 크지 않아서, 둘 다 실험해보고 더 나은 것을 선택하는 것이 일반적입니다. 위 코드에서 **dropout**과 **recurrent_dropout**을 주목하세요. 이것은 과적합을 방지하는 기법입니다. dropout은 입력에 드롭아웃을 적용하고, recurrent_dropout은 순환 연결에 드롭아웃을 적용합니다. 김개발 씨는 SimpleRNN을 LSTM으로 교체하고 다시 학습을 돌렸습니다. 정확도가 눈에 띄게 올랐습니다. "와, 진짜 차이가 나네요!" 박시니어 씨가 웃으며 말했습니다. "그래서 요즘은 거의 LSTM이나 GRU만 써요. 기본 RNN은 교육용이라고 보면 돼요." **실전 팁** 💡 - 처음에는 GRU로 빠르게 실험하고, 성능이 부족하면 LSTM으로 전환해보세요 - dropout은 보통 0.2~0.5 사이 값을 사용합니다 - LSTM 레이어를 여러 개 쌓을 때는 중간 레이어에 return_sequences=True를 설정하세요 --- ## 4. 텍스트_데이터_전처리 LSTM으로 모델을 만들었지만, 김개발 씨는 아직 해결하지 못한 문제가 있었습니다. 실제 텍스트 데이터를 어떻게 숫자로 변환하는지, 그리고 길이가 다른 문장들은 어떻게 처리하는지 막막했습니다. "데이터 전처리가 절반이라더니, 정말 그런 것 같아요." 텍스트 데이터를 신경망에 입력하려면 여러 단계의 **전처리**가 필요합니다. 먼저 **토큰화(Tokenization)**로 문장을 단어 단위로 분리하고, 각 단어에 고유한 정수 인덱스를 부여합니다. 그 다음 **패딩(Padding)**으로 모든 시퀀스의 길이를 맞춥니다. 이 과정을 통해 다양한 길이의 텍스트를 일관된 형태의 숫자 배열로 변환할 수 있습니다. 다음 코드를 살펴봅시다. ```python from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences # 샘플 텍스트 데이터 texts = ["이 영화 정말 재미있어요", "최악의 영화였습니다", "감동적인 스토리"] # 토큰화: 단어를 정수 인덱스로 변환 tokenizer = Tokenizer(num_words=5000, oov_token=" ") tokenizer.fit_on_texts(texts) sequences = tokenizer.texts_to_sequences(texts) # 패딩: 모든 시퀀스를 같은 길이로 맞춤 padded = pad_sequences(sequences, maxlen=20, padding='post', truncating='post') print(f"단어 인덱스: {tokenizer.word_index}") print(f"패딩된 시퀀스 형태: {padded.shape}") ``` 김개발 씨는 데이터 전처리의 중요성을 절감하고 있었습니다. 아무리 좋은 모델을 만들어도 입력 데이터가 제대로 준비되지 않으면 소용없다는 것을 깨달았기 때문입니다. "선배님, 텍스트를 숫자로 어떻게 바꾸는 거예요?" 김개발 씨가 물었습니다. 박시니어 씨가 화이트보드에 그림을 그리기 시작했습니다. "일단 문장을 단어로 쪼개야 해요. 이걸 **토큰화**라고 해요." 토큰화는 마치 **문장을 레고 블록으로 분해하는 것**과 같습니다. "이 영화 정말 재미있어요"라는 문장은 "이", "영화", "정말", "재미있어요"라는 네 개의 토큰으로 분리됩니다. 다음으로 각 토큰에 **고유 번호**를 부여합니다. "이"는 1번, "영화"는 2번 하는 식입니다. 이것을 **정수 인코딩**이라고 합니다. 위 코드에서 **tokenizer.word_index**를 출력하면 단어와 번호의 매핑을 확인할 수 있습니다. **num_words=5000**은 가장 빈번한 5,000개의 단어만 사용하겠다는 의미입니다. 어휘 크기를 제한하면 모델이 가벼워지고 과적합 위험이 줄어듭니다. **oov_token**은 중요한 개념입니다. 학습 데이터에 없던 새로운 단어가 나타나면 어떻게 할까요? 그 단어를 **OOV(Out Of Vocabulary)**로 처리합니다. 이렇게 하면 모르는 단어가 나와도 에러가 발생하지 않습니다. 이제 패딩에 대해 알아봅시다. 신경망은 입력의 크기가 일정해야 합니다. 하지만 문장은 길이가 제각각입니다. 3단어짜리 문장도 있고, 50단어짜리 문장도 있습니다. **pad_sequences**는 모든 시퀀스를 동일한 길이로 맞춥니다. **maxlen=20**은 최대 길이를 20으로 설정합니다. 이보다 짧은 문장은 0으로 채워지고, 이보다 긴 문장은 잘립니다. **padding='post'**는 뒤쪽에 0을 채운다는 의미입니다. 'pre'로 설정하면 앞쪽에 채웁니다. RNN 계열에서는 보통 'post'를 사용합니다. 마지막 단어가 출력에 가까이 있어서 학습이 더 잘 됩니다. **truncating='post'**는 긴 문장을 뒤에서 자른다는 의미입니다. 문장의 앞부분이 더 중요한 경우가 많아서 이렇게 설정합니다. 김개발 씨가 코드를 실행해보았습니다. 문자열이었던 텍스트가 깔끔한 숫자 배열로 변환되었습니다. "오, 이제 이걸 모델에 넣으면 되는 거네요!" 박시니어 씨가 덧붙였습니다. "맞아요. 그리고 실무에서는 **띄어쓰기 기반 토큰화** 말고 **형태소 분석기**를 쓰는 경우도 많아요. 한국어는 조사가 붙어서 단어가 변하거든요." 데이터 전처리는 NLP의 기초 중의 기초입니다. 이 단계를 제대로 하지 않으면 아무리 좋은 모델도 제 성능을 발휘하지 못합니다. **실전 팁** 💡 - 한국어 텍스트는 KoNLPy 같은 형태소 분석기를 함께 사용하면 성능이 올라갑니다 - maxlen은 데이터의 길이 분포를 확인한 후 결정하세요 (보통 95% 커버리지) - 토크나이저는 저장해두었다가 추론 시에도 동일하게 사용해야 합니다 --- ## 5. 감성_분석_실습 이론과 전처리를 모두 배운 김개발 씨는 드디어 실전 프로젝트에 도전할 준비가 되었습니다. 팀장님이 주신 과제는 고객 리뷰를 분석하여 긍정인지 부정인지 자동으로 판별하는 시스템이었습니다. "드디어 내가 만든 모델이 실제로 쓰이게 되는구나!" **감성 분석(Sentiment Analysis)**은 텍스트에 담긴 감정이나 의견을 파악하는 NLP 과제입니다. 영화 리뷰가 긍정적인지 부정적인지, 고객 피드백이 만족인지 불만인지를 자동으로 분류합니다. LSTM을 활용하면 문장의 맥락을 파악하여 높은 정확도의 감성 분류기를 만들 수 있습니다. 다음 코드를 살펴봅시다. ```python from tensorflow.keras.datasets import imdb from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Embedding, LSTM, Dense # IMDB 데이터셋 로드 (영화 리뷰 감성 분석) vocab_size = 10000 (X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=vocab_size) # 패딩 적용 X_train = pad_sequences(X_train, maxlen=200) X_test = pad_sequences(X_test, maxlen=200) # 감성 분석 모델 구축 model = Sequential([ Embedding(vocab_size, 128, input_length=200), LSTM(64, dropout=0.2), Dense(1, activation='sigmoid') ]) model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) model.fit(X_train, y_train, epochs=3, batch_size=64, validation_split=0.2) ``` 김개발 씨는 노트북 앞에 앉아 본격적인 코딩을 시작했습니다. 이번에는 진짜 데이터로 진짜 모델을 만드는 것입니다. 가슴이 두근거렸습니다. **IMDB 데이터셋**은 NLP 입문자에게 가장 인기 있는 데이터셋 중 하나입니다. 5만 개의 영화 리뷰가 담겨 있고, 각 리뷰는 긍정(1) 또는 부정(0)으로 레이블링되어 있습니다. 마치 NLP계의 **MNIST**라고 할 수 있습니다. Keras에서는 이 데이터셋을 바로 불러올 수 있습니다. **num_words=10000**으로 설정하면 가장 빈번한 1만 개의 단어만 사용합니다. 나머지 단어는 OOV로 처리됩니다. 데이터를 불러온 후에는 패딩을 적용합니다. **maxlen=200**은 리뷰 길이를 최대 200단어로 제한합니다. 영화 리뷰는 보통 그리 길지 않아서 200이면 대부분 커버됩니다. 모델 구조를 살펴봅시다. **Embedding(vocab_size, 128)**은 1만 개의 단어를 각각 128차원 벡터로 표현합니다. 앞서 32차원을 사용했는데, 이번에는 데이터가 더 많으니 차원을 높였습니다. **LSTM(64, dropout=0.2)**는 64개의 유닛을 가진 LSTM 레이어입니다. dropout=0.2는 학습 중에 20%의 연결을 무작위로 끊어서 과적합을 방지합니다. 마지막 **Dense(1, activation='sigmoid')**는 확률값을 출력합니다. 0.5보다 크면 긍정, 작으면 부정으로 분류합니다. 김개발 씨가 학습을 시작했습니다. 에폭이 지나갈 때마다 손실이 줄어들고 정확도가 올라갔습니다. 3 에폭 후에 검증 정확도가 85%를 넘었습니다. "와, 85%나 나오다니!" 김개발 씨가 감탄했습니다. 박시니어 씨가 화면을 보며 말했습니다. "좋은 시작이에요. 하지만 실무에서는 여기서 더 개선해야 해요. 에폭을 더 늘리거나, 모델을 더 깊게 만들거나, 사전 훈련된 임베딩을 사용하거나..." 감성 분석은 다양한 분야에서 활용됩니다. 쇼핑몰에서는 상품 리뷰를 분석하여 품질 문제를 조기에 발견합니다. 소셜 미디어에서는 브랜드에 대한 여론을 모니터링합니다. 고객 서비스에서는 불만 고객을 우선 처리합니다. 김개발 씨는 학습된 모델로 새로운 리뷰를 예측해보았습니다. "이 영화 진짜 최고였어요 강추합니다"를 넣으니 0.92가 나왔습니다. 긍정이 맞네요! 하지만 "지루하지 않았어요"처럼 부정어가 포함된 긍정 문장에서는 정확도가 떨어졌습니다. 이런 복잡한 케이스를 처리하려면 더 발전된 기법이 필요합니다. **실전 팁** 💡 - validation_split으로 학습 중 과적합 여부를 모니터링하세요 - 정확도가 더 이상 오르지 않으면 조기 종료(Early Stopping)를 사용하세요 - Word2Vec이나 GloVe 같은 사전 훈련 임베딩을 사용하면 성능이 올라갑니다 --- ## 6. Bidirectional_RNN 감성 분석 모델을 완성한 김개발 씨는 성능을 더 높이고 싶어졌습니다. 박시니어 씨가 힌트를 주었습니다. "RNN이 앞에서 뒤로만 읽잖아요. 만약 뒤에서 앞으로도 읽으면 어떨까요?" 김개발 씨의 눈이 반짝였습니다. **Bidirectional RNN(양방향 RNN)**은 시퀀스를 앞에서 뒤로, 그리고 뒤에서 앞으로 두 번 처리합니다. 이렇게 하면 각 시점에서 과거와 미래의 문맥을 모두 활용할 수 있습니다. 특히 문장의 의미가 뒷부분에 의해 결정되는 경우에 효과적입니다. Keras에서는 **Bidirectional** 래퍼로 간단히 구현할 수 있습니다. 다음 코드를 살펴봅시다. ```python from tensorflow.keras.layers import Bidirectional, LSTM, Dense, Embedding # 양방향 LSTM 모델 model = Sequential([ Embedding(10000, 128, input_length=200), # 양방향 래퍼로 LSTM 감싸기 Bidirectional(LSTM(64, return_sequences=True)), Bidirectional(LSTM(32)), Dense(64, activation='relu'), Dense(1, activation='sigmoid') ]) model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) # 출력 차원은 LSTM의 2배 (순방향 + 역방향) model.summary() ``` 김개발 씨는 곰곰이 생각해보았습니다. "뒤에서 앞으로 읽는다고?" 처음에는 이상하게 느껴졌습니다. 하지만 예시를 생각해보니 이해가 되었습니다. "그 영화는 정말 지루하지 않았어요"라는 문장을 봅시다. 앞에서 순서대로 읽으면 "지루하"를 보고 부정적이라고 판단할 수 있습니다. 하지만 "않았어요"를 먼저 보면 부정이 뒤집힌다는 것을 알 수 있습니다. **양방향 RNN**은 이런 상황에서 빛을 발합니다. 마치 **책을 처음부터 끝까지 읽고, 다시 끝에서 처음으로 읽는 것**과 같습니다. 두 번 읽으면 이해가 더 깊어지는 것처럼, 양방향으로 처리하면 문맥 파악이 더 정확해집니다. 기술적으로 보면, 양방향 RNN은 **두 개의 RNN**을 사용합니다. 하나는 정방향(왼쪽에서 오른쪽)으로 처리하고, 다른 하나는 역방향(오른쪽에서 왼쪽)으로 처리합니다. 각 시점에서 두 RNN의 출력을 합칩니다. Keras에서는 **Bidirectional** 래퍼를 사용합니다. 사용법은 아주 간단합니다. 기존 LSTM 레이어를 Bidirectional()로 감싸기만 하면 됩니다. 한 가지 주의할 점은 **출력 차원이 2배**가 된다는 것입니다. LSTM(64)를 Bidirectional로 감싸면 출력 차원이 128이 됩니다. 순방향 64개와 역방향 64개가 합쳐지기 때문입니다. 위 코드에서는 양방향 LSTM을 두 개 쌓았습니다. 첫 번째 레이어는 **return_sequences=True**로 설정하여 모든 시점의 출력을 다음 레이어로 전달합니다. 두 번째 레이어는 마지막 출력만 반환합니다. **Dense(64, activation='relu')**는 RNN 출력을 한 번 더 처리하는 역할을 합니다. 이렇게 완전 연결층을 추가하면 더 복잡한 패턴을 학습할 수 있습니다. 양방향 RNN은 언제 유용할까요? **개체명 인식(NER)**에서는 단어의 앞뒤 문맥이 모두 중요합니다. "Apple은 맛있다"와 "Apple은 아이폰을 만든다"에서 Apple의 의미는 뒤에 오는 단어로 결정됩니다. **품사 태깅**에서도 마찬가지입니다. "그녀의 배가 고프다"와 "배를 타고 떠났다"에서 "배"의 품사는 문맥에 따라 달라집니다. 하지만 양방향 RNN을 사용할 수 없는 경우도 있습니다. **실시간 예측**이나 **언어 모델**에서는 미래 정보를 사용할 수 없습니다. 다음 단어를 예측해야 하는데 미래 단어를 이미 안다면 그건 반칙이니까요. 김개발 씨는 감성 분석 모델에 Bidirectional을 적용해보았습니다. 정확도가 약 2% 올랐습니다. "작은 변화가 이렇게 차이를 만드네요!" 박시니어 씨가 마무리했습니다. "요즘에는 BERT 같은 트랜스포머 모델이 대세지만, RNN 기반 모델도 여전히 많이 쓰여요. 특히 자원이 제한된 환경에서는요." **실전 팁** 💡 - 양방향 RNN은 배치 처리에서 특히 효과적입니다 (전체 시퀀스를 알고 있으므로) - 실시간 스트리밍 데이터에서는 단방향 RNN을 사용해야 합니다 - 양방향 LSTM을 여러 층 쌓으면 복잡한 문맥도 잘 잡아냅니다 --- 이상으로 학습을 마칩니다. 위 내용을 직접 코드로 작성해보면서 익혀보세요!

카테고리: AI,DeepLearning,NLP

언어: Python

태그: Python, RNN, LSTM, GRU, NLP, AI,DeepLearning,NLP

작성자: AI Generated

프리미엄 콘텐츠 - 3개월 무료 체험 가능

CodeDeck

RNN과 LSTM으로 시퀀스 처리 완벽 가이드

목차

1. 순환 신경망 RNN 개념

2. SimpleRNN 레이어

3. LSTM과 GRU 차이점

4. 텍스트 데이터 전처리

5. 감성 분석 실습

6. Bidirectional RNN

이 카드뉴스가 포함된 코스

TensorFlow 완전 정복

댓글 (0)

함께 보면 좋은 카드 뉴스

vLLM 통합 완벽 가이드

Web UI Demo 구축 완벽 가이드

Sandboxing & Execution Control 완벽 가이드

Voice Design then Clone 워크플로우 완벽 가이드

Tool Use 완벽 가이드 - Shell, Browser, DB 실전 활용