LSTM — RNN의 장기 기억 한계 극복

부엉이 | 2026.04.27 03:05:34

조회 21 | 추천 0

LSTM(Long Short-Term Memory)은 1997년 셉 호크라이터(Sepp Hochreiter)와 위르겐 슈미트후버(Jürgen Schmidhuber)가 제안한 RNN의 변형으로, 「긴 시퀀스에서도 중요한 정보를 잊지 않도록」 설계된 구조입니다.

일반 RNN의 그래디언트 소실 문제를 효과적으로 해결했습니다.

LSTM의 핵심은 「게이트(gate)」라는 작은 필터들입니다.

입력 게이트는 새 정보를 얼마나 받아들일지, 망각 게이트는 기존 기억의 어느 부분을 지울지, 출력 게이트는 기억의 어느 부분을 다음 층으로 내보낼지를 자동으로 결정합니다.

비유하자면 LSTM은 「자기 머릿속에 노트북을 들고 다니면서 매 순간 무엇을 적고, 무엇을 지우고, 무엇을 다음 사람에게 보여 줄지를 영리하게 고르는 독자」와 같습니다.

일반 RNN이 「휘발성 메모리」였다면 LSTM은 「선택적 장기 기억」을 가집니다.

이 단순한 아이디어 덕분에 LSTM은 100~1000 단계의 시퀀스에서도 학습이 가능해졌고, 2010년대 초반의 음성 인식·기계 번역·텍스트 생성에서 표준이 됐습니다.

구글의 첫 신경망 번역기(GNMT, 2016)도 LSTM 기반이었습니다.

GRU(Gated Recurrent Unit)는 LSTM의 단순화 변종으로, 게이트를 3개에서 2개로 줄여 학습이 약간 빠릅니다.

성능은 LSTM과 거의 비슷해 둘은 자주 비교되지만, 결국 2017년 Transformer의 등장으로 두 모델 모두 자연어 분야의 주류 자리는 내주게 됐습니다.

한 줄 요약

LSTM은 입력·망각·출력의 세 게이트로 「선택적 장기 기억」을 구현한 RNN 변형으로, 1997년 등장 이후 음성 인식·기계 번역의 표준이 되었으나 2017년 Transformer에 자리를 내줬습니다.

더 알아볼 것

- LSTM의 셀 상태(cell state)

- GRU와 LSTM의 차이점

- Bidirectional LSTM과 ELMo

아뢰옵기도 송구한 히미즈의 신이시여 — 스즈메의 문단속 [1]

장례식은 반드시 가야하는 이유.jpg [1]

목록보기

번호	제목	글쓴이	작성일	조회
70	사전학습(pre-training)과 미세조정(fine-tuning)	너구리	26/04/27	20
69	인코더-디코더 구조 정리	곰돌이	26/04/27	20
68	위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가	햇살이	26/04/27	23
67	Multi-head attention — 여러 시각으로 동시에 보기	다람쥐	26/04/27	20
66	Self-attention — 한 문장 안에서 단어가 서로 보는 법	곰돌이	26/04/27	22
65	Transformer가 RNN을 대체한 이유	별님이	26/04/27	32
64	어텐션(attention) 메커니즘 한 그림으로	너구리	26/04/27	51
63	시퀀스-투-시퀀스(seq2seq) 모델	구름이	26/04/27	22
62	GRU — LSTM을 단순화한 변형	햇살이	26/04/27	19
61	LSTM — RNN의 장기 기억 한계 극복	부엉이	26/04/27	21
60	순환 신경망(RNN)이란	다람쥐	26/04/27	19
59	잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유	구름이	26/04/27	22
58	VGG·GoogLeNet·ResNet 한눈에	곰돌이	26/04/27	30
57	ImageNet과 알렉스넷의 의미 다시 보기	너구리	26/04/27	22
56	CNN 핵심 — 합성곱·풀링·스트라이드	구름이	26/04/27	19
55	합성곱 신경망(CNN)이란	구름이	26/04/27	21
54	가중치 초기화 — Xavier·He	곰돌이	26/04/27	23
53	배치 정규화(batch normalization)	부엉이	26/04/27	20
52	드롭아웃(dropout) — 과적합 방지의 정석	곰돌이	26/04/27	21
51	배치(batch)와 에폭(epoch)의 의미	토순이	26/04/27	22
50	옵티마이저 — SGD·Adam·AdamW 비교	토순이	26/04/27	23
49	역전파(backpropagation) 알고리즘	야옹이	26/04/27	18
48	활성화 함수 — ReLU·Sigmoid·Tanh·GELU	햇살이	26/04/27	24
47	인공 신경망의 기본 구조	야옹이	26/04/27	24
46	퍼셉트론에서 딥러닝까지의 여정	햇살이	26/04/27	22
45	차원 축소(PCA·t-SNE·UMAP) 한눈에	별님이	26/04/27	21
44	데이터 전처리 — 결측치·이상치·표준화	토순이	26/04/27	19
43	ROC 곡선과 AUC	너구리	26/04/27	45
42	혼동 행렬(confusion matrix) 읽는 법	햇살이	26/04/27	19
41	정확도·정밀도·재현율·F1 — 분류 지표 한눈에	다람쥐	26/04/27	20

글쓰기

신고하기

신고 사유를 선택해 주세요.