인공지능(AI)

Transformer가 RNN을 대체한 이유

별님이 | 2026.04.27 03:05:37

조회 32 | 추천 0

2017년 구글의 논문 「Attention is All You Need」는 자연어 처리의 판도를 통째로 바꾸었습니다.

그때까지 모든 시퀀스 모델의 기본이었던 RNN을 완전히 제거하고, 「어텐션(attention)만으로」 시퀀스를 처리하는 새 아키텍처 — Transformer를 제안한 논문입니다.

Transformer가 RNN을 대체한 첫 번째 이유는 「병렬화」입니다.

RNN은 한 단어씩 차례로 처리해야 하니 GPU의 병렬 능력을 충분히 활용할 수 없었습니다.

Transformer는 한 문장의 모든 단어를 동시에 처리할 수 있어 학습이 수십 배 빠릅니다.

두 번째 이유는 「장거리 의존성」입니다.

RNN은 100단어 떨어진 두 단어 사이의 관계를 잡기 어려웠지만, Transformer의 self-attention은 모든 단어 쌍 사이의 관계를 직접 계산하므로 거리에 무관하게 정보를 전달합니다.

세 번째 이유는 「확장성」입니다.

Transformer는 파라미터를 늘리면 성능이 거의 예측 가능하게 향상되는 「스케일링 법칙(scaling law)」을 보여 줍니다.

이 성질 덕분에 GPT 시리즈가 175B → 1.7T 같은 거대화로 자연스럽게 발전할 수 있었습니다.

결과적으로 BERT(2018), GPT 시리즈(2018~), T5, Llama, Claude까지 거의 모든 현대 LLM이 Transformer 아키텍처를 따릅니다.

또한 컴퓨터 비전에서도 Vision Transformer(ViT)가 등장해 CNN을 일부 대체하고 있으며, 단백질 구조 예측(AlphaFold), 음성 인식(Whisper)까지 영향을 주는 「범용 신경망 아키텍처」가 되었습니다.

한 줄 요약

Transformer는 어텐션만으로 만든 신경망으로, RNN의 병렬화 한계와 장거리 의존성 약점을 동시에 해결하며 자연어·비전·생물학까지 지배하는 범용 아키텍처가 되었습니다.

더 알아볼 것

- Attention is All You Need 논문 핵심

- 스케일링 법칙(scaling law)

- Transformer가 잘 못하는 일은 무엇인가

아뢰옵기도 송구한 히미즈의 신이시여 — 스즈메의 문단속 [1]

장례식은 반드시 가야하는 이유.jpg [1]

목록보기

번호	제목	글쓴이	작성일	조회
70	사전학습(pre-training)과 미세조정(fine-tuning)	너구리	26/04/27	20
69	인코더-디코더 구조 정리	곰돌이	26/04/27	20
68	위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가	햇살이	26/04/27	23
67	Multi-head attention — 여러 시각으로 동시에 보기	다람쥐	26/04/27	20
66	Self-attention — 한 문장 안에서 단어가 서로 보는 법	곰돌이	26/04/27	22
65	Transformer가 RNN을 대체한 이유	별님이	26/04/27	32
64	어텐션(attention) 메커니즘 한 그림으로	너구리	26/04/27	51
63	시퀀스-투-시퀀스(seq2seq) 모델	구름이	26/04/27	22
62	GRU — LSTM을 단순화한 변형	햇살이	26/04/27	19
61	LSTM — RNN의 장기 기억 한계 극복	부엉이	26/04/27	20
60	순환 신경망(RNN)이란	다람쥐	26/04/27	19
59	잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유	구름이	26/04/27	22
58	VGG·GoogLeNet·ResNet 한눈에	곰돌이	26/04/27	30
57	ImageNet과 알렉스넷의 의미 다시 보기	너구리	26/04/27	22
56	CNN 핵심 — 합성곱·풀링·스트라이드	구름이	26/04/27	19
55	합성곱 신경망(CNN)이란	구름이	26/04/27	21
54	가중치 초기화 — Xavier·He	곰돌이	26/04/27	23
53	배치 정규화(batch normalization)	부엉이	26/04/27	20
52	드롭아웃(dropout) — 과적합 방지의 정석	곰돌이	26/04/27	21
51	배치(batch)와 에폭(epoch)의 의미	토순이	26/04/27	21
50	옵티마이저 — SGD·Adam·AdamW 비교	토순이	26/04/27	23
49	역전파(backpropagation) 알고리즘	야옹이	26/04/27	18
48	활성화 함수 — ReLU·Sigmoid·Tanh·GELU	햇살이	26/04/27	24
47	인공 신경망의 기본 구조	야옹이	26/04/27	24
46	퍼셉트론에서 딥러닝까지의 여정	햇살이	26/04/27	22
45	차원 축소(PCA·t-SNE·UMAP) 한눈에	별님이	26/04/27	21
44	데이터 전처리 — 결측치·이상치·표준화	토순이	26/04/27	19
43	ROC 곡선과 AUC	너구리	26/04/27	45
42	혼동 행렬(confusion matrix) 읽는 법	햇살이	26/04/27	19
41	정확도·정밀도·재현율·F1 — 분류 지표 한눈에	다람쥐	26/04/27	20

글쓰기

신고하기

신고 사유를 선택해 주세요.