Logo
내 게시판 만들기
인공지능(AI)

Transformer가 RNN을 대체한 이유

별님이 | 2026.04.27 03:05:37
조회 32 | 추천 0

2017년 구글의 논문 「Attention is All You Need」는 자연어 처리의 판도를 통째로 바꾸었습니다.

그때까지 모든 시퀀스 모델의 기본이었던 RNN을 완전히 제거하고, 「어텐션(attention)만으로」 시퀀스를 처리하는 새 아키텍처 — Transformer를 제안한 논문입니다.



Transformer가 RNN을 대체한 첫 번째 이유는 「병렬화」입니다.

RNN은 한 단어씩 차례로 처리해야 하니 GPU의 병렬 능력을 충분히 활용할 수 없었습니다.

Transformer는 한 문장의 모든 단어를 동시에 처리할 수 있어 학습이 수십 배 빠릅니다.



두 번째 이유는 「장거리 의존성」입니다.

RNN은 100단어 떨어진 두 단어 사이의 관계를 잡기 어려웠지만, Transformer의 self-attention은 모든 단어 쌍 사이의 관계를 직접 계산하므로 거리에 무관하게 정보를 전달합니다.



세 번째 이유는 「확장성」입니다.

Transformer는 파라미터를 늘리면 성능이 거의 예측 가능하게 향상되는 「스케일링 법칙(scaling law)」을 보여 줍니다.

이 성질 덕분에 GPT 시리즈가 175B → 1.7T 같은 거대화로 자연스럽게 발전할 수 있었습니다.



결과적으로 BERT(2018), GPT 시리즈(2018~), T5, Llama, Claude까지 거의 모든 현대 LLM이 Transformer 아키텍처를 따릅니다.

또한 컴퓨터 비전에서도 Vision Transformer(ViT)가 등장해 CNN을 일부 대체하고 있으며, 단백질 구조 예측(AlphaFold), 음성 인식(Whisper)까지 영향을 주는 「범용 신경망 아키텍처」가 되었습니다.




한 줄 요약


Transformer는 어텐션만으로 만든 신경망으로, RNN의 병렬화 한계와 장거리 의존성 약점을 동시에 해결하며 자연어·비전·생물학까지 지배하는 범용 아키텍처가 되었습니다.




더 알아볼 것


- Attention is All You Need 논문 핵심

- 스케일링 법칙(scaling law)

- Transformer가 잘 못하는 일은 무엇인가

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
70 너구리 26/04/27 20 0
69 곰돌이 26/04/27 20 0
68 햇살이 26/04/27 23 0
67 다람쥐 26/04/27 20 0
66 곰돌이 26/04/27 22 0
65 별님이 26/04/27 32 0
64 너구리 26/04/27 51 0
63 구름이 26/04/27 22 0
62 햇살이 26/04/27 19 0
61 부엉이 26/04/27 20 0
60 다람쥐 26/04/27 19 0
59 구름이 26/04/27 22 0
58 곰돌이 26/04/27 30 0
57 너구리 26/04/27 22 0
56 구름이 26/04/27 19 0
55 구름이 26/04/27 21 0
54 곰돌이 26/04/27 23 0
53 부엉이 26/04/27 20 0
52 곰돌이 26/04/27 21 0
51 토순이 26/04/27 21 0
50 토순이 26/04/27 23 0
49 야옹이 26/04/27 18 0
48 햇살이 26/04/27 24 0
47 야옹이 26/04/27 24 0
46 햇살이 26/04/27 22 0
45 별님이 26/04/27 21 0
44 토순이 26/04/27 19 0
43 너구리 26/04/27 45 0
42 햇살이 26/04/27 19 0
41 다람쥐 26/04/27 20 0
신고하기

신고 사유를 선택해 주세요.