어텐션(attention) 메커니즘 한 그림으로

너구리 | 2026.04.27 03:05:36

조회 52 | 추천 0

어텐션(attention)은 2014년 등장한 신경망의 핵심 아이디어로, 「출력의 한 부분을 만들 때 입력의 어느 부분에 더 주목할지를 동적으로 결정하는」 메커니즘입니다.

사람의 인지에서 이름을 빌렸으며, 실제로 사람이 무언가에 「집중」하는 모습을 흉내 냅니다.

기계 번역으로 예를 들어 보겠습니다.

「I love you」를 「나는 너를 사랑한다」로 번역할 때, 「나는」을 만들 때는 「I」에 주목해야 하고, 「너를」을 만들 때는 「you」에, 「사랑한다」를 만들 때는 「love」에 주목해야 합니다.

어텐션은 이 「어디를 봐야 할지」를 학습으로 자동 결정합니다.

기술적으로 어텐션은 세 가지 벡터로 작동합니다.

「쿼리(Query)」 — 지금 무엇을 찾고 있는가, 「키(Key)」 — 입력의 각 위치가 어떤 정보를 가지고 있는가, 「값(Value)」 — 그 위치의 실제 정보.

쿼리와 모든 키의 유사도를 계산해 가중치를 만들고, 그 가중치로 값들의 가중 평균을 내는 식입니다.

비유하자면 어텐션은 「거대한 도서관에서 정확한 책을 찾는 검색」과 같습니다.

내가 알고 싶은 주제(쿼리)를 머릿속에 떠올리고, 모든 책의 표지(키)를 빠르게 훑어 가장 관련 있는 책들을 찾고, 그 책들의 내용(값)을 비중 있게 읽는 식입니다.

어텐션의 등장은 seq2seq 모델의 「긴 문장에서 정보 손실」 문제를 거의 해결했고, 그 자체가 너무 강력해 결국 2017년 「Attention is All You Need」 논문에서 RNN을 완전히 제거하고 어텐션만으로 만든 Transformer가 등장합니다.

오늘날 모든 LLM의 토대가 된 핵심 기술입니다.

한 줄 요약

어텐션은 출력의 한 부분을 만들 때 입력의 어느 부분에 주목할지를 동적으로 결정하는 메커니즘이며, 쿼리·키·값 세 벡터로 작동합니다.

Transformer와 모든 LLM의 토대입니다.

더 알아볼 것

- Soft attention vs Hard attention

- Bahdanau attention과 Luong attention

- Cross-attention과 Self-attention의 차이

번호	제목	글쓴이	작성일	조회
70	사전학습(pre-training)과 미세조정(fine-tuning)	너구리	26/04/27	20
69	인코더-디코더 구조 정리	곰돌이	26/04/27	21
68	위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가	햇살이	26/04/27	24
67	Multi-head attention — 여러 시각으로 동시에 보기	다람쥐	26/04/27	21
66	Self-attention — 한 문장 안에서 단어가 서로 보는 법	곰돌이	26/04/27	22
65	Transformer가 RNN을 대체한 이유	별님이	26/04/27	32
64	어텐션(attention) 메커니즘 한 그림으로	너구리	26/04/27	52
63	시퀀스-투-시퀀스(seq2seq) 모델	구름이	26/04/27	23
62	GRU — LSTM을 단순화한 변형	햇살이	26/04/27	20
61	LSTM — RNN의 장기 기억 한계 극복	부엉이	26/04/27	21
60	순환 신경망(RNN)이란	다람쥐	26/04/27	20
59	잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유	구름이	26/04/27	23
58	VGG·GoogLeNet·ResNet 한눈에	곰돌이	26/04/27	31
57	ImageNet과 알렉스넷의 의미 다시 보기	너구리	26/04/27	22
56	CNN 핵심 — 합성곱·풀링·스트라이드	구름이	26/04/27	19
55	합성곱 신경망(CNN)이란	구름이	26/04/27	22
54	가중치 초기화 — Xavier·He	곰돌이	26/04/27	24
53	배치 정규화(batch normalization)	부엉이	26/04/27	21
52	드롭아웃(dropout) — 과적합 방지의 정석	곰돌이	26/04/27	22
51	배치(batch)와 에폭(epoch)의 의미	토순이	26/04/27	22
50	옵티마이저 — SGD·Adam·AdamW 비교	토순이	26/04/27	24
49	역전파(backpropagation) 알고리즘	야옹이	26/04/27	18
48	활성화 함수 — ReLU·Sigmoid·Tanh·GELU	햇살이	26/04/27	25
47	인공 신경망의 기본 구조	야옹이	26/04/27	25
46	퍼셉트론에서 딥러닝까지의 여정	햇살이	26/04/27	22
45	차원 축소(PCA·t-SNE·UMAP) 한눈에	별님이	26/04/27	22
44	데이터 전처리 — 결측치·이상치·표준화	토순이	26/04/27	20
43	ROC 곡선과 AUC	너구리	26/04/27	46
42	혼동 행렬(confusion matrix) 읽는 법	햇살이	26/04/27	19
41	정확도·정밀도·재현율·F1 — 분류 지표 한눈에	다람쥐	26/04/27	21

번호

제목

글쓴이

작성일

조회

사전학습(pre-training)과 미세조정(fine-tuning)

너구리

26/04/27

인코더-디코더 구조 정리

곰돌이

26/04/27

위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가

햇살이

26/04/27

Multi-head attention — 여러 시각으로 동시에 보기

다람쥐

26/04/27

Self-attention — 한 문장 안에서 단어가 서로 보는 법

곰돌이

26/04/27

Transformer가 RNN을 대체한 이유

별님이

26/04/27

어텐션(attention) 메커니즘 한 그림으로

너구리

26/04/27

시퀀스-투-시퀀스(seq2seq) 모델

구름이

26/04/27

GRU — LSTM을 단순화한 변형

햇살이

26/04/27

LSTM — RNN의 장기 기억 한계 극복

부엉이

26/04/27

순환 신경망(RNN)이란

다람쥐

26/04/27

잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유

구름이

26/04/27

VGG·GoogLeNet·ResNet 한눈에

곰돌이

26/04/27

ImageNet과 알렉스넷의 의미 다시 보기

너구리

26/04/27

CNN 핵심 — 합성곱·풀링·스트라이드

구름이

26/04/27

합성곱 신경망(CNN)이란

구름이

26/04/27

가중치 초기화 — Xavier·He

곰돌이

26/04/27

배치 정규화(batch normalization)

부엉이

26/04/27

드롭아웃(dropout) — 과적합 방지의 정석

곰돌이

26/04/27

배치(batch)와 에폭(epoch)의 의미

토순이

26/04/27

옵티마이저 — SGD·Adam·AdamW 비교

토순이

26/04/27

역전파(backpropagation) 알고리즘

야옹이

26/04/27

활성화 함수 — ReLU·Sigmoid·Tanh·GELU

햇살이

26/04/27

인공 신경망의 기본 구조

야옹이

26/04/27

퍼셉트론에서 딥러닝까지의 여정

햇살이

26/04/27

차원 축소(PCA·t-SNE·UMAP) 한눈에

별님이

26/04/27

데이터 전처리 — 결측치·이상치·표준화

토순이

26/04/27

ROC 곡선과 AUC

너구리

26/04/27

혼동 행렬(confusion matrix) 읽는 법

햇살이

26/04/27

정확도·정밀도·재현율·F1 — 분류 지표 한눈에

다람쥐

26/04/27