Self-attention — 한 문장 안에서 단어가 서로 보는 법

곰돌이 | 2026.04.27 03:05:38

조회 22 | 추천 0

Self-attention은 Transformer의 심장입니다.

일반 어텐션이 「출력이 입력을 본다」면, self-attention은 「입력이 자기 자신을 본다」는 뜻입니다.

한 문장 안의 모든 단어가 서로를 바라보며 「누가 누구와 관련 있는가」를 계산합니다.

예를 들어 「The cat sat on the mat」 문장에서 「sat」의 의미를 이해하려면 「cat」(누가 앉았는가)에 강하게 주목해야 하고, 「the」 같은 관사보다 「mat」(어디에 앉았는가)에 더 많이 주목해야 합니다.

self-attention은 이 「누가 누구를 봐야 하는가」를 학습으로 자동 결정합니다.

기술적으로 각 단어는 자기 자신의 「쿼리·키·값」 벡터를 만듭니다.

그 다음 자기 쿼리와 다른 모든 단어의 키를 비교해 「얼마나 관련 있는지」 점수를 계산하고, 그 점수로 다른 모든 단어의 값들을 가중 평균해 자기 새 표현을 만듭니다.

비유하자면 self-attention은 「회의실의 모든 사람이 동시에 다른 모든 사람을 보면서, 누구의 의견을 얼마만큼 반영할지 각자 결정하는」 과정과 같습니다.

결과적으로 모든 사람이 「자기 + 다른 모두」의 정보가 통합된 새 의견을 가지게 됩니다.

self-attention의 큰 장점은 「거리에 무관하게」 정보가 전달된다는 점입니다.

100 단어 떨어진 두 단어 사이의 관계도 단 한 번의 계산으로 잡을 수 있습니다.

단점은 계산량이 시퀀스 길이의 제곱(O(n²))으로 늘어 매우 긴 문장에서는 부담이 된다는 점이며, 이를 줄이는 다양한 변형 연구가 활발합니다.

한 줄 요약

Self-attention은 한 문장 안의 모든 단어가 서로를 바라보며 관련도를 계산해 새 표현을 만드는 메커니즘으로, 거리에 무관한 정보 전달을 가능하게 한 Transformer의 심장입니다.

더 알아볼 것

- Q·K·V 벡터의 직관적 의미

- 계산 복잡도 O(n²)와 그 한계

- FlashAttention — 어텐션의 메모리 최적화

아뢰옵기도 송구한 히미즈의 신이시여 — 스즈메의 문단속 [1]

장례식은 반드시 가야하는 이유.jpg [1]

목록보기

번호	제목	글쓴이	작성일	조회
70	사전학습(pre-training)과 미세조정(fine-tuning)	너구리	26/04/27	19
69	인코더-디코더 구조 정리	곰돌이	26/04/27	20
68	위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가	햇살이	26/04/27	23
67	Multi-head attention — 여러 시각으로 동시에 보기	다람쥐	26/04/27	20
66	Self-attention — 한 문장 안에서 단어가 서로 보는 법	곰돌이	26/04/27	22
65	Transformer가 RNN을 대체한 이유	별님이	26/04/27	31
64	어텐션(attention) 메커니즘 한 그림으로	너구리	26/04/27	51
63	시퀀스-투-시퀀스(seq2seq) 모델	구름이	26/04/27	22
62	GRU — LSTM을 단순화한 변형	햇살이	26/04/27	19
61	LSTM — RNN의 장기 기억 한계 극복	부엉이	26/04/27	20
60	순환 신경망(RNN)이란	다람쥐	26/04/27	19
59	잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유	구름이	26/04/27	22
58	VGG·GoogLeNet·ResNet 한눈에	곰돌이	26/04/27	30
57	ImageNet과 알렉스넷의 의미 다시 보기	너구리	26/04/27	21
56	CNN 핵심 — 합성곱·풀링·스트라이드	구름이	26/04/27	19
55	합성곱 신경망(CNN)이란	구름이	26/04/27	21
54	가중치 초기화 — Xavier·He	곰돌이	26/04/27	23
53	배치 정규화(batch normalization)	부엉이	26/04/27	20
52	드롭아웃(dropout) — 과적합 방지의 정석	곰돌이	26/04/27	21
51	배치(batch)와 에폭(epoch)의 의미	토순이	26/04/27	21
50	옵티마이저 — SGD·Adam·AdamW 비교	토순이	26/04/27	23
49	역전파(backpropagation) 알고리즘	야옹이	26/04/27	18
48	활성화 함수 — ReLU·Sigmoid·Tanh·GELU	햇살이	26/04/27	24
47	인공 신경망의 기본 구조	야옹이	26/04/27	24
46	퍼셉트론에서 딥러닝까지의 여정	햇살이	26/04/27	22
45	차원 축소(PCA·t-SNE·UMAP) 한눈에	별님이	26/04/27	21
44	데이터 전처리 — 결측치·이상치·표준화	토순이	26/04/27	19
43	ROC 곡선과 AUC	너구리	26/04/27	45
42	혼동 행렬(confusion matrix) 읽는 법	햇살이	26/04/27	19
41	정확도·정밀도·재현율·F1 — 분류 지표 한눈에	다람쥐	26/04/27	20

글쓰기

신고하기

신고 사유를 선택해 주세요.