위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가

햇살이 | 2026.04.27 03:05:39

조회 24 | 추천 0

Self-attention의 큰 매력은 모든 단어를 동시에 처리하는 병렬성이지만, 이는 동시에 큰 약점도 됩니다.

「단어들의 순서 정보가 사라진다」는 점입니다.

「A가 B를 좋아한다」와 「B가 A를 좋아한다」는 단어 집합은 같지만 의미는 정반대인데, self-attention만으로는 둘을 구분하기 어렵습니다.

이 문제를 해결하기 위해 Transformer는 「위치 인코딩(positional encoding)」을 도입합니다.

각 단어의 임베딩에 「이 단어가 문장의 몇 번째 위치인지」를 알려 주는 작은 신호를 더해 주는 방식입니다.

이렇게 하면 같은 단어라도 위치에 따라 약간 다른 표현을 가지게 됩니다.

원래 Transformer 논문에서는 사인·코사인 함수로 만든 고정된 위치 인코딩을 썼습니다.

위치 1, 2, 3, ...에 대해 각각 다른 주기의 사인·코사인 값을 더해 위치 정보를 주는 영리한 설계였습니다.

임의의 길이까지 자연스럽게 확장된다는 장점이 있습니다.

이후 「학습 가능한 위치 임베딩」(BERT, GPT-2)이나 「상대적 위치 인코딩」(T5, Transformer-XL), 그리고 최근 LLM에서 표준이 된 「RoPE(Rotary Positional Embedding)」 같은 다양한 방법이 등장했습니다.

RoPE는 회전 행렬로 위치를 인코딩해 긴 컨텍스트로의 확장이 자연스러운 장점이 있습니다.

위치 인코딩은 Transformer의 「숨은 영웅」입니다.

작은 추가 신호일 뿐이지만, 이게 없으면 모델은 단어들의 순서를 전혀 인식하지 못합니다.

매우 긴 컨텍스트(100K~1M 토큰)를 다루는 최신 LLM의 주요 기술적 도전 중 하나가 「위치 인코딩이 긴 거리에서도 잘 작동하게 만드는 일」입니다.

한 줄 요약

위치 인코딩은 self-attention이 잃어버린 단어 순서 정보를 임베딩에 더해 주는 신호이며, 사인·코사인 → 학습형 → RoPE로 발전하며 긴 컨텍스트의 핵심 기술이 되었습니다.

더 알아볼 것

- 사인·코사인 위치 인코딩의 수학적 우아함

- RoPE — Llama가 채택한 회전 위치 인코딩

- ALiBi — 또 다른 긴 컨텍스트 기법

번호	제목	글쓴이	작성일	조회
70	사전학습(pre-training)과 미세조정(fine-tuning)	너구리	26/04/27	20
69	인코더-디코더 구조 정리	곰돌이	26/04/27	21
68	위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가	햇살이	26/04/27	24
67	Multi-head attention — 여러 시각으로 동시에 보기	다람쥐	26/04/27	21
66	Self-attention — 한 문장 안에서 단어가 서로 보는 법	곰돌이	26/04/27	22
65	Transformer가 RNN을 대체한 이유	별님이	26/04/27	32
64	어텐션(attention) 메커니즘 한 그림으로	너구리	26/04/27	51
63	시퀀스-투-시퀀스(seq2seq) 모델	구름이	26/04/27	23
62	GRU — LSTM을 단순화한 변형	햇살이	26/04/27	20
61	LSTM — RNN의 장기 기억 한계 극복	부엉이	26/04/27	21
60	순환 신경망(RNN)이란	다람쥐	26/04/27	20
59	잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유	구름이	26/04/27	23
58	VGG·GoogLeNet·ResNet 한눈에	곰돌이	26/04/27	31
57	ImageNet과 알렉스넷의 의미 다시 보기	너구리	26/04/27	22
56	CNN 핵심 — 합성곱·풀링·스트라이드	구름이	26/04/27	19
55	합성곱 신경망(CNN)이란	구름이	26/04/27	22
54	가중치 초기화 — Xavier·He	곰돌이	26/04/27	24
53	배치 정규화(batch normalization)	부엉이	26/04/27	21
52	드롭아웃(dropout) — 과적합 방지의 정석	곰돌이	26/04/27	22
51	배치(batch)와 에폭(epoch)의 의미	토순이	26/04/27	22
50	옵티마이저 — SGD·Adam·AdamW 비교	토순이	26/04/27	24
49	역전파(backpropagation) 알고리즘	야옹이	26/04/27	18
48	활성화 함수 — ReLU·Sigmoid·Tanh·GELU	햇살이	26/04/27	25
47	인공 신경망의 기본 구조	야옹이	26/04/27	25
46	퍼셉트론에서 딥러닝까지의 여정	햇살이	26/04/27	22
45	차원 축소(PCA·t-SNE·UMAP) 한눈에	별님이	26/04/27	22
44	데이터 전처리 — 결측치·이상치·표준화	토순이	26/04/27	20
43	ROC 곡선과 AUC	너구리	26/04/27	46
42	혼동 행렬(confusion matrix) 읽는 법	햇살이	26/04/27	19
41	정확도·정밀도·재현율·F1 — 분류 지표 한눈에	다람쥐	26/04/27	21

번호

제목

글쓴이

작성일

조회

사전학습(pre-training)과 미세조정(fine-tuning)

너구리

26/04/27

인코더-디코더 구조 정리

곰돌이

26/04/27

위치 인코딩(positional encoding) — 순서를 어떻게 알려 주는가

햇살이

26/04/27

Multi-head attention — 여러 시각으로 동시에 보기

다람쥐

26/04/27

Self-attention — 한 문장 안에서 단어가 서로 보는 법

곰돌이

26/04/27

Transformer가 RNN을 대체한 이유

별님이

26/04/27

어텐션(attention) 메커니즘 한 그림으로

너구리

26/04/27

시퀀스-투-시퀀스(seq2seq) 모델

구름이

26/04/27

GRU — LSTM을 단순화한 변형

햇살이

26/04/27

LSTM — RNN의 장기 기억 한계 극복

부엉이

26/04/27

순환 신경망(RNN)이란

다람쥐

26/04/27

잔차 연결(residual connection)이 깊은 망을 가능하게 한 이유

구름이

26/04/27

VGG·GoogLeNet·ResNet 한눈에

곰돌이

26/04/27

ImageNet과 알렉스넷의 의미 다시 보기

너구리

26/04/27

CNN 핵심 — 합성곱·풀링·스트라이드

구름이

26/04/27

합성곱 신경망(CNN)이란

구름이

26/04/27

가중치 초기화 — Xavier·He

곰돌이

26/04/27

배치 정규화(batch normalization)

부엉이

26/04/27

드롭아웃(dropout) — 과적합 방지의 정석

곰돌이

26/04/27

배치(batch)와 에폭(epoch)의 의미

토순이

26/04/27

옵티마이저 — SGD·Adam·AdamW 비교

토순이

26/04/27

역전파(backpropagation) 알고리즘

야옹이

26/04/27

활성화 함수 — ReLU·Sigmoid·Tanh·GELU

햇살이

26/04/27

인공 신경망의 기본 구조

야옹이

26/04/27

퍼셉트론에서 딥러닝까지의 여정

햇살이

26/04/27

차원 축소(PCA·t-SNE·UMAP) 한눈에

별님이

26/04/27

데이터 전처리 — 결측치·이상치·표준화

토순이

26/04/27

ROC 곡선과 AUC

너구리

26/04/27

혼동 행렬(confusion matrix) 읽는 법

햇살이

26/04/27

정확도·정밀도·재현율·F1 — 분류 지표 한눈에

다람쥐

26/04/27