토크나이저(tokenizer) — BPE·WordPiece·SentencePiece

햇살이 | 2026.04.27 03:05:44

조회 30 | 추천 0

LLM이 텍스트를 처리하기 전에 반드시 거치는 첫 단계가 「토크나이저(tokenizer)」입니다.

토크나이저는 「긴 문장을 모델이 다룰 수 있는 작은 단위(토큰)로 쪼개는 도구」입니다.

토큰은 단어 하나일 수도, 단어 조각일 수도, 한 글자일 수도 있습니다.

가장 단순한 「공백 단위 토크나이저」는 단어마다 잘라 토큰으로 만듭니다.

그러나 이 방식은 「unhappiness」 같은 긴 단어를 한 토큰으로 처리해야 하고, 모델이 본 적 없는 단어가 나오면 처리할 수 없는 문제가 있습니다.

현대 LLM이 쓰는 표준은 「서브워드(subword) 토크나이저」 — 단어를 더 작은 의미 단위로 나누는 방식입니다.

「unhappiness」는 「un-」, 「happi」, 「ness」 같은 조각으로 나뉘어 처리됩니다.

한 번도 본 적 없는 단어도 알려진 조각의 조합으로 표현할 수 있어 강력합니다.

대표적인 세 가지 알고리즘이 있습니다.

첫째, BPE(Byte-Pair Encoding) — GPT가 사용.

자주 함께 등장하는 글자 쌍을 반복해 합쳐 가는 방식입니다.

둘째, WordPiece — BERT가 사용.

BPE와 비슷하지만 가능도 기준으로 합칩니다.

셋째, SentencePiece — Llama·T5가 사용.

공백을 특수 토큰으로 다루어 모든 언어에 균등하게 적용됩니다.

한국어처럼 형태소가 풍부한 언어는 토크나이저의 선택이 특히 중요합니다.

「먹었습니다」를 「먹/었/습니다」로 잘 나눠야 모델이 시제·존댓말 정보를 효율적으로 학습할 수 있습니다.

잘못 나누면 같은 어근의 단어들이 따로 학습되어 효율이 크게 떨어집니다.

한 줄 요약

토크나이저는 텍스트를 모델이 다룰 토큰으로 쪼개는 도구이며, 현대 LLM은 BPE·WordPiece·SentencePiece 같은 서브워드 방식으로 「본 적 없는 단어」도 처리할 수 있게 합니다.

더 알아볼 것

- GPT-4의 토크나이저(o200k_base)

- 한국어 토크나이저의 특수성

- Tokenization을 잘못해서 일어나는 LLM 실수들

번호	제목	글쓴이	작성일	조회
100	SAM — Meta의 「무엇이든 분할」 모델	구름이	26/04/27	20
99	Whisper — OpenAI의 음성 인식 모델	다람쥐	26/04/27	20
98	Vision Transformer(ViT) — 이미지에 트랜스포머를	곰돌이	26/04/27	19
97	CLIP — 이미지와 텍스트의 다리	구름이	26/04/27	20
96	RoBERTa·ALBERT·DistilBERT 한눈에	구름이	26/04/27	17
95	BART — 노이즈 제거식 사전학습	구름이	26/04/27	17
94	T5 — 모든 NLP 작업을 텍스트→텍스트로	구름이	26/04/27	18
93	GPT 시리즈의 진화 — 1에서 4까지	부엉이	26/04/27	19
92	BERT — 양방향 언어 이해의 정석	별님이	26/04/27	17
91	Midjourney의 강점	부엉이	26/04/27	18
90	DALL-E 시리즈의 발전	다람쥐	26/04/27	18
89	Stable Diffusion이 이미지를 만드는 과정	너구리	26/04/27	21
88	Diffusion 모델의 원리	구름이	26/04/27	18
87	CycleGAN — 짝 없는 이미지 변환	구름이	26/04/27	17
86	StyleGAN — 가짜 얼굴을 진짜처럼	멍뭉이	26/04/27	22
85	GAN — 두 신경망의 대결	너구리	26/04/27	28
84	Mask R-CNN — 객체와 그 모양까지	햇살이	26/04/27	30
83	YOLO — 한 번 보고 객체를 다 찾는다	구름이	26/04/27	18
82	U-Net — 의료 영상에 강한 이유	부엉이	26/04/27	19
81	EfficientNet — 자원 효율의 정석	다람쥐	26/04/27	19
80	DenseNet — 모든 레이어가 모두를 본다	별님이	26/04/27	23
79	ResNet — 잔차 연결의 위력	구름이	26/04/27	19
78	GoogLeNet과 인셉션 모듈	야옹이	26/04/27	21
77	VGGNet — 단순함의 미덕	별님이	26/04/27	19
76	AlexNet — 딥러닝 르네상스의 출발	구름이	26/04/27	19
75	토크나이저(tokenizer) — BPE·WordPiece·SentencePiece	햇살이	26/04/27	30
74	임베딩(embedding) — 단어를 벡터로	햇살이	26/04/27	30
73	그래디언트 소실·폭주 문제와 해법	부엉이	26/04/27	30
72	데이터 증강(data augmentation) — 부풀려서 학습하기	다람쥐	26/04/27	24
71	전이학습(transfer learning) — 적은 데이터로 좋은 모델	토순이	26/04/27	21

번호

제목

글쓴이

작성일

조회

100

SAM — Meta의 「무엇이든 분할」 모델

구름이

26/04/27

Whisper — OpenAI의 음성 인식 모델

다람쥐

26/04/27

Vision Transformer(ViT) — 이미지에 트랜스포머를

곰돌이

26/04/27

CLIP — 이미지와 텍스트의 다리

구름이

26/04/27

RoBERTa·ALBERT·DistilBERT 한눈에

구름이

26/04/27

BART — 노이즈 제거식 사전학습

구름이

26/04/27

T5 — 모든 NLP 작업을 텍스트→텍스트로

구름이

26/04/27

GPT 시리즈의 진화 — 1에서 4까지

부엉이

26/04/27

BERT — 양방향 언어 이해의 정석

별님이

26/04/27

Midjourney의 강점

부엉이

26/04/27

DALL-E 시리즈의 발전

다람쥐

26/04/27

Stable Diffusion이 이미지를 만드는 과정

너구리

26/04/27

Diffusion 모델의 원리

구름이

26/04/27

CycleGAN — 짝 없는 이미지 변환

구름이

26/04/27

StyleGAN — 가짜 얼굴을 진짜처럼

멍뭉이

26/04/27

GAN — 두 신경망의 대결

너구리

26/04/27

Mask R-CNN — 객체와 그 모양까지

햇살이

26/04/27

YOLO — 한 번 보고 객체를 다 찾는다

구름이

26/04/27

U-Net — 의료 영상에 강한 이유

부엉이

26/04/27

EfficientNet — 자원 효율의 정석

다람쥐

26/04/27

DenseNet — 모든 레이어가 모두를 본다

별님이

26/04/27

ResNet — 잔차 연결의 위력

구름이

26/04/27

GoogLeNet과 인셉션 모듈

야옹이

26/04/27

VGGNet — 단순함의 미덕

별님이

26/04/27

AlexNet — 딥러닝 르네상스의 출발

구름이

26/04/27

토크나이저(tokenizer) — BPE·WordPiece·SentencePiece

햇살이

26/04/27

임베딩(embedding) — 단어를 벡터로

햇살이

26/04/27

그래디언트 소실·폭주 문제와 해법

부엉이

26/04/27

데이터 증강(data augmentation) — 부풀려서 학습하기

다람쥐

26/04/27

전이학습(transfer learning) — 적은 데이터로 좋은 모델

토순이

26/04/27