기계 번역(Machine Translation)은 「한 언어로 적힌 글을 다른 언어로 자동 번역하는」 분야로, NLP의 가장 오래된 응용 중 하나입니다.
1950년대 냉전 시대 미국·소련이 서로의 문서를 번역하려는 군사적 동기에서 본격 연구가 시작됐습니다.
초기에는 「규칙 기반(rule-based)」 — 사전과 문법 규칙을 사람이 일일이 정해 변환 — 방식이었지만 결과가 어색했습니다.
1990년대부터 「통계 기반(SMT)」 — 두 언어의 평행 코퍼스에서 단어·구의 번역 확률을 통계로 학습 — 으로 발전했고, 구글 번역의 초기(2006~2016) 버전이 이 방식이었습니다.
2014~2016년 「신경망 번역(NMT)」이 등장하며 게임이 바뀌었습니다.
RNN 기반의 인코더-디코더 모델이 단어가 아닌 「문장 전체」의 의미를 한 번에 다루며 번역의 자연스러움이 비약적으로 좋아졌습니다.
구글 번역도 2016년 GNMT(Google Neural Machine Translation)로 전환했습니다.
2017년 Transformer 등장 이후 거의 모든 번역 시스템이 Transformer 기반으로 옮겨갔습니다.
컨텍스트 이해, 문맥에 맞는 단어 선택, 긴 문장의 일관성 등이 크게 향상됐습니다.
최근의 LLM 기반 번역(GPT-4, Claude, DeepL)은 「번역」이라기보다 「문맥을 이해한 자연스러운 다른 언어로의 옮김」 수준에 도달했습니다.
그래도 한계는 남아 있습니다.
시·소설 같은 문학 번역, 문화적 뉘앙스, 동음이의어, 신조어 등에서는 여전히 사람 번역가가 우위입니다.
그래서 최근 흐름은 「AI 초벌 번역 + 사람 후편집」의 협업 모델로 자리잡고 있습니다.
한 줄 요약
기계 번역은 규칙 기반(1950~) → 통계 기반(1990~) → 신경망(2014~) → Transformer·LLM(2017~)의 진화를 거쳐 자연스러운 번역 단계까지 왔으며, 현재는 사람과의 협업 모델이 주류입니다.
더 알아볼 것
- BLEU 점수 — 번역 품질 평가
- DeepL — 번역 특화 LLM
- 후편집(post-editing)의 시장 변화