음성 합성(TTS, Text-to-Speech)은 「텍스트를 자연스러운 음성으로 변환하는」 기술로, STT의 반대 방향입니다.
시리·구글 어시스턴트의 답변 음성, 책 읽어 주기 앱, AI 더빙, 안내 방송 등에서 쓰입니다.
전통적 TTS는 「Concatenative」 — 미리 녹음된 짧은 음성 조각들을 이어 붙임 — 방식이었습니다.
발음은 정확하지만 어색하고 단조로워 「로봇 같은 음성」의 대명사였습니다.
딥러닝 시대에는 두 단계로 발전했습니다.
첫째, Tacotron(2017, 구글) — 텍스트에서 직접 멜 스펙트로그램을 생성하는 신경망.
둘째, WaveNet(2016, DeepMind)·MelGAN — 스펙트로그램을 자연스러운 파형으로 변환하는 보코더.
이 두 모델의 결합으로 사람과 거의 구분되지 않는 자연스러운 음성이 만들어집니다.
현재의 흐름은 「제로샷 음성 복제」입니다.
ElevenLabs, OpenAI의 Voice Engine 같은 서비스는 「3~5초의 샘플 음성만 들으면 그 사람의 목소리로 어떤 텍스트든 읽어 줄 수 있는」 수준에 도달했습니다.
한국어로 영어를 읽거나, 여성 목소리로 남성을 흉내 내는 등 자유로운 변환도 가능합니다.
TTS의 산업 응용은 폭넓습니다.
AI 더빙(외국 영상의 한국어 더빙), 오디오북 자동 제작, 게임 NPC 음성, 차량 내비게이션, 콜센터 자동 응대, 시각 장애인 보조.
다만 음성 복제는 「오디오 딥페이크」, 보이스피싱 같은 악용 가능성도 있어 윤리적 논의가 활발합니다.
한 줄 요약
TTS는 텍스트를 자연스러운 음성으로 변환하는 기술로, Tacotron + WaveNet 결합으로 사람 수준에 도달했습니다.
최근에는 5초 샘플로 음성을 복제하는 제로샷 기술도 등장했습니다.
더 알아볼 것
- WaveNet — 자연스러운 음성 합성의 시작
- ElevenLabs — 음성 복제 서비스
- 오디오 딥페이크의 윤리적 우려