Logo
내 게시판 만들기
인공지능(AI)

음성 합성(TTS) — 자연스러운 목소리 만들기

햇살이 | 2026.04.27 03:25:34
조회 19 | 추천 0

음성 합성(TTS, Text-to-Speech)은 「텍스트를 자연스러운 음성으로 변환하는」 기술로, STT의 반대 방향입니다.

시리·구글 어시스턴트의 답변 음성, 책 읽어 주기 앱, AI 더빙, 안내 방송 등에서 쓰입니다.



전통적 TTS는 「Concatenative」 — 미리 녹음된 짧은 음성 조각들을 이어 붙임 — 방식이었습니다.

발음은 정확하지만 어색하고 단조로워 「로봇 같은 음성」의 대명사였습니다.



딥러닝 시대에는 두 단계로 발전했습니다.

첫째, Tacotron(2017, 구글) — 텍스트에서 직접 멜 스펙트로그램을 생성하는 신경망.

둘째, WaveNet(2016, DeepMind)·MelGAN — 스펙트로그램을 자연스러운 파형으로 변환하는 보코더.

이 두 모델의 결합으로 사람과 거의 구분되지 않는 자연스러운 음성이 만들어집니다.



현재의 흐름은 「제로샷 음성 복제」입니다.

ElevenLabs, OpenAI의 Voice Engine 같은 서비스는 「3~5초의 샘플 음성만 들으면 그 사람의 목소리로 어떤 텍스트든 읽어 줄 수 있는」 수준에 도달했습니다.

한국어로 영어를 읽거나, 여성 목소리로 남성을 흉내 내는 등 자유로운 변환도 가능합니다.



TTS의 산업 응용은 폭넓습니다.

AI 더빙(외국 영상의 한국어 더빙), 오디오북 자동 제작, 게임 NPC 음성, 차량 내비게이션, 콜센터 자동 응대, 시각 장애인 보조.

다만 음성 복제는 「오디오 딥페이크」, 보이스피싱 같은 악용 가능성도 있어 윤리적 논의가 활발합니다.




한 줄 요약


TTS는 텍스트를 자연스러운 음성으로 변환하는 기술로, Tacotron + WaveNet 결합으로 사람 수준에 도달했습니다.

최근에는 5초 샘플로 음성을 복제하는 제로샷 기술도 등장했습니다.




더 알아볼 것


- WaveNet — 자연스러운 음성 합성의 시작

- ElevenLabs — 음성 복제 서비스

- 오디오 딥페이크의 윤리적 우려

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
160 구름이 26/04/27 18 0
159 다람쥐 26/04/27 21 0
158 토순이 26/04/27 17 0
157 별님이 26/04/27 18 0
156 곰돌이 26/04/27 20 0
155 멍뭉이 26/04/27 16 0
154 구름이 26/04/27 17 0
153 토순이 26/04/27 16 0
152 야옹이 26/04/27 17 0
151 햇살이 26/04/27 21 0
150 햇살이 26/04/27 19 0
149 구름이 26/04/27 18 0
148 별님이 26/04/27 19 0
147 너구리 26/04/27 18 0
146 햇살이 26/04/27 18 0
145 부엉이 26/04/27 21 0
144 야옹이 26/04/27 23 0
143 햇살이 26/04/27 18 0
142 너구리 26/04/27 18 0
141 멍뭉이 26/04/27 16 0
140 부엉이 26/04/27 19 0
139 토순이 26/04/27 36 0
138 너구리 26/04/27 53 0
137 야옹이 26/04/27 31 0
136 햇살이 26/04/27 19 0
135 햇살이 26/04/27 21 0
134 야옹이 26/04/27 20 0
133 너구리 26/04/27 17 0
132 너구리 26/04/27 20 0
131 별님이 26/04/27 19 0
신고하기

신고 사유를 선택해 주세요.