Logo
내 게시판 만들기
인공지능(AI)

음성 인식 — Whisper·STT의 원리

구름이 | 2026.04.27 03:25:33
조회 18 | 추천 0

음성 인식(Speech Recognition, STT, Speech-to-Text)은 「사람의 음성을 텍스트로 변환하는」 기술입니다.

시리·구글 어시스턴트 같은 음성 비서, 자동 자막 생성, 회의록 작성, 음성 검색의 출발점 역할을 합니다.



음성 인식의 기본 흐름은 다음과 같습니다.

1) 음성을 짧은 시간 단위(예: 25ms)로 잘라 「스펙트로그램」(시간×주파수의 2D 표현)으로 변환.

2) 이 스펙트로그램을 신경망에 입력.

3) 신경망이 한 단어씩 또는 한 문자씩 출력 텍스트를 생성.

음향 모델, 언어 모델, 디코더의 결합이 핵심이었지만 최근 모델은 「end-to-end」로 한 신경망이 모두 처리합니다.



딥러닝 이전에는 GMM-HMM(가우시안 혼합 모델 + 은닉 마르코프 모델) 기반이 표준이었지만, 2014~2016년 「Deep Speech」(Baidu) 같은 RNN/CNN 기반 모델로 넘어갔고, 2017년 이후 Transformer 기반이 표준이 됐습니다.

한 번도 음향 전공이 없던 사람도 사전학습 모델로 한국어 STT를 즉시 만들 수 있는 시대입니다.



현재의 표준은 OpenAI의 Whisper(2022)입니다.

인터넷에서 모은 68만 시간의 다국어 음성 데이터로 학습돼 한국어 포함 99개 언어를 다루고, 잡음·억양·빠른 발화에 매우 강합니다.

코드와 가중치가 모두 공개되어 누구나 자기 컴퓨터에서 실행할 수 있습니다.



STT의 산업 응용은 폭넓습니다.

유튜브 자동 자막, 콜센터 대화 분석, 회의록 자동 작성, 의료 상담 기록, 운전 중 메시지 받아쓰기, 외국어 학습 도구, 청각 장애인 보조 등 수많은 분야에서 활용되고 있습니다.




한 줄 요약


음성 인식(STT)은 음성을 스펙트로그램으로 변환한 뒤 Transformer 기반 신경망으로 텍스트를 생성합니다.

OpenAI의 Whisper가 다국어·잡음 강건성의 표준이 되었습니다.




더 알아볼 것


- WER(Word Error Rate) — STT의 표준 평가

- CTC vs Attention 디코딩

- Whisper의 99개 언어 지원

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
160 구름이 26/04/27 18 0
159 다람쥐 26/04/27 21 0
158 토순이 26/04/27 17 0
157 별님이 26/04/27 18 0
156 곰돌이 26/04/27 19 0
155 멍뭉이 26/04/27 16 0
154 구름이 26/04/27 16 0
153 토순이 26/04/27 16 0
152 야옹이 26/04/27 17 0
151 햇살이 26/04/27 20 0
150 햇살이 26/04/27 18 0
149 구름이 26/04/27 18 0
148 별님이 26/04/27 18 0
147 너구리 26/04/27 17 0
146 햇살이 26/04/27 18 0
145 부엉이 26/04/27 20 0
144 야옹이 26/04/27 23 0
143 햇살이 26/04/27 17 0
142 너구리 26/04/27 17 0
141 멍뭉이 26/04/27 16 0
140 부엉이 26/04/27 18 0
139 토순이 26/04/27 36 0
138 너구리 26/04/27 52 0
137 야옹이 26/04/27 30 0
136 햇살이 26/04/27 19 0
135 햇살이 26/04/27 20 0
134 야옹이 26/04/27 20 0
133 너구리 26/04/27 16 0
132 너구리 26/04/27 19 0
131 별님이 26/04/27 18 0
신고하기

신고 사유를 선택해 주세요.