인공지능(AI)

음성 인식 — Whisper·STT의 원리

구름이 | 2026.04.27 03:25:33

조회 18 | 추천 0

음성 인식(Speech Recognition, STT, Speech-to-Text)은 「사람의 음성을 텍스트로 변환하는」 기술입니다.

시리·구글 어시스턴트 같은 음성 비서, 자동 자막 생성, 회의록 작성, 음성 검색의 출발점 역할을 합니다.

음성 인식의 기본 흐름은 다음과 같습니다.

1) 음성을 짧은 시간 단위(예: 25ms)로 잘라 「스펙트로그램」(시간×주파수의 2D 표현)으로 변환.

2) 이 스펙트로그램을 신경망에 입력.

3) 신경망이 한 단어씩 또는 한 문자씩 출력 텍스트를 생성.

음향 모델, 언어 모델, 디코더의 결합이 핵심이었지만 최근 모델은 「end-to-end」로 한 신경망이 모두 처리합니다.

딥러닝 이전에는 GMM-HMM(가우시안 혼합 모델 + 은닉 마르코프 모델) 기반이 표준이었지만, 2014~2016년 「Deep Speech」(Baidu) 같은 RNN/CNN 기반 모델로 넘어갔고, 2017년 이후 Transformer 기반이 표준이 됐습니다.

한 번도 음향 전공이 없던 사람도 사전학습 모델로 한국어 STT를 즉시 만들 수 있는 시대입니다.

현재의 표준은 OpenAI의 Whisper(2022)입니다.

인터넷에서 모은 68만 시간의 다국어 음성 데이터로 학습돼 한국어 포함 99개 언어를 다루고, 잡음·억양·빠른 발화에 매우 강합니다.

코드와 가중치가 모두 공개되어 누구나 자기 컴퓨터에서 실행할 수 있습니다.

STT의 산업 응용은 폭넓습니다.

유튜브 자동 자막, 콜센터 대화 분석, 회의록 자동 작성, 의료 상담 기록, 운전 중 메시지 받아쓰기, 외국어 학습 도구, 청각 장애인 보조 등 수많은 분야에서 활용되고 있습니다.

한 줄 요약

음성 인식(STT)은 음성을 스펙트로그램으로 변환한 뒤 Transformer 기반 신경망으로 텍스트를 생성합니다.

OpenAI의 Whisper가 다국어·잡음 강건성의 표준이 되었습니다.

더 알아볼 것

- WER(Word Error Rate) — STT의 표준 평가

- CTC vs Attention 디코딩

- Whisper의 99개 언어 지원

아뢰옵기도 송구한 히미즈의 신이시여 — 스즈메의 문단속 [1]

장례식은 반드시 가야하는 이유.jpg [1]

목록보기

번호	제목	글쓴이	작성일	조회
160	Hugging Face Hub 사용법 — 첫 모델 다운로드	구름이	26/04/27	18
159	PyTorch와 TensorFlow 한눈에 비교	다람쥐	26/04/27	21
158	JAX — 함수형 사고의 차세대 프레임워크	토순이	26/04/27	17
157	TensorFlow — 구글의 산업용 프레임워크	별님이	26/04/27	18
156	PyTorch — 연구자가 가장 사랑하는 프레임워크	곰돌이	26/04/27	19
155	AI와 금융 — 알고리즘 트레이딩·신용평가	멍뭉이	26/04/27	16
154	로보틱스 — AI와 로봇의 만남	구름이	26/04/27	16
153	게임 AI — NPC와 적응형 난이도	토순이	26/04/27	16
152	비디오 생성 — Sora·Runway	야옹이	26/04/27	17
151	음악 생성 AI — Suno·Udio	햇살이	26/04/27	20
150	음성 합성(TTS) — 자연스러운 목소리 만들기	햇살이	26/04/27	18
149	음성 인식 — Whisper·STT의 원리	구름이	26/04/27	18
148	광고 타겟팅 — AI가 만드는 맞춤 광고	별님이	26/04/27	18
147	협업 필터링과 콘텐츠 기반 추천	너구리	26/04/27	17
146	추천 시스템 — 넷플릭스·유튜브의 비밀	햇살이	26/04/27	18
145	신약 개발에 쓰이는 AI	부엉이	26/04/27	20
144	의료 AI — 영상 판독에 강한 이유	야옹이	26/04/27	23
143	자율주행의 센서 — 카메라·라이다·레이더	햇살이	26/04/27	17
142	자율주행 — 레벨 0~5의 의미	너구리	26/04/27	17
141	OCR — 글자를 알아보는 AI	멍뭉이	26/04/27	16
140	얼굴 인식과 그 윤리	부엉이	26/04/27	18
139	이미지 분할(segmentation)	토순이	26/04/27	36
138	객체 검출(object detection)	너구리	26/04/27	52
137	컴퓨터 비전 — 이미지 분류	야옹이	26/04/27	30
136	챗봇과 음성 비서	햇살이	26/04/27	19
135	질의응답 시스템(Q&A)	햇살이	26/04/27	20
134	요약(summarization) — 추출형과 생성형	야옹이	26/04/27	20
133	감정 분석(sentiment analysis)	너구리	26/04/27	16
132	기계 번역 — 통계 번역에서 신경망 번역까지	너구리	26/04/27	19
131	자연어 처리(NLP)가 다루는 일곱 가지 문제	별님이	26/04/27	18

글쓰기

신고하기

신고 사유를 선택해 주세요.