인공지능(AI)

Whisper — OpenAI의 음성 인식 모델

다람쥐 | 2026.04.27 03:11:47

조회 20 | 추천 0

Whisper(2022, OpenAI)는 「음성을 텍스트로 받아 적는」 자동 음성 인식(ASR, Automatic Speech Recognition) 분야에서 새 기준을 세운 오픈소스 모델입니다.

인터넷에서 수집한 68만 시간의 다국어 음성 데이터로 학습되어 한국어를 포함한 99개 언어를 다룰 수 있습니다.

Whisper의 가장 큰 매력은 강건성입니다.

잡음이 많은 환경, 강한 억양, 빠른 발화, 음악이 깔린 영상에서도 비교적 정확하게 텍스트를 만들어 냅니다.

그 전까지의 음성 인식이 「조용한 환경에서 표준 발음」에 강했다면 Whisper는 「현실의 거친 음성」에 강합니다.

구조는 표준 인코더-디코더 Transformer입니다.

인코더는 음성 스펙트로그램을 받아 의미 표현으로 바꾸고, 디코더는 그 표현을 받아 텍스트를 한 단어씩 생성합니다.

또 「이 음성의 언어가 무엇인지」, 「번역해 줄지」 같은 추가 정보를 토큰으로 받아 한 모델로 다양한 작업을 처리할 수 있습니다.

비유하자면 Whisper는 「세계 언어를 다 알고 잡음 속에서도 잘 듣는 슈퍼 통역사」와 같습니다.

한국어를 영어로 옮겨 받아 적는 것도, 영어 영상에 한국어 자막을 다는 것도 한 모델로 가능합니다.

Whisper는 코드와 가중치가 모두 공개되어 누구나 자기 컴퓨터에서 실행할 수 있습니다.

5가지 크기(tiny, base, small, medium, large)가 제공되고, 작은 것은 휴대폰에서도 실시간으로 돌아갑니다.

유튜브 자동 자막, 회의록 작성, 팟캐스트 전사 등 음성 → 텍스트 변환의 사실상 표준이 되었습니다.

한 줄 요약

Whisper는 OpenAI의 오픈소스 다국어 음성 인식 모델로, 99개 언어와 잡음·억양에 강건한 ASR을 제공합니다.

자동 자막·회의록·전사의 사실상 표준입니다.

더 알아볼 것

- Whisper의 다섯 가지 모델 크기

- faster-whisper — 추론 가속 구현

- WhisperX — 화자 분리·시간 정렬 강화

아뢰옵기도 송구한 히미즈의 신이시여 — 스즈메의 문단속 [1]

장례식은 반드시 가야하는 이유.jpg [1]

목록보기

번호	제목	글쓴이	작성일	조회
100	SAM — Meta의 「무엇이든 분할」 모델	구름이	26/04/27	20
99	Whisper — OpenAI의 음성 인식 모델	다람쥐	26/04/27	20
98	Vision Transformer(ViT) — 이미지에 트랜스포머를	곰돌이	26/04/27	19
97	CLIP — 이미지와 텍스트의 다리	구름이	26/04/27	20
96	RoBERTa·ALBERT·DistilBERT 한눈에	구름이	26/04/27	17
95	BART — 노이즈 제거식 사전학습	구름이	26/04/27	17
94	T5 — 모든 NLP 작업을 텍스트→텍스트로	구름이	26/04/27	18
93	GPT 시리즈의 진화 — 1에서 4까지	부엉이	26/04/27	19
92	BERT — 양방향 언어 이해의 정석	별님이	26/04/27	17
91	Midjourney의 강점	부엉이	26/04/27	18
90	DALL-E 시리즈의 발전	다람쥐	26/04/27	18
89	Stable Diffusion이 이미지를 만드는 과정	너구리	26/04/27	21
88	Diffusion 모델의 원리	구름이	26/04/27	18
87	CycleGAN — 짝 없는 이미지 변환	구름이	26/04/27	17
86	StyleGAN — 가짜 얼굴을 진짜처럼	멍뭉이	26/04/27	21
85	GAN — 두 신경망의 대결	너구리	26/04/27	28
84	Mask R-CNN — 객체와 그 모양까지	햇살이	26/04/27	30
83	YOLO — 한 번 보고 객체를 다 찾는다	구름이	26/04/27	18
82	U-Net — 의료 영상에 강한 이유	부엉이	26/04/27	19
81	EfficientNet — 자원 효율의 정석	다람쥐	26/04/27	19
80	DenseNet — 모든 레이어가 모두를 본다	별님이	26/04/27	23
79	ResNet — 잔차 연결의 위력	구름이	26/04/27	19
78	GoogLeNet과 인셉션 모듈	야옹이	26/04/27	21
77	VGGNet — 단순함의 미덕	별님이	26/04/27	19
76	AlexNet — 딥러닝 르네상스의 출발	구름이	26/04/27	19
75	토크나이저(tokenizer) — BPE·WordPiece·SentencePiece	햇살이	26/04/27	29
74	임베딩(embedding) — 단어를 벡터로	햇살이	26/04/27	30
73	그래디언트 소실·폭주 문제와 해법	부엉이	26/04/27	30
72	데이터 증강(data augmentation) — 부풀려서 학습하기	다람쥐	26/04/27	24
71	전이학습(transfer learning) — 적은 데이터로 좋은 모델	토순이	26/04/27	21

글쓰기

신고하기

신고 사유를 선택해 주세요.