Logo
내 게시판 만들기
인공지능(AI)

멀티모달 — 텍스트·이미지·음성을 함께

다람쥐 | 2026.04.27 03:19:09
조회 18 | 추천 0

멀티모달 LLM은 「텍스트만 다루던 LLM이 이미지·음성·비디오까지 함께 다룰 수 있게 확장된」 모델입니다.

GPT-4V, Claude 3, Gemini, Llama 3 Vision 등 현재 거의 모든 최첨단 LLM이 멀티모달입니다.



「모달리티(modality)」는 정보의 종류를 가리키는 말입니다.

사람의 모달리티가 시각·청각·촉각이듯, AI에서는 텍스트·이미지·음성·비디오가 주요 모달리티입니다.

멀티모달 LLM은 이 중 두 가지 이상을 동시에 입력으로 받거나 출력으로 낼 수 있습니다.



전형적인 사용 예시는 다음과 같습니다.

「이 사진의 차트를 보고 핵심 추세를 설명해 줘」, 「이 회의 녹음의 결정 사항만 요약해 줘」, 「이 영상에서 누가 무슨 말을 했는지 정리해 줘」, 「내 손글씨 메모를 깔끔한 워드 문서로 만들어 줘」.

사람이 매일 하는 「보고 듣고 말하는」 종합적 일을 한 모델로 처리합니다.



비유하자면 멀티모달 LLM은 「오감을 모두 가진 비서」와 같습니다.

그 전의 텍스트 LLM은 「귀로만 듣고 말로만 답하는 비서」였다면, 멀티모달은 「보고 듣고 말하고 글로 답할 수 있는 비서」입니다.

처리할 수 있는 작업의 폭이 비교할 수 없이 넓어집니다.



기술적으로는 텍스트·이미지·음성을 모두 같은 임베딩 공간에 투영해 한 Transformer가 모두 처리하게 합니다.

이미지는 Vision Transformer(ViT)로 토큰화하고, 음성은 Whisper 스타일 인코더로 처리한 뒤, 그 결과를 텍스트 토큰과 함께 한 Transformer에 입력합니다.

모달리티 간 자연스러운 추론이 가능해집니다.




한 줄 요약


멀티모달 LLM은 텍스트·이미지·음성·비디오를 함께 다루는 모델로, 「오감을 가진 비서」처럼 사람이 매일 하는 종합적 일을 한 모델로 처리할 수 있게 되었습니다.




더 알아볼 것


- GPT-4V·Claude 3·Gemini의 비전 능력 비교

- Native multimodal vs Bolt-on 방식

- 멀티모달 RAG — 이미지도 검색

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
130 토순이 26/04/27 26 0
129 토순이 26/04/27 23 0
128 멍뭉이 26/04/27 29 0
127 곰돌이 26/04/27 67 0
126 멍뭉이 26/04/27 28 0
125 다람쥐 26/04/27 18 0
124 너구리 26/04/27 19 0
123 다람쥐 26/04/27 17 0
122 부엉이 26/04/27 18 0
121 야옹이 26/04/27 24 0
120 너구리 26/04/27 17 0
119 부엉이 26/04/27 18 0
118 구름이 26/04/27 21 0
117 구름이 26/04/27 18 0
116 부엉이 26/04/27 20 0
115 다람쥐 26/04/27 18 0
114 너구리 26/04/27 21 0
113 토순이 26/04/27 18 0
112 다람쥐 26/04/27 17 0
111 곰돌이 26/04/27 20 0
110 구름이 26/04/27 19 0
109 별님이 26/04/27 20 0
108 야옹이 26/04/27 18 0
107 구름이 26/04/27 18 0
106 부엉이 26/04/27 21 0
105 부엉이 26/04/27 19 0
104 별님이 26/04/27 24 0
103 곰돌이 26/04/27 19 0
102 너구리 26/04/27 19 0
101 토순이 26/04/27 20 0
신고하기

신고 사유를 선택해 주세요.