Gemini는 구글이 2023년 12월에 공개한 LLM 시리즈로, 이전의 Bard를 통합·개편한 모델입니다.
가장 큰 특징은 「태생적 멀티모달」 — 처음부터 텍스트·이미지·오디오·비디오를 함께 다루도록 설계됐다는 점입니다.
GPT-4가 「텍스트 모델에 이미지 처리를 추가한」 형태였다면 Gemini는 처음부터 모든 모달리티를 함께 학습시켰습니다.
그래서 「영상을 보고 그 안의 행동을 분석」, 「긴 비디오를 요약」 같은 작업에 강합니다.
Gemini의 또 다른 강점은 「긴 컨텍스트」입니다.
Gemini 1.5 Pro에서 100만 토큰(영화 한 편의 음성 전사 또는 긴 책 여러 권)을 한 번에 다룰 수 있게 됐고, 실험적으로는 200만 토큰까지 확장됐습니다.
이는 LLM 시장에서 가장 긴 컨텍스트입니다.
Gemini는 세 가지 크기로 제공됩니다.
Ultra(가장 강력), Pro(균형), Nano(모바일·임베디드용).
Pro는 ChatGPT처럼 무료로 쓸 수 있고, Ultra는 Gemini Advanced 유료 구독에 포함돼 있습니다.
Nano는 픽셀 폰 등에서 오프라인으로 동작합니다.
구글의 강점은 「자체 인프라」입니다.
자체 설계 TPU 칩으로 학습·추론을 효율적으로 처리하고, 검색·지도·유튜브·Gmail 같은 자사 서비스와 깊이 연동됩니다.
Workspace의 Gemini로 문서 작성·이메일·회의 요약을 지원하는 등 산업 채택에서 큰 위치를 차지합니다.
한 줄 요약
Gemini는 구글의 「태생적 멀티모달」 LLM으로, 100만~200만 토큰의 가장 긴 컨텍스트와 비디오 이해 능력이 강점이며 자체 TPU·구글 서비스 통합이 큰 무기입니다.
더 알아볼 것
- TPU — 구글의 AI 전용 칩
- Gemini Nano — 픽셀폰의 온디바이스 AI
- Gemini Workspace 통합