비디오 생성 AI는 「텍스트 프롬프트나 이미지를 입력 받아 동영상을 만들어 주는」 가장 어려우면서도 가장 빠르게 자라는 생성 AI 분야입니다.
OpenAI의 Sora(2024.2 발표), Runway Gen-3, Kling, Veo 등이 대표적입니다.
이미지 생성과 비교해 비디오 생성은 훨씬 어렵습니다.
한 장의 이미지가 아니라 수백~수천 장의 프레임이 시간적으로 일관되어야 하고, 객체의 움직임이 물리 법칙에 맞아야 하고, 카메라 움직임도 자연스러워야 합니다.
한 장면에 수십 개의 동시 객체가 등장하면 모두 일관된 위치·자세를 유지해야 합니다.
Sora(2024)는 OpenAI가 발표한 모델로, 「텍스트 프롬프트로 최대 1분의 1080p 비디오를 생성」할 수 있습니다.
「번화한 도쿄의 거리를 걷는 여성, 비가 내리고 네온사인이 반사되는」 같은 프롬프트에 사실적인 결과를 보여 줘 큰 충격을 줬습니다.
일반 공개는 2024년 12월에 이루어졌습니다.
Runway는 영상 편집·생성 도구를 만드는 회사로, Gen-1·Gen-2·Gen-3 시리즈로 영상 생성 기능을 빠르게 발전시켜 왔습니다.
텍스트 → 영상, 이미지 → 영상, 영상 → 영상(스타일 변환) 모두 가능하며 영상 제작 산업에서 적극 채택되고 있습니다.
현재의 한계는 「길이」(아직 1~2분이 한계), 「일관성」(긴 영상에서 캐릭터 외모가 변함), 「물리」(물·머리카락·천 같은 복잡한 움직임에서 어색함), 「프롬프트 정확도」(미묘한 지시 따르기) 등입니다.
2025년에는 이 한계들이 빠르게 줄어들며 영화·광고·교육 영상 제작 시장에 큰 변화가 예고되고 있습니다.
한 줄 요약
Sora·Runway 같은 비디오 생성 AI는 텍스트나 이미지로 1분 길이의 사실적 영상을 만들어 줍니다.
길이·일관성·물리의 한계가 빠르게 줄어들며 영상 제작 산업에 큰 변화를 예고합니다.
더 알아볼 것
- Sora의 patch-based diffusion 구조
- Runway Gen-3 vs Sora vs Kling
- AI 생성 영상의 표시 의무 논의