OpenAI, LLM으로 현실감 넘치는 동영상 생성하는 소라(Sora) 발표

Prompt: The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings. (OpenAI Sora에서)


오픈AI가 처음으로 비디오 생성 인공지능(AI) 모델을 내놓음으로써 텍스트를 영상으로 제공하는 여러 업체들과 함께 치열한 선두 다툼을 예고하고 있다. 동영상 생성 AI 분야에 지각 변동을 일으킬만하다는 평가다.

이번에 OpenA가 공개한 AI 모델은 최대 1분 길이의 동영상을 생성해 주는 AI 모델 ‘소라(Sora: https://openai.com/sora)이다.

Sora는 “여러 캐릭터와 특정 유형의 동작, 복잡한 장면 등에서 컬리티가 높고 다는 결과물이 1분 길이까지 가능하다. 특히 언어를 깊게 이해하고 프롬프트를 정확하게 해석하고 생생한 감정을 표현하는 매력적인 캐릭터를 생성할 수 있다”라고 OpenAI는 밝혔다.

소라는 ‘챗GPT’와 마찬가지로 트랜스포머(Transformer) 아키텍처 기반이다. 따라서 동영상과 이미지를 ‘패치’라는 작은 데이터 단위 모음으로 표현하며, 각 패치는 언어모델의 ‘토큰’과 유사한 방식으로 작동한다. LLM에는 텍스트 토큰이 있는 반면 Sora에는 시각적 패치가 있다. 패치는 이전에 시각적 데이터 모델을 효과적으로 표현하는 것이다. 아래 그림은 비디오를 패치로 변환하는 모습을 담은 기술도면이다.

 

 Sora는 기존 이미지나 비디오와 같은 다른 입력을 통해 메시지를 표시할 수도 있다. 이 기능을 통해 Sora는 완벽하게 반복되는 비디오 생성, 정적 이미지 애니메이션, 비디오 시간을 앞뒤로 확장하는 등 광범위한 이미지 및 비디오 편집 작업을 수행할 수 있다.

아래는 이미지에서 어떻게 동영상이 만들어질까에 대한 관련 영상이다.

(OpenAI Sora에서)

Sora는 또 많은 장점이 있다. 전체 동영상을 한번에 생성하거나 생성된 동영상을 확장해 더 길게 만들 수도 있다. 한번에 여러 프레임을 예측할 수 있는 기능도 제공한다. 이에 따라 피사체가 일시적으로 시야에서 사라져도, 동일하게 유지하는 까다로운 문제도 해결할 수 있다.

물론 아직 Sora는 복잡하고 물리적인 장면을 묘사하는 데 어려움을 겪을 수도 있다. 복잡한 물리적인 장면을 완벽히 이해하게 된다면 AGI가 아니고 무엇인가.

현재 오픈AI의 Sora와 같이 text를 비디오로 생성하는 업체가 여럿이 있다. 이들 업체들도 긴장하기는 마찬가지이며 경쟁을 통해 누가 선두가 될런지는 아무도 알 수 없다. 다만 이제는 대중들에게 비디오를 시청하는 것에서 제작하는 시대를 앞당길 것이라는 예측은 분명히 다가오고 있다.

텍스트를 비디오로 생성하는 알려진 업체들 가운데 일부는 이미 이 시장에서 이름이 알려지고 있다. 런웨이는 지난해 6월 획기적인 기능을 갖춘 ‘젠2’를 출시하며 단번에 업계 선두로 지목됐다. 11월에는 스태빌리티 AI가 ‘스테이블 비디오 디퓨전’을, 메타가 ‘에뮤’ 비디오 생성기를 공개했다.

또 지난달에는 구글이 새로운 시공간 확산 모델 ‘루미에르’를 발표했으며, MS가 비디오 프레임의 움직임을 조작하는 비디오 생성 모델 ‘드래그누와’를, 바이트댄스는 ‘매직비디오-V2)’를 공개한바 있다.

다음은 긴장하고 있는 여러 업체들이다.

WOXO, Versy AI,Vidds.co,Vidon.ai, DeepBrain AI, ModelScope Text-To-Video, Invideo. io (참고 : 본 사이트 프론트 페이지)등도 저자가 사용해보니 상당한 기능과 능력으로 무장한 것으로 평가하고 있다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다