구글이 마침내, AI 비디오 생성 시장에 현실같은 몰입감을 줄 수 있는 AI 비디오 모델(lumiere)을 발표했다.
구글은 Gen-2 (RunwayML 2023)와 Pika (Pika labs 2023), ImagenVideo (Ho et al. 2022a), 그리고 AnimateDiff (Guo et al. 2023)와 ZeroScope (Wang et al. 2023a) 등 AI 비디오 생성 모델을 발표한 회사들의 활약이 거센 가운데 그들 보다 앞서가는 모습을 보여주기 위해 더 높은 성능의 고퀄리티를 생성하는 AI 비디오 생성모델인 루미에르(lumiere)를 발표했다.Lumiere는 프랑스어로 ‘빛’이란 뜻.
기존의 회사 제품과 다른 구글의 Lumiere의 구성을 살펴보겠습니다.
- 텍스트 또는 이미지 입력: 루미에르도 사용자가 텍스트 설명 또는 기존 이미지를 모델에 입력합니다. 이 입력은 비디오의 주제나 스토리를 정리하는 기반이 됩니다. 아래 그림은 text-to-video의 흐름을 보여주고 있습니다.
2. 시공간 U-Net 아키텍처: 루미에르는 시공간 U-Net 아키텍처를 사용하여 비디오의 모든 시간적 길이 조차 한 번에 생성합니다. 그러므로 높은 성능을 보일 수 있습니다. 이는 전체 비디오에 걸쳐 일관된 움직임과 시각적 연속성을 보장하죠. 일반적으로 기존 모델은 시작과 끝 프레임을 생성하여 중간과정을 역산하지만 루미에르는 비디오 속 사물이 있는 시간과 공간을 동시에 처리합니다.
또한 다중 확산과 공간적 초해상도: 모델은 메모리 제한을 관리하기 위해 공간적 초해상도(SSR) 모델과 다중 확산 기술을 결합합니다. 이를 통해 고해상도에서도 일관된 비디오를 생성할 수 있습니다. 다음은 시간과 공간이 포함된 UNet 아키텍쳐를 보여주고 있습니다.
3. 비디오 생성: 입력받은 텍스트나 이미지를 기반으로, 현실적이고 다양하며 일관된 움직임을 보이는 비디오를 생성합니다. 예를들어 불타는 사진의 이미지를 올리면 이 사진에서 불이 훨훨 터오르는 비디오로 변경이 되는 것을 볼 수 있습니다.
루미에르는 비디오 생성 분야에서 중요한 발전을 나타내며, 이미지나 텍스트를 기반으로 한 새로운 형태의 비디오 콘텐츠 제작을 가능하게 합니다. 다만 현재로서는 연구 단계로 직접 테스트 할 수는 없습니다.
Q1 :시공간 U-Net 아키텍처란 무엇인가요
U-Net이란 것은 ‘U-Net: Convolutional Networks for Biomedical Image Segmentation’ 이라는 논문에서 제안한 구조로서 매우 적은 수의 학습 데이터로도 정확한 이미지 세그멘테이션 성능을 보여주는 것입니다.U-Net은 오토인코더(autoencoder)와 같은 인코더-디코더(encoder-decoder) 기반 모델에 속합니다. 보통 인코딩 단계에서는 입력 이미지의 특징을 포착할 수 있도록 채널의 수를 늘리면서 차원을 축소해 나가며, 디코딩 단계에서는 저차원으로 인코딩된 정보만 이용하여 채널의 수를 줄이고 차원을 늘려서 고차원의 이미지를 복원합니다. U–net이란 Network 형태가 알파벳 U 와 형태가 비슷하게 생겼다고 해서 지어진 이름이며. 구글은 이것에 시간과 공간의 개념을 더해 STUNet architecture를 만들었습니다.
Q2: 루미에르에 대한 구글의 자체 평가는 무엇인가요
“우리(구글의 루미에르 팀)는 서 우리 모델과 기준 모델들 간의 정성적 비교를 제공합니다. 우리는 Gen-2 (RunwayML 2023)와 Pika (Pika labs 2023)가 프레임 당 높은 시각적 품질을 보여준다는 것을 관찰했습니다. 그러나 그들의 출력물은 움직임이 거의 없어 거의 정지된 비디오를 생성하는 것으로 특징지어집니다. ImagenVideo (Ho et al. 2022a)는 합리적인 수준의 움직임을 생산하지만 전반적인 시각적 품질은 더 낮습니다. AnimateDiff (Guo et al. 2023)와 ZeroScope (Wang et al. 2023a)는 눈에 띄는 움직임을 보여주지만 시각적 아티팩트에 취약합니다. 더욱이, 이들은 각각 2초와 3.6초의 더 짧은 시간 동안의 비디오를 생성합니다. 반면에 우리의 방법은 시간적 일관성과 전반적인 품질을 유지하면서 더 높은 움직임의 크기를 가진 5초짜리 비디오를 생성합니다.” -Lumiere 논문에서-