구글이 마침내, AI 비디오 생성 시장에 현실같은 몰입감을 줄 수 있는 AI 비디오 모델(lumiere)을 발표했다.
구글은 Gen-2 (RunwayML 2023)와 Pika (Pika labs 2023), ImagenVideo (Ho et al. 2022a), 그리고 AnimateDiff (Guo et al. 2023)와 ZeroScope (Wang et al. 2023a) 등 AI 비디오 생성 모델을 발표한 회사들의 활약이 거센 가운데 그들 보다 앞서가는 모습을 보여주기 위해 더 높은 성능의 고퀄리티를 생성하는 AI 비디오 생성모델인 루미에르(lumiere)를 발표했다.Lumiere는 프랑스어로 ‘빛’이란 뜻.
기존의 회사 제품과 다른 구글의 Lumiere의 구성을 살펴보겠습니다.
- 텍스트 또는 이미지 입력: 루미에르도 사용자가 텍스트 설명 또는 기존 이미지를 모델에 입력합니다. 이 입력은 비디오의 주제나 스토리를 정리하는 기반이 됩니다. 아래 그림은 text-to-video의 흐름을 보여주고 있습니다.
2. 시공간 U-Net 아키텍처: 루미에르는 시공간 U-Net 아키텍처를 사용하여 비디오의 모든 시간적 길이 조차 한 번에 생성합니다. 그러므로 높은 성능을 보일 수 있습니다. 이는 전체 비디오에 걸쳐 일관된 움직임과 시각적 연속성을 보장하죠. 일반적으로 기존 모델은 시작과 끝 프레임을 생성하여 중간과정을 역산하지만 루미에르는 비디오 속 사물이 있는 시간과 공간을 동시에 처리합니다.
또한 다중 확산과 공간적 초해상도: 모델은 메모리 제한을 관리하기 위해 공간적 초해상도(SSR) 모델과 다중 확산 기술을 결합합니다. 이를 통해 고해상도에서도 일관된 비디오를 생성할 수 있습니다. 다음은 시간과 공간이 포함된 UNet 아키텍쳐를 보여주고 있습니다.
3. 비디오 생성: 입력받은 텍스트나 이미지를 기반으로, 현실적이고 다양하며 일관된 움직임을 보이는 비디오를 생성합니다. 예를들어 불타는 사진의 이미지를 올리면 이 사진에서 불이 훨훨 터오르는 비디오로 변경이 되는 것을 볼 수 있습니다.
루미에르는 비디오 생성 분야에서 중요한 발전을 나타내며, 이미지나 텍스트를 기반으로 한 새로운 형태의 비디오 콘텐츠 제작을 가능하게 합니다. 다만 현재로서는 연구 단계로 직접 테스트 할 수는 없습니다.
Q1 :시공간 U-Net 아키텍처란 무엇인가요
U-Net이란 것은 ‘U-Net: Convolutional Networks for Biomedical Image Segmentation’ 이라는 논문에서 제안한 구조로서 매우 적은 수의 학습 데이터로도 정확한 이미지 세그멘테이션 성능을 보여주는 것입니다.U-Net은 오토인코더(autoencoder)와 같은 인코더-디코더(encoder-decoder) 기반 모델에 속합니다. 보통 인코딩 단계에서는 입력 이미지의 특징을 포착할 수 있도록 채널의 수를 늘리면서 차원을 축소해 나가며, 디코딩 단계에서는 저차원으로 인코딩된 정보만 이용하여 채널의 수를 줄이고 차원을 늘려서 고차원의 이미지를 복원합니다. U–net이란 Network 형태가 알파벳 U 와 형태가 비슷하게 생겼다고 해서 지어진 이름이며. 구글은 이것에 시간과 공간의 개념을 더해 STUNet architecture를 만들었습니다.
Q2: 루미에르에 대한 구글의 자체 평가는 무엇인가요
“우리(구글의 루미에르 팀)는 서 우리 모델과 기준 모델들 간의 정성적 비교를 제공합니다. 우리는 Gen-2 (RunwayML 2023)와 Pika (Pika labs 2023)가 프레임 당 높은 시각적 품질을 보여준다는 것을 관찰했습니다. 그러나 그들의 출력물은 움직임이 거의 없어 거의 정지된 비디오를 생성하는 것으로 특징지어집니다. ImagenVideo (Ho et al. 2022a)는 합리적인 수준의 움직임을 생산하지만 전반적인 시각적 품질은 더 낮습니다. AnimateDiff (Guo et al. 2023)와 ZeroScope (Wang et al. 2023a)는 눈에 띄는 움직임을 보여주지만 시각적 아티팩트에 취약합니다. 더욱이, 이들은 각각 2초와 3.6초의 더 짧은 시간 동안의 비디오를 생성합니다. 반면에 우리의 방법은 시간적 일관성과 전반적인 품질을 유지하면서 더 높은 움직임의 크기를 가진 5초짜리 비디오를 생성합니다.” -Lumiere 논문에서-
- AI 칩 전쟁 (3) : 스핀 트랜지스터
- AI 칩 전쟁 (2) : 그래프코어 IPU, 그래프 구조 최적화와 저지연 처리로 AI 연산 혁신
- AI 칩 전쟁 (1) : 웨이퍼 하나를 하나의 칩으로 사용하는 세레브라스의 혁신 전략
- 제철소 용광로에도 AI 기술이
- EU의 AI 법, 중소 AI 기업엔 규제의 턱이 될 가능성이 높아
- AI 칩 전쟁 (3) : ‘디지털 딥러닝’을 뒤쫒는 ‘아나로그 딥러닝’기술
- AI 기업 분석 (1) : Palantir
- 지구상의 ‘AI chip’ 전쟁
- 세상에서 가장 인기있는 AI WEB 사이트 50개
- 캐릭터 사이의 상호작용마저 자동으로 생성하는 ‘Show Runner’ 플랫폼
- 제디터로 상세페이지 고민 끝
- WAFOUR, 동영상의 일관성 문제 해결할 snowpea AI
- chatGPT, 잦은 먹통에 성장통
- AI 사업 아이디어 (29) : 건설 현장에서 맹활약 중인 AI… DL이엔씨
- 의료와 재난 상황에 깊숙이 투입되고 있는 AI
- FIFO-Diffusion 기술, 컨베이어 벨트방식으로 무한한 길이의 고품질 동영상 생성
- AI 생성 음악도 마켓팅이 필요하다
- 생성 AI로 경험해 보지 못한 무한대의 소리까지..가우디오랩
- 현재 우리나라 데이터 센터의 갯수 38개는 꼴찌수준입니다
- 요리하는데 도움주는 AI 사이트 5개
- 온프레미스와 오픈 소스는 AI 시대의 필수 전략
- LPDDR을 이용한 마하칩은 HBM을 따돌릴 수 있을까
- 로컬에서 AI 챗봇과 언어모델 실행을 위한 가이드
- chatGPT4옴니로 엑셀파일에 함수를 자유자재로 부리기
- 쇼셜미디어에서 쇼셜과 미디어가 분리되는 AI 시대에 더욱 커지는 콘텐츠 관리의 중요성
- 메타, GPT-4옴니에 필적할 LLM으로 ‘카멜레온’ 발표
- Runway로 움직이는 상품 이미지 만들어 마켓팅에 돌풍을!
- AI를 이해하기에 적절하며, 유용한 사이트 21개
- CCTV에 AI 도입시 고려 사항
- 구글, 유저들의 프픔프트 작성을 위한 안내 책자 배포
- 인공지능 시대에 더욱 커지는 ‘사람의 역할’, 비영리재단 퓨처 오브 라이프
- 구글의 저력, Sora에 필적할 Veo 방출
- 구글과 OpenAI 진영과의 숨막히는 대결…2024구글 IO
- 마인크래프트(Minecraft) 게임에도 자율 AI 에이전트 도입
- AI 시대의 이야기의 힘 : Storytelling이 왜 중요한가?
- URL만으로도 비디오 생성해주는 AI 사이트, 생성비디오 활용은 신중해야
- OpenAI의 GPT-4옴니, 인간처럼 보고 듣고 말하는 AI 비서
- Google, ‘AlphaFold 3’로 거의 모든 생물학적 분자 구조 예측 가능
- AI 생성음악을 MIDI 파일로 만들어 주는 ‘뮤지아 원’, 좋은 음악교육 도구
- Runway의 두 번째 AI 영화제: 과거와 미래를 잇는 예술의 장
- 소라, 700개 클립 생산해 한 개의 상업용 뮤직비디오 제작에 성공
- 생성AI의 일관성 유지기술 완성이 코앞에 다가왔다-Story Diffusion
- AI 뮤직비디오 걸작은 어디서 나올까, Noisee.ai에 가보세요
- 60개의 AI를 한눈에 서비스 하는 초강력 사이트, ‘POE.com’
- 만화에 진심인 Comic AI, Skyreels로 변경
- 제품과 서비스 홍보용 만화 그리기 좋은 AI 사이트-‘Wetoon’
- 구글의 VLOGGER-목소리와 사진 한장으로 나의 분신을 만든다
- chatGPT도 어도비와 같은 AI 그림 편집기능 도입
- 분실한 휴대폰 금방 찾는다, 구글의 ‘내 디바이스 찾기’
- AI와 블록체인: 코인광풍에 조심해야 할 키워드
- Nvidia, 지구의 기후변화에 대비하는 디지털 트윈 Earth-2 플랫폼 공개
- 메타버스와 AI: 로블록스의 혁신은 AI로 부터
- 애플, 혁신보다 개선에 초점을 맞춘 이미지-텍스트 기술 공개
- 미드저니, cref+url 문구삽입으로 캐릭터의 일관성 유지해
- chatGPT로 전력요금 계산하고 그래프로 보여주는 웹앱 만드는 방법
- chatGPT의 Dalle-3로 표현해보는 미술사조별 그림 스타일
- 텍스트 10만자를 일관성있는 웹툰으로 만들어버리는 AI..Lore Machine의 등장
- AI가 만드는 무한한 가상 세계: 구글 지니(GINIE)
- OpenAI, LLM으로 현실감 넘치는 동영상 생성하는 소라(Sora) 발표
- 페이크(Fake)에 속는 심리적 취약점 53가지
- AI 생성 콘텐츠와 실제 콘텐츠를 구별하는 10가지 방법
- 구글, 현실같은 AI 비디오 생성기 ‘루미에르(lumiere)’ 오픈
- 우리집 전기요금 얼마나 나올까, 요금계산 해보는 앱.
- 2024년 새해에는 4차 산업혁명의 폭발로 인구절벽 해결하자
- 한 해 국내 강력 범죄 발생 현황(2022)
- 2023.1-8월 국내 마약 사범 현황
- 위약금 장사
- 생존을 위해 압류를 차단하는 사례 모음
- 발렌타인데이에 보낼 소중한 e-card 제작
- 신년 e-card 보내기
- e-성탄카드를 직접 만드는 손쉬운 방법