FIFO-Diffusion 기술은 서울대학교 연구진에 의해 개발되어 무한한 길이의 고품질 동영상 생성이 가능하게 한 혁신적인 기법입니다. 이 기술은 기존의 디퓨전(diffusion) 기반 모델들을 발전시켜, 보다 효율적이고 실시간에 가까운 비디오 생성을 가능하게 한 것이죠
눈여겨 보아야 할 FIFO-Diffusion의 두 가지 기술
기존 시중에 나와 있는 디퓨전 모델은 무작위적인 잠재 공간(latent space)에서 이미지를 생성하기 위해 denoising 과정을 반복합니다. 이는 특정 프레임을 고정한 후 denoising을 하고, 그 다음 프레임으로 넘어가는 순차적인 방식을 사용했습니다. 이러한 방식은 시간이 많이 소요되며, 비디오의 연속성을 유지하기 어렵습니다.
반면, FIFO-Diffusion은 마치 컨베이어 벨트처럼 작동하여, 이미 생성된 프레임은 제거하고 새로운 프레임에 대해 노이즈를 추가하면서 지속적으로 이미지를 생성합니다. 이 방식은 각기 다른 timestep에서 동시에 여러 프레임을 denoising 할 수 있기 때문에, 생성 과정이 훨씬 더 빠르고 효율적입니다.
그래서 FIFO- Diffusion은 한 번에 denoising하는 latent들의 timestep이 다 다르게 됩니다. 그리고 이처럼 timestep이 다른 것들을 더 작은 단위인 Partition으로 나누면서 Partition 안에서 TimeStep 간의 차이가 더 작아지기 때문에 이를 병렬적으로 처리하고 합치면 더 쉽고 연속적이게 하나의 일관된 비디오 시퀀스가 생성이 되는 것입니다. 이런 방식으로 별도의 추가 교육 없이도 고품질의 긴 동영상, 일관된 장면의 역동성, 이 모든 것이 가능해졌습니다.
1. Diagonal Denoising
FIFO-Diffusion에 주목해야할 첫번째 기술방식은 컨베이어 벨트에 비유할 수 있습니다. 생산 라인에서 완성된 제품은 라인 끝에서 제거되고 새 원료가 추가되듯이, FIFO-Diffusion에서는 이미 생성된 비디오 프레임을 제거하고, 새 프레임을 위해 새로운 노이즈가 추가된 잠재 상태를 입력합니다. 이 과정이 반복되면서 연속적으로 프레임이 생성됩니다. 이 방식의 주요 이점은, 다양한 시점(timestep)에서 동시에 여러 프레임을 처리할 수 있다는 것입니다. 이는 기존 방법보다 빠르고 효율적으로 비디오를 생성할 수 있게 해줍니다.
위의 설명은 “f = 4″일 때 대각선 디노이징(diagonal denoising)을 그림으로 설명하는 것입니다. 내용을 정리하면 다음과 같습니다:
- 입력 프레임: 실선으로 둘러싸인 프레임들이 모델의 입력으로 사용됩니다.
- 디노이징된 프레임: 점선으로 둘러싸인 프레임들이 디노이징된 결과물입니다.
- 디노이징 과정: 입력 프레임들이 디노이징 과정을 거쳐 각 프레임의 잡음이 제거됩니다.
- 최종 디노이징 인스턴스: 디노이징이 완료된 최종 프레임은 오른쪽 상단 코너에 위치하며, 이 인스턴스는 큐에서 제거(dequeue)됩니다.
- 랜덤 노이즈 추가: 큐에서 제거된 프레임 대신 랜덤 노이즈가 포함된 새로운 프레임이 큐에 추가(enqueue)됩니다.
이를 통해 모델은 반복적으로 입력 프레임을 디노이징하여 잡음을 제거하고, 잡음이 제거된 프레임을 교체하며 지속적인 학습 과정을 이어갑니다.
2. latent partitioning
두 번째로, FIFO-Diffusion 기술의 포인트는 이처럼 잠재공간을 더 작은 단위로 나누는 latent partitioning입니다. 이 기법을 통해 잠재 공간을 더 작은 단위로 나누어 각 파티션 내에서 timestep 간의 차이를 최소화하고 이는 훈련 시와 추론 시 발생할 수 있는 ‘training-inference gap’을 줄여, 일관된 품질의 비디오 생성을 돕습니다.
위 그림은 “f = 4” 및 “n = 2″일 때 잠재 파티셔닝(latent partitioning)과 룩어헤드 디노이징(lookahead denoising)을 설명하는 것입니다. 내용을 정리하면 다음과 같습니다:
잠재 파티셔닝:
- 정의: 디퓨전(diffusion) 과정을 n 부분으로 나누어 최대 잡음 수준 차이를 줄이는 방법입니다.
- 목적: 잡음 수준 차이를 줄임으로써 디노이징 과정의 일관성을 높입니다.
룩어헤드 디노이징:
- 정의: 잠재 파티셔닝된 프레임에 대해 이전 프레임들을 충분히 참조하여 모든 프레임을 디노이징하는 방법입니다.
- 장점: 모든 프레임이 적절한 수의 이전 프레임들을 사용해 디노이징되므로 디노이징 성능이 향상됩니다.
- 단점: 잠재 파티셔닝만 사용하는 경우보다 계산량이 두 배로 증가합니다.
이를 통해 잠재 파티셔닝과 룩어헤드 디노이징이 결합되어 잡음 수준 차이를 줄이고 디노이징 성능을 향상시키는 반면, 계산 비용이 증가하는 점을 설명하고 있습니다.
FIFO-Diffusion의 영상 발전측면의 의의
FIFO-Diffusion을 사용함으로써, 무제한 길이의 비디오를 생성할 수 있으며, 이는 기존의 비디오 생성 기술들과 비교했을 때 매우 큰 진보입니다. 이 기술은 비디오의 일관된 장면 전환과 역동적인 요소들을 유지하면서, 긴 동영상을 고해상도로 생성할 수 있게 합니다.
관련 사이트
구현 : https://huggingface.co/papers/2405.11473 –
논문 : https://arxiv.org/pdf/2405.11473
발표사이트 https://jjihwan.github.io/projects/FIFO-Diffusion
<이하 광고>
- AI 칩 전쟁 (3) : 스핀 트랜지스터
- AI 칩 전쟁 (2) : 그래프코어 IPU, 그래프 구조 최적화와 저지연 처리로 AI 연산 혁신
- AI 칩 전쟁 (1) : 웨이퍼 하나를 하나의 칩으로 사용하는 세레브라스의 혁신 전략
- 제철소 용광로에도 AI 기술이
- EU의 AI 법, 중소 AI 기업엔 규제의 턱이 될 가능성이 높아
- AI 칩 전쟁 (3) : ‘디지털 딥러닝’을 뒤쫒는 ‘아나로그 딥러닝’기술
- AI 기업 분석 (1) : Palantir
- 지구상의 ‘AI chip’ 전쟁
- 세상에서 가장 인기있는 AI WEB 사이트 50개
- 캐릭터 사이의 상호작용마저 자동으로 생성하는 ‘Show Runner’ 플랫폼
- 제디터로 상세페이지 고민 끝
- WAFOUR, 동영상의 일관성 문제 해결할 snowpea AI
- chatGPT, 잦은 먹통에 성장통
- AI 사업 아이디어 (29) : 건설 현장에서 맹활약 중인 AI… DL이엔씨
- 의료와 재난 상황에 깊숙이 투입되고 있는 AI
- FIFO-Diffusion 기술, 컨베이어 벨트방식으로 무한한 길이의 고품질 동영상 생성
- AI 생성 음악도 마켓팅이 필요하다
- 생성 AI로 경험해 보지 못한 무한대의 소리까지..가우디오랩
- 현재 우리나라 데이터 센터의 갯수 38개는 꼴찌수준입니다
- 요리하는데 도움주는 AI 사이트 5개
- 온프레미스와 오픈 소스는 AI 시대의 필수 전략
- LPDDR을 이용한 마하칩은 HBM을 따돌릴 수 있을까
- 로컬에서 AI 챗봇과 언어모델 실행을 위한 가이드
- chatGPT4옴니로 엑셀파일에 함수를 자유자재로 부리기
- 쇼셜미디어에서 쇼셜과 미디어가 분리되는 AI 시대에 더욱 커지는 콘텐츠 관리의 중요성
- 메타, GPT-4옴니에 필적할 LLM으로 ‘카멜레온’ 발표
- Runway로 움직이는 상품 이미지 만들어 마켓팅에 돌풍을!
- AI를 이해하기에 적절하며, 유용한 사이트 21개
- CCTV에 AI 도입시 고려 사항
- 구글, 유저들의 프픔프트 작성을 위한 안내 책자 배포
- 인공지능 시대에 더욱 커지는 ‘사람의 역할’, 비영리재단 퓨처 오브 라이프
- 구글의 저력, Sora에 필적할 Veo 방출
- 구글과 OpenAI 진영과의 숨막히는 대결…2024구글 IO
- 마인크래프트(Minecraft) 게임에도 자율 AI 에이전트 도입
- AI 시대의 이야기의 힘 : Storytelling이 왜 중요한가?
- URL만으로도 비디오 생성해주는 AI 사이트, 생성비디오 활용은 신중해야
- OpenAI의 GPT-4옴니, 인간처럼 보고 듣고 말하는 AI 비서
- Google, ‘AlphaFold 3’로 거의 모든 생물학적 분자 구조 예측 가능
- AI 생성음악을 MIDI 파일로 만들어 주는 ‘뮤지아 원’, 좋은 음악교육 도구
- Runway의 두 번째 AI 영화제: 과거와 미래를 잇는 예술의 장
- 소라, 700개 클립 생산해 한 개의 상업용 뮤직비디오 제작에 성공
- 생성AI의 일관성 유지기술 완성이 코앞에 다가왔다-Story Diffusion
- AI 뮤직비디오 걸작은 어디서 나올까, Noisee.ai에 가보세요
- 60개의 AI를 한눈에 서비스 하는 초강력 사이트, ‘POE.com’
- 만화에 진심인 Comic AI, Skyreels로 변경
- 제품과 서비스 홍보용 만화 그리기 좋은 AI 사이트-‘Wetoon’
- 구글의 VLOGGER-목소리와 사진 한장으로 나의 분신을 만든다
- chatGPT도 어도비와 같은 AI 그림 편집기능 도입
- 분실한 휴대폰 금방 찾는다, 구글의 ‘내 디바이스 찾기’
- AI와 블록체인: 코인광풍에 조심해야 할 키워드
- Nvidia, 지구의 기후변화에 대비하는 디지털 트윈 Earth-2 플랫폼 공개
- 메타버스와 AI: 로블록스의 혁신은 AI로 부터
- 애플, 혁신보다 개선에 초점을 맞춘 이미지-텍스트 기술 공개
- 미드저니, cref+url 문구삽입으로 캐릭터의 일관성 유지해
- chatGPT로 전력요금 계산하고 그래프로 보여주는 웹앱 만드는 방법
- chatGPT의 Dalle-3로 표현해보는 미술사조별 그림 스타일
- 텍스트 10만자를 일관성있는 웹툰으로 만들어버리는 AI..Lore Machine의 등장
- AI가 만드는 무한한 가상 세계: 구글 지니(GINIE)
- OpenAI, LLM으로 현실감 넘치는 동영상 생성하는 소라(Sora) 발표
- 페이크(Fake)에 속는 심리적 취약점 53가지
- AI 생성 콘텐츠와 실제 콘텐츠를 구별하는 10가지 방법
- 구글, 현실같은 AI 비디오 생성기 ‘루미에르(lumiere)’ 오픈
- 우리집 전기요금 얼마나 나올까, 요금계산 해보는 앱.
- 2024년 새해에는 4차 산업혁명의 폭발로 인구절벽 해결하자
- 한 해 국내 강력 범죄 발생 현황(2022)
- 2023.1-8월 국내 마약 사범 현황
- 위약금 장사
- 생존을 위해 압류를 차단하는 사례 모음
- 발렌타인데이에 보낼 소중한 e-card 제작
- 신년 e-card 보내기
- e-성탄카드를 직접 만드는 손쉬운 방법