FIFO-Diffusion 기술, 컨베이어 벨트방식으로 무한한 길이의 고품질 동영상 생성

FIFO-Diffusion 기술은 서울대학교 연구진에 의해 개발되어 무한한 길이의 고품질 동영상 생성이 가능하게 한 혁신적인 기법입니다. 이 기술은 기존의 디퓨전(diffusion) 기반 모델들을 발전시켜, 보다 효율적이고 실시간에 가까운 비디오 생성을 가능하게 한 것이죠

눈여겨 보아야 할 FIFO-Diffusion의 두 가지 기술

기존 시중에 나와 있는 디퓨전 모델은 무작위적인 잠재 공간(latent space)에서 이미지를 생성하기 위해 denoising 과정을 반복합니다. 이는 특정 프레임을 고정한 후 denoising을 하고, 그 다음 프레임으로 넘어가는 순차적인 방식을 사용했습니다. 이러한 방식은 시간이 많이 소요되며, 비디오의 연속성을 유지하기 어렵습니다.

반면, FIFO-Diffusion은 마치 컨베이어 벨트처럼 작동하여, 이미 생성된 프레임은 제거하고 새로운 프레임에 대해 노이즈를 추가하면서 지속적으로 이미지를 생성합니다. 이 방식은 각기 다른 timestep에서 동시에 여러 프레임을 denoising 할 수 있기 때문에, 생성 과정이 훨씬 더 빠르고 효율적입니다.

그래서 FIFO- Diffusion은 한 번에 denoising하는 latent들의 timestep이 다 다르게 됩니다. 그리고 이처럼 timestep이 다른 것들을 더 작은 단위인 Partition으로 나누면서 Partition 안에서 TimeStep 간의 차이가 더 작아지기 때문에 이를 병렬적으로 처리하고 합치면 더 쉽고 연속적이게 하나의 일관된 비디오 시퀀스가 생성이 되는 것입니다. 이런 방식으로 별도의 추가 교육 없이도 고품질의 긴 동영상, 일관된 장면의 역동성, 이 모든 것이 가능해졌습니다.

1. Diagonal Denoising

FIFO-Diffusion에 주목해야할 첫번째 기술방식은 컨베이어 벨트에 비유할 수 있습니다. 생산 라인에서 완성된 제품은 라인 끝에서 제거되고 새 원료가 추가되듯이, FIFO-Diffusion에서는 이미 생성된 비디오 프레임을 제거하고, 새 프레임을 위해 새로운 노이즈가 추가된 잠재 상태를 입력합니다. 이 과정이 반복되면서 연속적으로 프레임이 생성됩니다. 이 방식의 주요 이점은, 다양한 시점(timestep)에서 동시에 여러 프레임을 처리할 수 있다는 것입니다. 이는 기존 방법보다 빠르고 효율적으로 비디오를 생성할 수 있게 해줍니다.

위의 설명은 “f = 4″일 때 대각선 디노이징(diagonal denoising)을 그림으로 설명하는 것입니다. 내용을 정리하면 다음과 같습니다:

  1. 입력 프레임: 실선으로 둘러싸인 프레임들이 모델의 입력으로 사용됩니다.
  2. 디노이징된 프레임: 점선으로 둘러싸인 프레임들이 디노이징된 결과물입니다.
  3. 디노이징 과정: 입력 프레임들이 디노이징 과정을 거쳐 각 프레임의 잡음이 제거됩니다.
  4. 최종 디노이징 인스턴스: 디노이징이 완료된 최종 프레임은 오른쪽 상단 코너에 위치하며, 이 인스턴스는 큐에서 제거(dequeue)됩니다.
  5. 랜덤 노이즈 추가: 큐에서 제거된 프레임 대신 랜덤 노이즈가 포함된 새로운 프레임이 큐에 추가(enqueue)됩니다.

이를 통해 모델은 반복적으로 입력 프레임을 디노이징하여 잡음을 제거하고, 잡음이 제거된 프레임을 교체하며 지속적인 학습 과정을 이어갑니다.

2. latent partitioning

두 번째로, FIFO-Diffusion 기술의 포인트는 이처럼 잠재공간을 더 작은 단위로 나누는 latent partitioning입니다. 이 기법을 통해 잠재 공간을 더 작은 단위로 나누어 각 파티션 내에서 timestep 간의 차이를 최소화하고 이는 훈련 시와 추론 시 발생할 수 있는 ‘training-inference gap’을 줄여, 일관된 품질의 비디오 생성을 돕습니다.

 

위 그림은  “f = 4” 및 “n = 2″일 때 잠재 파티셔닝(latent partitioning)과 룩어헤드 디노이징(lookahead denoising)을 설명하는 것입니다. 내용을 정리하면 다음과 같습니다:

  1. 잠재 파티셔닝:

    • 정의: 디퓨전(diffusion) 과정을 n 부분으로 나누어 최대 잡음 수준 차이를 줄이는 방법입니다.
    • 목적: 잡음 수준 차이를 줄임으로써 디노이징 과정의 일관성을 높입니다.
  2. 룩어헤드 디노이징:

    • 정의: 잠재 파티셔닝된 프레임에 대해 이전 프레임들을 충분히 참조하여 모든 프레임을 디노이징하는 방법입니다.
    • 장점: 모든 프레임이 적절한 수의 이전 프레임들을 사용해 디노이징되므로 디노이징 성능이 향상됩니다.
    • 단점: 잠재 파티셔닝만 사용하는 경우보다 계산량이 두 배로 증가합니다.

이를 통해 잠재 파티셔닝과 룩어헤드 디노이징이 결합되어 잡음 수준 차이를 줄이고 디노이징 성능을 향상시키는 반면, 계산 비용이 증가하는 점을 설명하고 있습니다.

FIFO-Diffusion의 영상 발전측면의 의의

FIFO-Diffusion을 사용함으로써, 무제한 길이의 비디오를 생성할 수 있으며, 이는 기존의 비디오 생성 기술들과 비교했을 때 매우 큰 진보입니다. 이 기술은 비디오의 일관된 장면 전환과 역동적인 요소들을 유지하면서, 긴 동영상을 고해상도로 생성할 수 있게 합니다.

관련 사이트

구현 : 
https://huggingface.co/papers/2405.11473
논문 : https://arxiv.org/pdf/2405.11473

발표사이트  https://jjihwan.github.io/projects/FIFO-Diffusion

<이하 광고>

© 2023 나의 웹 페이지