MIT의 컴퓨터 과학 및 인공지능 연구소(CSAIL) 연구진이 기존의 복잡한 확산 모델을 단일 단계로 간소화하여, AI 이미지 생성 속도를 30배 이상 빠르게 만드는 새로운 방법을 개발했습니다. 이 방법은 “분포 일치 증류(DMD:distribution matching distillation) “라는 기술을 사용하여, 복잡한 모델의 동작을 모방하는 새로운 모델을 훈련시켜 이미지 품질을 유지하거나 향상시키면서도 생성 속도를 크게 향상시켰습니다.
핵심 기능:
- 단일 단계 이미지 생성: 기존 확산 모델은 여러 단계를 거쳐 이미지를 생성했지만, DMD는 이 과정을 단일 단계로 줄여 이미지 생성 속도를 크게 향상시킵니다.
- 고품질 이미지 유지: DMD는 기존의 복잡한 모델과 유사한 품질의 이미지를 생성하면서도, 더 빠른 속도로 이미지를 생성할 수 있습니다.
- 적용 가능성: 이 기술은 디자인 도구의 효율성을 높이고, 약물 발견과 3D 모델링 같은 분야에서도 중요한 발전을 가져올 수 있습니다.
기술적 설명:
- 회귀 손실과 분포 일치 손실: DMD는 두 가지 손실을 사용하여 이미지 생성 과정을 안정적으로 만듭니다. 회귀 손실은 이미지 공간의 거친 조직화를 보장하고, 분포 일치 손실은 생성된 이미지가 실제 이미지의 분포와 일치하도록 돕습니다.
- 사전 훈련된 네트워크: 연구진은 기존의 복잡한 모델에서 사전 훈련된 네트워크를 사용하여 새로운 모델을 훈련시켰으며, 이를 통해 빠른 학습 수렴을 달성했습니다.
위의 논문 도표는 MIT 연구팀이 개발한 DMD(Distribution Matching Distillation) 방법의 개요를 보여줍니다.
주요 요소 설명:
- One-Step Generator (Gθ): 왼쪽의
random latent z
에서 시작하여, 노이즈가 포함된 입력을 받아 한 단계에서 이미지를 생성합니다. - Paired Dataset: 사전에 생성된 데이터셋을 사용하여 실제 이미지와 생성된 이미지의 차이를 비교합니다.
- Distribution Matching Gradient Computation: 오른쪽에서는
real score
와fake score
라는 두 가지 점수를 계산하여, 실제 이미지와 생성된 이미지 간의 유사성을 평가합니다. - Diffusion Loss 및 Regression Loss: 생성된 이미지가 실제와 얼마나 유사한지를 평가하고 이를 바탕으로 모델을 개선하는 과정이 포함되어 있습니다.
이 과정은 전통적인 여러 단계의 이미지 생성 방법을 단일 단계로 간소화하면서도, 이미지의 품질을 유지하거나 향상시키는 것을 목표로 합니다.
이론적으로 이 접근법은 생성적 적대 신경망(GAN)의 원리와 확산 모델의 원리를 결합하여 단일 단계로 시각적 콘텐츠를 생성합니다. 이는 현재 확산 모델에서 필요한 100단계의 반복적 정제를 뛰어 넘을 수 있습니다. 따라서 이는 속도와 품질 면에서 뛰어난 새로운 생성 모델링 방법이 될 가능성이 높습니다.”
<이하 광고>