👾 [Paper-1] VideoCrafter1: Open Diffusion Models for High-Quality Video Generation #3

fxnnxc · 2024-09-26T10:14:17Z

fxnnxc
Sep 26, 2024
Maintainer

🎥 고품질 비디오 생성 모델: T2V & I2V 🚀

🔍 개요

비디오 생성은 학계와 산업계 모두에서 큰 관심을 받고 있습니다. 상용 도구들이 그럴듯한 비디오를 생성할 수 있지만, 연구자들이 사용할 수 있는 오픈소스 모델은 여전히 부족합니다. 이 연구에서는 텍스트-비디오(T2V) 및 이미지-비디오(I2V) 두 가지 확산 모델을 제안합니다.

💡 T2V 모델

주어진 텍스트 입력을 기반으로 비디오를 생성
1024 × 576 해상도의 현실적이고 영화 같은 품질의 비디오 생성 가능
다른 오픈소스 모델에 비해 더 나은 품질을 제공

💡 I2V 모델

이미지 입력을 추가로 받아, 주어진 이미지의 내용, 구조, 스타일을 유지하며 비디오 생성
최초의 오픈소스 I2V 기초 모델로, 콘텐츠 보존 제약 조건을 충족하는 영상 변환 가능

🌐 배경

Stable Diffusion(SD) 와 같은 텍스트-이미지(T2I) 모델은 이미지 생성에서 큰 성과를 보였지만, 텍스트-비디오(T2V) 분야에서는 오픈소스 모델이 부족함
상용 도구들은 고품질 비디오를 생성할 수 있지만, 연구자들에게는 접근이 어려움
현존하는 몇몇 오픈소스 모델들은 저해상도(256 × 256) 비디오 생성이나 품질 문제가 있음

🎯 기여

텍스트-비디오(T2V) 모델은 1024 × 576 해상도의 고품질 비디오를 생성할 수 있으며, 2초 동안 지속
이미지-비디오(I2V) 모델은 콘텐츠와 구조를 엄격히 유지하며, 텍스트와 이미지 입력 모두 허용
연구자들과 개발자들이 이를 기반으로 더 나은 비디오 생성 기술을 개발할 수 있도록, 오픈소스 커뮤니티에 큰 기여

🔧 기술적 세부사항

T2V 모델: SD 2.1을 기반으로, 시간 일관성을 유지하기 위한 시간 주의(attention) 레이어 추가
I2V 모델: CLIP을 활용하여 이미지 임베딩을 추출, 텍스트 임베딩과 유사하게 SD UNet에 삽입
학습 데이터: LAION COCO 600M, Webvid10M 등 총 10M 고해상도 비디오 데이터셋 사용

fxnnxc · 2024-09-26T10:15:53Z

fxnnxc
Sep 26, 2024
Maintainer Author

질문1 : fps 입력은 무슨 역할을 하나요???

디퓨전 입력에 넣는 거

fps
time
text prompt
image prompt

0 replies

chointer · 2024-09-30T11:30:14Z

chointer
Sep 30, 2024
Maintainer

모델 앞 부분의 VAE encoder & decoder는 Stable Diffusion의 것을 가져와 사용했다는데, 학습 과정에서 고정되어 있었는지, 해당 부분도 학습을 시켰는지 언급이 되었나요? 이처럼 다른 모델의 trained model을 그대로 가져와 사용하는 경우가 많은지 궁금합니다!

0 replies

howsmyanimeprofilepicture · 2024-09-30T11:54:50Z

howsmyanimeprofilepicture
Sep 30, 2024
Maintainer

Spatial Transformer랑 Temporal Transforemr랑 정확히 어떻게 동작하는지 궁금하네요. 시간 될 때 코드보고 공유해드리겠습니다.

1 reply

howsmyanimeprofilepicture Oct 1, 2024
Maintainer

Spatial Attention

https://github.com/AILab-CVC/VideoCrafter/blob/main/lvdm/modules/attention.py#L262-L278
위 링크(해당 논문의 공식 코드)를 보면 'b c h w -> b (h w) c'의 reshape가 이루어 지는데... 이렇게 되면 (각 패치별로 guidance와의 CrossAttention을 계산하는) 일반적인 디퓨전에서의 어텐션이 계산될 것으로 보입니다. Spatial Attention을 계산할 때는 프레임단위로 인풋이 전달되는 것이 아니라, 각 프레임이 독립된 이미지로 취급되어 어텐션을 계산하는 것으로 보입니다.

https://github.com/AILab-CVC/VideoCrafter/blob/main/lvdm/modules/networks/openaimodel3d.py#L36-L48

여길 참고해보시면 힌트가 될 것 같습니다.

Temporal Attention

https://github.com/AILab-CVC/VideoCrafter/blob/main/lvdm/modules/attention.py#L331-L373
위 링크(해당 논문의 공식 코드)를 보면, (b, c, t, h, w)였던 input이 (bhw, t, c)로 reshape되는 걸 볼 수 있는데, 이 상태로 multihead self-attention이 되는 것으로 보입니다. 이렇게 되면 각 패치별로 프레임간의 어텐션이 계산될 거예요.

Joovvhan · 2024-10-01T13:07:15Z

Joovvhan
Oct 1, 2024
Maintainer

Image Condition 모델은 다른 모델과 비교했을 때, 첫 이미지와 유사한 장점이 있지만, 다음 프레임에서의 변화가 줄어드는 문제점이 있을 수 있을까요?

0 replies

lynnminn · 2024-10-14T06:32:25Z

lynnminn
Oct 14, 2024
Maintainer

저희 스터디 때 결론이 못 났던 내용 생각나서 정리해봤습니다.

Q1 ) VAE는 학습 대상인지?
-> 논문에는 다음과 같이 나와서 fine tuning 했는지에 대한 해석이 모호하지만 일반적으로 VAE는 latent vector 관련 역할만 하고 frozen 시킨다고 함. 학습 대상이 되는 것은 noise & denoise 하는 구간
We adopt the pretrained VAE from the Stable Diffusion model to serve as the video VAE and project each frame individually without extracting temporal information.

Q2 ) Temporal transformer의 역할?
-> Crafter 논문에서 제안하는 것이 temporal transformer로 frame들을 모아서 연속된 frame을 생성하는 역할. motion dynamics를 유지하는 역할을 하고 있음
These models extend the SD framework to videos by incorporating temporal layers to ensure temporal consistency among frames.

Q3 ) 산에서 바다로 frame이 급변하는 동영상을 만드는 것도 잘 하는지?
-> 아직 video 생성쪽에서 이런 영상을 잘 만들지는 못 함. 일단 비디오 캡셔닝이 잘 안 되어 있어서 산에서 바다로 바뀌어야 한다는 context 자체도 이해하지 못 함
-> 만약 tooncrafter 처럼 frame 중간 중간 스케지 이미지가 존재한다면, 가능할 수도 있음
-> 아니면 영상을 짧게 쪼개서 만들어서 이어 붙이면 가능함

1 reply

fxnnxc Oct 14, 2024
Maintainer Author

감사합니다~!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

👾 [Paper-1] VideoCrafter1: Open Diffusion Models for High-Quality Video Generation #3

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 5 comments 2 replies

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

Select a reply

👾 [Paper-1] VideoCrafter1: Open Diffusion Models for High-Quality Video Generation #3

fxnnxc Sep 26, 2024 Maintainer

🎥 고품질 비디오 생성 모델: T2V & I2V 🚀

🔍 개요

💡 T2V 모델

💡 I2V 모델

🌐 배경

🎯 기여

🔧 기술적 세부사항

Replies: 5 comments · 2 replies

fxnnxc Sep 26, 2024 Maintainer Author

질문1 : fps 입력은 무슨 역할을 하나요???

chointer Sep 30, 2024 Maintainer

howsmyanimeprofilepicture Sep 30, 2024 Maintainer

howsmyanimeprofilepicture Oct 1, 2024 Maintainer

Spatial Attention

Temporal Attention

Joovvhan Oct 1, 2024 Maintainer

lynnminn Oct 14, 2024 Maintainer

fxnnxc Oct 14, 2024 Maintainer Author

fxnnxc
Sep 26, 2024
Maintainer

Replies: 5 comments 2 replies

fxnnxc
Sep 26, 2024
Maintainer Author

chointer
Sep 30, 2024
Maintainer

howsmyanimeprofilepicture
Sep 30, 2024
Maintainer

howsmyanimeprofilepicture Oct 1, 2024
Maintainer

Joovvhan
Oct 1, 2024
Maintainer

lynnminn
Oct 14, 2024
Maintainer

fxnnxc Oct 14, 2024
Maintainer Author