Replies: 5 comments 2 replies
-
질문1 : fps 입력은 무슨 역할을 하나요???디퓨전 입력에 넣는 거
|
Beta Was this translation helpful? Give feedback.
-
모델 앞 부분의 VAE encoder & decoder는 Stable Diffusion의 것을 가져와 사용했다는데, 학습 과정에서 고정되어 있었는지, 해당 부분도 학습을 시켰는지 언급이 되었나요? 이처럼 다른 모델의 trained model을 그대로 가져와 사용하는 경우가 많은지 궁금합니다! |
Beta Was this translation helpful? Give feedback.
-
Spatial Transformer랑 Temporal Transforemr랑 정확히 어떻게 동작하는지 궁금하네요. 시간 될 때 코드보고 공유해드리겠습니다. |
Beta Was this translation helpful? Give feedback.
-
Image Condition 모델은 다른 모델과 비교했을 때, 첫 이미지와 유사한 장점이 있지만, 다음 프레임에서의 변화가 줄어드는 문제점이 있을 수 있을까요? |
Beta Was this translation helpful? Give feedback.
-
저희 스터디 때 결론이 못 났던 내용 생각나서 정리해봤습니다. Q1 ) VAE는 학습 대상인지? Q2 ) Temporal transformer의 역할? Q3 ) 산에서 바다로 frame이 급변하는 동영상을 만드는 것도 잘 하는지? |
Beta Was this translation helpful? Give feedback.
-
논문링크
발표자료
Github
🎥 고품질 비디오 생성 모델: T2V & I2V 🚀
🔍 개요
비디오 생성은 학계와 산업계 모두에서 큰 관심을 받고 있습니다. 상용 도구들이 그럴듯한 비디오를 생성할 수 있지만, 연구자들이 사용할 수 있는 오픈소스 모델은 여전히 부족합니다. 이 연구에서는 텍스트-비디오(T2V) 및 이미지-비디오(I2V) 두 가지 확산 모델을 제안합니다.
💡 T2V 모델
💡 I2V 모델
🌐 배경
🎯 기여
🔧 기술적 세부사항
Beta Was this translation helpful? Give feedback.
All reactions