通义万相2.1首尾帧生视频模型开源
Wan2.1-FLF2V-14B 来了!全球首个开源的百亿参数首尾帧生视频模型,只需要提供两张照片作为首帧和尾帧,模型便能自动生成一段丝滑流畅的高清视频。
🤝可在@ModelScope官方账号 @HuggingFace 、GitHub等社区获取
📊 数据驱动的训练策略:数据集逐步升级,从480p到720p分辨率,提升生成视频的质量。
第一阶段:混合训练图生视频、插帧、续写及首尾帧模型,学习有效的掩码机制。
第二阶段:构建专门用于首尾帧模式的数据集,筛选首尾帧差异较大的视频片段,专注首尾帧模型训练。
第三阶段:使用高质量数据集,在720p分辨率下进一步优化首尾帧模型。
⚛️ 先进的模型架构
基于DiT架构,结合Flow Matching训练策略,我们设计了一套高效的首尾帧条件控制机制,在保证首尾帧完美复刻的情况下,能很好的遵循用户指令,生成动作连贯,运动真实,符合真实世界规律的高质量视频
🚀 高效的训练和推理优化
我们使用了DP、CP、FSDP等多种分布式并行策略,提升训练以及推理效率
Wan2.1-FLF2V-14B模型也在通义万相官网同步上线,欢迎大家即刻体验~
立即观看