【旭才科技】2 月 27 日消息,大模型开源的风吹到了视频生成大模型。阿里云日前放出重磅消息:万相,开源!
阿里云视频生成大模型万相 2.1(Wan) 正式开源,此次开源采用 Apache2.0 协议,14B 和 1.3B 两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在 Github、HuggingFace、魔搭社区下载体验。
从 2023 年开始,阿里云就坚定大模型开源路线,其千问 (Qwen) 衍生模型数量已超过 10 万个。随着万相的开源,阿里云实现了全模态、全尺寸的开源。
四个开源模型

此次开源共有四个模型,文生和图生各两个,两个参数版本。两个文生视频模型分别是 1.3B 和 14B 两个规格;两个图生视频模型都是 14B,分辨率一个 480P 一个 720P。
14B 版本万相模型:在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集 Vbench 中,万相 2.1 以总分 86.22% 大幅超越 Sora、Luma、Pika 等国内外模型,稳居榜首位置。
1.3B 版本万相模型:不仅超过了更大尺寸的开源模型,甚至还和一些闭源的模型结果接近,同时能在消费级显卡运行,仅需 8.2GB 显存就可以生成 480P 视频,适用于二次模型开发和学术研究。
有用户表示,1.3B 的万象模型在 RTX4090 上跑一条 5 秒钟的 480P 视频的时间大概只要 4 分钟。
阿里云特别强调,万相 2.1(Wan) 大模型是首个具备支持中文文字生成能力,且同时支持中英文文字特效生成的视频生成模型。
实验结果显示,在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中,万相表现出色,并且斩获 5 项第一。尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能稳定呈现人物的旋转、跳跃等高难度动作,并逼真模拟物体碰撞、反弹和切割等真实物理效果。
良好表现的背后,是基于主流的 DiT 和线性噪声轨迹 Flow Matching 范式,万相大模型通过一系列技术创新实现了生成能力的重大进步。包括自研高效的因果 3D VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标,这些创新共同提升了模型的最终性能表现。
阿里展示了诸多万相大模型生成的视频,大家看看效果:

开源地址:
Github: https://github.com/Wan-Video
HuggingFace: https://huggingface.co/Wan-AI
魔搭社区:https://modelscope.cn/organization/Wan-AI