【旭才科技】3 月 27 日消息,阿里云宣布通义千问 Qwen2.5-Omni-7B 正式开源。
Qwen2.5-Omni 支持文本、图像、音频和视频等多种输入形式,并实时生成文本与自然语音合成输出。
阿里云介绍,在权威的多模态融合任务 OmniBench 等测评中,Qwen2.5-Omni 全维度远超 Google 的 Gemini-1.5-Pro 等同类模型。在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的 Audio 或 VL 模型,且语音生成测评分数 (4.51) 达到了与人类持平的能力。
目前,Qwen2.5-Omni 已在魔搭社区和 Hugging Face 同步开源,开发者和企业可免费下载商用 Qwen2.5-Omni,手机等终端智能硬件也可轻松部署运行。另外,用户也可在 Qwen Chat 上直接体验。