前沿科技

阿里云开源全模态模型 Qwen2.5-Omni-7B,手机上就能部署

【旭才科技】3 月 27 日消息,阿里云宣布通义千问 Qwen2.5-Omni-7B 正式开源。

Qwen2.5-Omni 支持文本、图像、音频和视频等多种输入形式,并实时生成文本与自然语音合成输出。

阿里云介绍,在权威的多模态融合任务 OmniBench 等测评中,Qwen2.5-Omni 全维度远超 Google 的 Gemini-1.5-Pro 等同类模型。在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的 Audio 或 VL 模型,且语音生成测评分数 (4.51) 达到了与人类持平的能力。

目前,Qwen2.5-Omni 已在魔搭社区和 Hugging Face 同步开源,开发者和企业可免费下载商用 Qwen2.5-Omni,手机等终端智能硬件也可轻松部署运行。另外,用户也可在 Qwen Chat 上直接体验。

推荐阅读

星图数据:2024 年双 11 全网交易总额超 1.4 万亿元 同比增长 26.6%

admin

:苹果研究人形与非人形机器人,字节因涉嫌代码抄袭被判赔 8266 万

admin

百度文小言 APP 接入 DeepSeek-R1 优化拍照解题功能,我们试了一下

admin