29 C
Changsha
2025 年 10 月 11 日 5 时 08 分 10 秒
全球资讯

一周 AI 大事:Sora 2 开启"造梦时代",马斯克机器人在学功夫

文章来源:TechWeb

一、重磅工具:Sora 2 视频生成模型发布——造梦人已就位,AI 帮你把 『主角梦』 拍成现实

新闻:OpenAI 发布 Sora 2 视频生成模型,并通过一段介绍视频展示了其强大功能。Sora 2 提升了视频的真实感、画质和一致性,实现了音画同步,还支持用户通过自己的肖像生成客串视频。

OpenAI 还同步推出搭载 Sora 2 模型的 iOS 应用,内置 TikTok 风格的视频信息流供用户发现生成内容,并集成了 AI 视频创作功能。Sora 的 「客串」(Cameos) 功能允许用户上传个人肖像,让自己出现在生成的视频中。这一有趣功能催生了大量广泛传播的 Sora 2 视频。目前 Sora 模型仍处于邀请制阶段,邀请码正分批发放。

锐评:Sora 2 让你一秒 「穿越」 进大片当主角,前提是……得先有邀请码。

二、AI 技术与产品发布——从代码到功夫,从云端到桌面:大模型 「诸神之战」 比各大景区还热闹

1. 新闻:Anthropic 公司发布 Claude Sonnet 4.5。官方称其在编程、智能体 AI 和计算机操作方面表现优异,具备强大的推理和工具使用能力。在编程类基准测试 SWE-bench Verified 中,该模型取得 77.2% 的顶尖成绩,并行测试时可达 82.0%;在 「计算机操作」 任务中的得分也达到顶尖水平,为 61.4%。

相较于业内顶级模型,Claude Sonnet 4.5 在构建金融分析、智能体工具使用等智能体工作流方面的性价比超高。目前用户评价褒贬不一,但普遍认为其 UI 表现优异,而且能用各种刁钻古怪的提示词来测试 Sora 2 的极限。Claude Sonnet 4.5 在速度和价格上都有显著提升,能以 Sonnet 4 的定价提供媲美 Claude 4.1 Opus 的性能,不过其成本仍然是 GLM-4.6 的 8 倍。

锐评:性能直追顶配版,价格却只要 「中配」 的钱,唯一烦恼可能是隔壁国产大模型比它便宜了 8 倍。

2. 新闻:智谱 AI 发布 GLM-4.6。作为 GLM-4.5 的升级版,GLM-4.6 支持更长的上下文 (最高 20 万 token),提升了编码和推理性能,并降低了实际应用中的 token 消耗。此次更新专注于增强智能体工作流能力,在 Terminal-Bench 测试中得分为 40.5%,在 GPQA 测试中得分 81.0%,在 HLE 中得分 17.2%,SWE-bench Verified 得分 68%,在顶尖模型中性价比极高。GLM-4.6 已开放模型权重,用户可通过智谱清言平台和 HuggingFace 获取。

锐评:加量还降价,誓要卷死海外同行。

3. 新闻:DeepSeek(深度求索) 发布 DeepSeek-V3.2-Experimental。该模型基于 DeepSeek-V3.1-Terminus 开发,引入 「深度求索稀疏注意力」(DSA) 机制,在保证与前代模型同等质量的前提下,显著降低了长上下文场景下的训练和推理计算量。根据 《DeepSeek-V3.2-Exp 技术报告》 的阐释,DSA 的细粒度稀疏注意力机制使注意力复杂度接近线性而非二次方变化,因此能以更低成本处理长上下文查询并保证结果质量。这也让 DeepSeek 能将其 API 推理价格减半。

锐评:啥是 「稀疏注意力」 不重要,重要的是深度求索靠这招把 API 价格直接砍了一半。

4. 新闻:腾讯发布混元生图 3.0(HunyuanImage 3.0)。这是一个开源权重的 800 亿参数混合专家 (MoE) 文生图模型,每 token 激活参数达 130 亿。这款强大的多模态模型在自回归框架下统一了多模态理解和图像生成,效果斐然。混元生图 3.0 已登顶 LMArena 综合榜与文生图专项榜,超越原冠军 NanoBanana。腾讯混元已在 Hugging Face 公开权重并发布了技术报告。

锐评:一不小心就坐上了全球开源文生图的头把交椅。

5. 新闻:阿里云通义千问 Qwen3 系列模型发布并开源了新一代多模态模型 Qwen3-VL-30B-A3B-Thinking 和 Qwen3-VL-30B-A3B-Instruct。Qwen3-VL 是一个多模态视觉语言模型系列,基于其前代产品,在视觉理解方面实现了显著提升,同时保持了强大的纯文本处理能力。

锐评:前有鹅厂登顶,后有阿里通义上新,国产大模型 「神仙打架」。

6. 新闻:Hume AI 推出新一代文本转语音模型 Octave 2,具备更低延迟 (低于 200 毫秒) 和深度情感理解能力,并将多语言支持扩展到 11 种语种。用户可通过 Hume 平台和 API 预览体验版。

锐评:AI 语音还能读懂你的情绪,以后吵架可能都吵不赢它了。

7. 新闻:俄罗斯 AI 研究实验室 AI-Forever 开源了文本生视频模型 Kandinsky 5.0 T2V Lite。该模型参数为 20 亿,为生成 5 到 10 秒的 AI 视频提供了领先的轻量级开源方案。Kandinsky 5.0 T2V Lite 包含多个变体,针对不同时长和流程进行了优化。相关代码和说明发布在 GitHub 平台,模型权重可通过 HuggingFace 获取。

锐评:俄罗斯老铁送温暖,轻量级开源视频模型让普通玩家也能尝鲜 AI 大片。

8. 新闻:ServiceNow SLAM 实验室发布开源权重多模态推理模型 Apriel-1.5-15B-Thinker,在之前 Apriel 系列文本模型的基础上增加了图像推理能力。报告显示其性能可与许多更大规模的系统相媲美,模型权重和介绍已上线 Hugging Face。

锐评:Apriel 证明 「小个子」 也能有大智慧,专治各种 「参数焦虑症」。

9. 新闻:Liquid AI 发布端到端音频语言基础模型 LFM2-Audio-1.5B,专为低于 100 毫秒的响应延迟而设计。LFM2-Audio-1.5B 支持实时轻量级助手,可以同时理解和生成语音及文本。用户可通过官方平台体验演示版本,模型权重已上线 HuggingFace。

锐评:低于 100 毫秒的响应速度,比你反应还快的 AI 语音助手来了。

10. 新闻:Perplexity 旗下智能体浏览器 Comet 全面开放免费下载。Comet 将研究导向的界面与 Perplexity 问答引擎深度融合,内置引文和快速捕捉等工具,定位为面向搜索与写作场景的 「为你服务」 型 AI 优先浏览器。Comet 付费版还增加了团队协作和高级功能。模型功能、平台支持以及下载安装链接均在官网详细列明。

锐评:Comet 想让你彻底忘记传统搜索框,直接把问题喂给浏览器。

11. 新闻:挪威浏览器公司 Opera 发布 AI 浏览器 Neon,宣称其为一款 「为行动而生」 的智能体辅助浏览器。Neon 已向部分用户开放,月费 19.90 美元,其他用户可申请加入候补名单。Comet 和 Neon 的相继发布加剧了 AI 浏览器领域的激烈竞争态势。

锐评:AI 浏览器大战愈演愈烈,Neon 主打高端局。

12. 新闻:谷歌推出 Jules 工具集和相关 API,为其自主编程智能体 Jules 拓展集成能力。Jules API 基于三大核心概念构建:资源 (Source)、会话 (Session) 和活动 (Activity)。Jules 通过配置上述三种要素可规划多步骤编程任务、调用工具模块,并基于现有代码库和 CI 流程执行命令行操作。谷歌已提供 Jules API 的完整演示案例和技术文档。

锐评:谷歌给程序员配齐了 AI「工具箱」。

13. 新闻:Gemini 取代 Google Assistant 成为谷歌 Nest 以及 Home 设备的默认语音助手。此次更新与全新改版的 Google Home 应用 「Gemini for Home」 深度整合,将 Gemini 功能嵌入到设备设置、控制和自动化流程中,其中还包括支持连续对话的付费版 Gemini Live。目前谷歌通过 「抢先体验」 计划推送相关功能,官方宣称这一举措将为近十年来发布的旧设备带来智能体和自动化功能。

锐评:谷歌终于下定决心让老将 Assistant 退休,让 Gemini 全面接管智能家居。

14. 新闻:谷歌为照片编辑应用 Snapseed 在设备端新增交互式图像分割功能。用户通过完全本地化的 「指点分割」 交互方式,即可在 Snapseed 移动应用中实现快速抠图和图像编辑功能。谷歌研究博客详述了模型架构和用户体验,将其定位为面向创作者的本地视觉实用功能。

锐评:「指尖魔法」 成现实,P 图党的福音来了。

15. 新闻:谷歌正在预览一款全新的 Gemini 人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使 AI 智能体能够在原本为人类而非机器人设计的用户界面中执行操作。这款名为 「Gemini 2.5 计算机使用」(Gemini 2.5 Computer Use) 的模型,利用 「视觉理解与推理能力」 分析用户的请求,并完成相应任务,例如填写并提交表单。

锐评:AI 也学会上网 「冲浪」 办事了,以后摸鱼刷网页可能比用户还熟练。

16. 新闻:特斯拉官方账号 @TeslaAI 于 10 月 4 日发布视频,展示了特斯拉 Optimus 人形机器人正在学习功夫的场景。针对 Optimus 本次 「对打」 是遥控还是 AI 驱动的问题,马斯克在 X 平台帖子的评论区明确回应:「是 AI,不是遥控。」

锐评:别家的 AI 还在画图写诗,马斯克的机器人已经开始练咏春了。

三、AI 研究资讯——从 「提示词焦虑」 到 「举一反三」,AI 研究正进化成会思考的自己

1. 新闻:谷歌研究团队提出协同图像生成工作流,通过约束编辑与结构化输入让用户对模型进行迭代式 「协同引导」,从而减少反复调整提示词的麻烦。相关研究论文 《Preference》 提出强化学习智能体 PASTA 的概念,可优化文生图的交互过程,提高生成式图像任务的可控性和创作者的满意度。尽管这还是一项研究,但为谷歌图像工具生态系统中的编辑功能改进提供了支持。

锐评:谷歌这项新研究,就是想治好广大创作者的 「提示词焦虑症」。

2. 新闻:麻省理工学院林肯实验室揭幕全球高校最强 AI 超级计算机 TX-GAIN。这套新系统专为生成式 AI 工作负载优化,旨在加速从生物防御到材料发现等领域的研究进程。虽然与科技巨头的数据中心相比,这套拥有 600 张 GPU 的学术计算系统规模不算大,但算力仍达到 2exaflops(百亿亿次),跻身 TOP500 超级计算机榜单。

锐评:麻省理工学院也开始秀科研算力。

3. 新闻:Meta、Mila-Quebec AI Institute、蒙特利尔大学和普林斯顿大学联合提出元认知复用 (Metacognitive Reuse) 机制。简单来说,就是让模型自己回顾、总结解题思路,将常用的推理套路提炼成更为简洁的 「行为」,并将其存储于 「行为手册 (Behavior Handbook)」 中。当再遇到类似问题时,模型便可直接从手册中调用相应的行为,无需重新推导。实验结果显示,该机制通过行为条件推理、行为引导自我改进、行为条件监督微调三种应用场景,在 MATH、AIME 等数学基准测试中实现了显著优化,在保持准确率不变的前提下,最多可减少 46% 的推理 token 使用量。

锐评:说白了就是让 AI 学会 「举一反三」,把解题套路存进小本本,下次直接抄作业。

四、AI 商业与政策动态——算力、资本与版权博弈:AI 巨头的下一场战争在幕后打响

1. 新闻:OpenAI 与 AMD 签署一项价值数十亿美元的股权协议,在过去 12 个月里 OpenAI 通过风险投资交易筹集了约 470 亿美元,估值达到约 5000 亿美元。今年以来,OpenAI 已签署价值高达约 1 万亿美元的交易,从而获得运行人工智能模型的计算能力,交易方包括 AMD、英伟达、甲骨文和 CoreWeave 等,这些企业的利益也与 OpenAI 未来的盈利能力相绑定。通过交易,OpenAI 在未来十年内将获得超过 20 吉瓦的计算能力,大致相当于 20 个核反应堆的电力。OpenAI 高管预估,按照目前的电力价格计算,每 1 吉瓦的人工智能计算能力的部署成本约为 500 亿美元。

锐评:OpenAI 不是在买算力,就是在去买算力的路上。

2. 新闻:OpenAI 规模最大的一届开发者大会 DevDay 于 10 月 6 日在旧金山 Fort Mason 举行。会上,公司介绍并演示了为 ChatGPT 打造应用程序 App 的框架 Apps SDK(软件开发框架)、支持打造 AI 智能体 (Agent) 的 AgentKit、以及轻松嵌入 ChatGPT 聊天功能的 ChatKit。

锐评:大会三件套发布,OpenAI 要拉开发者一起搞钱。

3. 新闻:OpenAI 宣布三星和 SK 集团加入 「星际之门」(Stargate) 计划,并拓展韩国 AI 数据中心布局。OpenAI 表示,两家韩国企业的加入有助于加速全球 AI 基础设施建设,与早前甲骨文、软银等数据中心合作建设计划形成互补。此次合作不仅扩大了内存芯片供应,也增加了韩国 AI 数据中心的容量,既能支持全球 AI 算力,也符合韩国自身 AI 发展战略。此外,OpenAI 还宣布与日本数字厅达成战略合作,通过与政府机构推广生成式 AI 应用。

锐评:像极了攒局打游戏,到处拉人组队刷 「算力副本」。

4. 新闻:外媒援引知情人士称,埃隆·马斯克 (Elon Musk) 麾下 AI 创企 xAI 被曝正进行 200 亿美元 (折合人民币约 1424 亿元) 融资,英伟达在这轮融资中的股权投资部分高达 20 亿美元 (折合人民币约 142 亿元)。知情人士称 xAI 这笔新融资包括股权和债务,将与其计划在大型数据中心 Colossus 2 中使用的英伟达 GPU 挂钩。

锐评:主要目的似乎是拉卖 「铲子」 的英伟达入伙。

5. 新闻:Meta 宣布自今年 12 月起使用用户与 AI 助手的聊天记录来个性化定制信息流、短视频、群组及广告内容,但敏感话题除外。欧盟、英国和韩国因监管要求暂不实施,此举凸显出 AI 助手交互数据正与核心广告系统深度整合。

锐评:你跟 AI 说的每一句 「心里话」 都被 Meta 默默记下,转身就变成精准推送的广告。

6. 新闻:欧盟委员会宣布一项 10 亿欧元 (约合 11 亿美元) 的计划,旨在推动在关键行业广泛应用人工智能技术,同时努力减少欧盟对其他国家技术的依赖。欧盟执行机构的 「应用人工智能」(Apply AI) 战略是在今年 4 月份公布的一份行动计划之后出台的。该计划旨在减轻初创企业因难以遵守去年 8 月生效的具有里程碑意义的人工智能规则而带来的监管负担和成本压力。

锐评:欧盟狂砸 10 亿欧元,生怕 AI 掉队。

7. 新闻:美国商务部拟议的 「50% 规则」 可能冲击依赖版权素材训练的 AI 公司。据报道,相关草案要求,若训练数据中超过 50% 的内容受版权保护,则公司必须进行披露或取得授权。这可能会大大提高专有模型训练数据的透明度,推动 AI 厂商更多使用授权语料库。

锐评:以后靠 「白嫖」 版权内容训练模型的日子可能要到头了。

8. 新闻:环球音乐和华纳音乐将与谷歌、Spotify 以及 Udio、Suno、Stability AI 等 AI 初创公司达成授权协议,或将重塑 AI 时代的音乐产业。据悉,谈判双方探讨了类似流媒体的微支付模式。这项协议有望规范生成式音乐工具的训练数据授权与输出内容版权管理。

锐评:音乐巨头们拿着版权排队等收钱了。

9. 新闻:由于好莱坞强烈抗议其平台使用大量未经授权的角色和版权材料,OpenAI 正为 Sora 2 增加版权方对角色使用的控制功能。OpenAI 计划为电影公司提供细粒度的 IP 或角色控制机制,并探索授权 IP 的商业化框架。据报道,迪士尼已选择退出合作体系。这一功能的具体实施方案和政策细节仍在不断完善中。

锐评:一边用人家的 IP 玩得飞起,一边又给好莱坞大佬们上 「版权锁」 功能,这波操作属实有点尴尬。

10. 新闻:OpenAI 通过官方新闻账号对马斯克最新以诉讼为幌子的骚扰策略作出回应。OpenAI 表示,公司不需要也不想要任何人的商业机密。OpenAI 将保护员工,不会被马斯克试图欺凌他们的行为所吓倒。

锐评:遭 OpenAI 明杠,老马又碰上硬茬了。

五、AI 观点——画得出 「皮相」,却画不出 「筋骨」,真实感之外的 AI「虚幻」 危机

新闻:当前 AI 视频模型是否具备物理推理能力?答案是否定的。一项新的基准研究发现,当前主流文生视频系统的物理推理表现参差不齐,视频真实感的进步速度远超其对现实世界的深入理解。这对 AI 安全性和可靠性构成了重要隐患。

以 Veo 3 的典型失误案例 (此处 「失误」 指无法持续正确完成任务) 为例,当被要求模拟打开煤气灯并烧掉一张纸时,12 次尝试中有 9 次失败;当被要求解决简单迷宫时,12 次尝试中有 10 次失败;当被要求按顺序戳破带标签的气泡来给数字排序时,12 次尝试中有 11 次失败。

或许可以说,AI 视频生成模型再现物理现实的失误与大语言模型的 「幻觉」 现象如出一辙。它只是基于统计数据来模拟现实,却缺乏现实根基。要解决 AI 视频的真实性缺陷,很可能需要开发基于现实世界基础的 AI 模型。

锐评:AI 视频模型的物理大概也是体育老师教的。(辰辰)