苹果重启与谷歌的合作,考虑使用的 Gemini 来为改版后的 Siri 提供支持。
彭博新闻社报道称,预计的 Siri 升级版 (目前计划于 2026 年发布)可能会以定制版 LLM 的形式推出,该版本由谷歌的 Gemini 聊天机器人提供支持。
这是苹果数月来探索外部合作伙伴关系的最新举措。这笔潜在的 「世纪联姻」 一旦达成,将不仅是 Gemini 技术实力获得业界最高认可的标志,更是其影响力横向扩张至数亿 iPhone 用户的里程碑事件。
这将为谷歌 AI 技术开辟前所未有的广阔应用场景和数据反馈环路,为未来的商业化,包括可能的 API 授权和订阅服务,打开了一道全新的大门。试想如果谷歌能将 Gemini 的能力接通安卓和 iOS 两大生态,将会迅速让自己在用户规模上大大缩小和 OpenAI 的 ChatGPT 的差距。
而对于苹果来说,和谷歌的合作能够延续在搜索业务上的良好关系,让 iOS 生态在底层上首次接入大模型,为广达的 iOS 用户提供最领先的技术带来的体验和生态革命。
而一年多以前,当苹果传出和多家大模型供应商商谈合作的时候,OpenAI 是当时被外界认为最有可能成为苹果客户的一方。谷歌因为模型能力一般,发布会翻车等负面因素,在苹果眼里一直不是第一顺位的选择。
时隔一年多,为什么谷歌又能被苹果看上了呢?
01
最重要的原因肯定是 Gemini 在最近一年多取得了长足的进步,不论是性能上还是用户数目上大幅增长。
在 LLM Arena 上,在多项排名中 Gemini 都处于绝对的第一梯队。
特别是多模态方面,作为原生的多模态大模型,Gemini 也一直是性能最好的模型。
而如果说苹果的合作意向还停留在 「传言」 阶段,那么 Gemini 在用户增长上的表现则是实打实的 「硬数据反击」。
根据 a16z 最新发布的报告,Gemini 正在以惊人的速度追赶 ChatGPT。
Google 的 Gemini 在网站流量方面排名第二,其网站吸引了约 ChatGPT 12% 的流量。在移动端,差距缩小了:Gemini 达到了 ChatGPT 大约一半的活跃用户数。
更令人瞩目的是增长数据。Gemini 的增长轨迹非常陡峭,网站访问量从 2 月份的 2.84 亿次增长到 7 月份的 7 亿次,而 ChatGPT 为 57.2 亿次。
Google 在前 50 名网站中还有其他三个工具:AI Studio(第 10 名)、NotebookLM(第 13 名)和 Google Labs(第 39 名)。
截至 2025 年 7 月,Gemini 已经达到 4.5 亿月活用户,相比 5 月份的 4 亿用户更是实现了显著增长。
Gemini 在权威编程能力测试和 AI IQ 榜单中也均名列前茅。Gemini 2.5 pro 的 IQ 排名在 AI 中最高,智商高达 137,这一成绩表明,Gemini 2.5 Pro 处理逻辑推理、抽象思维、模式识别等复杂任务的能力,已经可以与人类社会最顶端的少数人相媲美,不再仅仅是一个模仿和重复的程序,而是展现出一定程度接近人类高阶智慧的解决问题能力。
其代码编写和多模态理解能力也广受赞誉。
从技术评测到实际用户采纳,Gemini 了证明其作为新一代 AI 基础设施的领导地位,和 OpenAI 的 ChatGPT 差距已经越来越小。
而除了在大模型领域,Gemini 正在加速追赶 ChatGPT,谷歌正在以 「全火里覆盖」 的方式正在让自己的产品和技术彻底革新 AI 应用的各个赛道。
02
2025 年 8 月,AI 生图圈突然被一个神秘的模型搅得天翻地覆——「Nano Banana」。
起初,没人知道这个奇怪代号背后是谁家的产品,但它在各大 AI 竞技场上的表现让所有人都瞪大了眼睛。
直到 Google 揭晓答案:Nano Banana 正是 Gemini 2.5 Flash Image 的代号。
其全新推出的图像生成模型 Nano Banana 目前已迅速晋升为生图圈的 「当红炸子鸡」。
Nano Banana 以其卓越的图像生成质量、细节把控能力和用户友好的操作界面,在与主要竞争对手的直接对比中脱颖而出。
与传统图像生成工具不同,Nano Banana 展现出了对视觉逻辑的深度理解。它不再满足于单纯的 「画图」,而是能够理解图像中的空间关系、物体属性,并在保持逻辑一致性的前提下完成复杂的编辑任务。
其生成图像的逼真度、风格多样性以及对复杂提示词的理解能力令人惊叹,许多用户将其描述为 「疯狂」,这也正是它能够得以病毒式传播的原因。
Nano Banana 最大的突破在于其自然语言理解能力的提升。用户可以用日常语言描述修改需求,模型能够精准理解并执行复杂的图像编辑任务。
这种交互方式的革新,让图像编辑从专业技能变成了人人都能掌握的日常工具。
Nano Banana 不仅有效解决了用户在使用 AI 图像生成工具时遇到的痛点,同时深度融入了 Gemini 的图像编辑功能,这使其能够直接在现有图片上进行复杂的操作和修改,极大地提升了用户的工作流效率。
Nano Banana 的成功不仅是模型规模的胜利,更是谷歌在用户体验和产品整合上的精准洞察。
在视频生成领域,谷歌同样展现出统治级的实力。其最新的视频 AI 模型 Veo3 正以其惊人的视频生成质量,成为视频 AI 领域的 「王者」。
它最大的创新在于实现了高保真的视频与音频同步生成,包括对话、音效与环境声音的完美结合。业界对 Veo 3 的评价普遍很高,认为它已经从实验性工具演变为可以纳入专业制作流程的实用工具。
现实中,越来越多的内容创作者开始将 Veo 3 纳入自己的制作 workflow,用于快速原型制作和创意验证。
Veo3 生成的视频内容极其逼真、流畅且富有创意,其质量已经达到了足以颠覆传统视频制作流程的水平。
Veo3 的出现,无疑为影视制作、广告创意和数字内容产业带来了革命性的冲击和无限的创作可能。在视频长度、分辨率、一致性维护等关键指标上 Veo3 都有显著提升,在音画同步方面的表现尤其突出,目前在行业内难有匹敌。
与此同时,Nano Banana 和 Veo3 项配合的工作流更是为彼此几何级数地助力。
Veo 3 现已登陆 Google Photos,更进一步打出了谷歌的平台实力,大大改进了原有的照片转视频功能。谷歌表示,现在该功能可以用来 「将静态图像转换为更高质量的短片」。
更具里程碑意义的是,DeepMind 推出的 Genie3 已成为世界模型的全新标杆。
Genie3 作为一款分辨率 720p 的通用型世界模型,能够通过文本提示词生成并模拟长达数分钟的互动式 3D 虚拟环境,其多样性和沉浸感前所未有,环境还会对用户的操作做出反应,甚至还可以输入新的提示来改变 3D 环境。
它能从图像、文本、视频等多种输入中学习,并生成可交互、具有物理规律的 「世界」。
Genie 3 的意义远不止生成虚拟世界。它为训练更通用的 AI Agent 打开了新的可能性——能够 「凭空」 创造出无穷无尽、风格各异的训练环境。
这不仅是 AI 在理解、预测和创造复杂世界方面的一次巨大飞跃,更预示着未来虚拟现实、游戏开发乃至通用人工智能 (AGI)的无限可能,为构建更智能、更互动的数字宇宙奠定了基础。
03
看到全力出击的谷歌,连马斯克也再次不得不感叹,谷歌将再次领跑 AI 时代。
他今年 8 月发推认为,基于谷歌现在有全世界最大的算力基础能力和数据优势,它是 AI 行业中最有可能成为领袖的公司。
而马斯克的观点似乎也为寻求谷歌如何完成 AI 逆袭提供了一个基本的思考框架——算力,数据是决定一家 AI 公司是否能够高速长期发展的基本前提。
谷歌早在 10 年前就启动了专门针对 AI 任务设计的计算芯片 TPU 的研发,经历了 10 年的不断迭代发展,谷歌的 TPU 已经成为目前世界上最先进的 AI 芯片。因为它专门针对 AI 计算进行开发,它的能耗效率甚至超过了英伟达的 GPU。
而且谷歌的 TPU 集群是除了英伟达的 GPU 之外能规模最大的能够大规模部署并进行 AI 训练和推理的 AI 芯片。
而且在之后的迭代中,谷歌多年积累的 AI 芯片设计能力能够针对自己的业务和 AI 行业发展的最新趋势进行更新迭代,充分保证了谷歌未来不会处于算力焦虑之中。
当英伟达的最高性能 GPU 依然供不应求,被所有的科技大厂疯抢时,当 OpenAI 为了缓解自己的算力渴求而到处新建数据中心,寻求更多的算力供应时,谷歌的 TPU 集群提供的算力不但已经能够满足自己业务的 AI 算力需求,甚至还出现了富余。9 月 3 日,据海外媒体报道,谷歌正在和一些小型的云供应商进行合作,将原本只供自用的 TPU 算力开始向第三方进行销售。
而作为对比,马斯克也试图自己研发 AI 超算芯片,但是在经过多年尝试未果之后,只能放弃研发,采用英伟达的 GPU 作为 AI 算力的基础设施。这样未来在算力的成本和效率以及自主性方面和有自给自足能力的谷歌相比将会处于劣势。
谷歌始于 10 年前的 AI 硬件布局,开始到了收获的时间。
要满足 Gemini 日益增长的用户量背后带来的大规模推理需求,还要能同时训练新的模型,不断更新大模型能力,还要能支撑视频模型,生图模型的推理和研发,如果谷歌没有夯实的算力基础,是完全不可能做到。
就像一家面馆,如果你的面粉供应严重依赖市场上非常抢手的第三方供应商的供货,你很难想象它能不断推出新的品类甚至开新的分店。而谷歌能够自给自足的算力,就是它能同时多面出击,持续迭代模型能力,研发新模型的底层保障。
除了算力优势之外,谷歌 AI 业务另一条深不见底的护城河是他的数据优势。
多年的搜索领域霸主地位让谷歌积累了海量且珍贵的用户数据。而且作为全世界最大的视频平台 Youtube 的母公司,它能触及到世界上规模最大的多模态数据。可以说谷歌发展多年的传统业务,为它能够在 AI 时代全力冲刺提供了一个取之不竭,用之不尽的数据金矿。
这可能在某种程度上也解释了为什么在多模态 AI 领域的竞争中,谷歌是发力最晚,但取得的成绩最为显著的公司。
而除了用于训练 AI 模型的数据,谷歌 Chrome 和安卓生态能够帮助谷歌及时将 AI 能力运用到最广泛的 c 端市场。海量用户在深度使用时产生的数据为谷歌进一步优化自己的 AI 服务体验,找到用户使用中的痛点,提供了依据,从而在未来模型的开发中,能够做出更有针对性的,优化和功能选择。
Nano banana 的成功某种程度上就是谷歌能够敏锐捕捉到用户需求,从而在模型层面进行产品化设计的一个最新的例子。
如果谷歌未来能够继续深度的将用户使用 AI 过程当中呈现出来的需求,通过自己的 AI 服务进行满足,相信谷歌一定能找到一条不同于其他企业的,更好的将 AI 能力服务于广大用户的研发和迭代路径。
这也许也是苹果选择谷歌作为自己 AI 服务供应商一个很重要的考量。毕竟只有谷歌现在拥有在设备端将 AI 服务提供给接近于苹果用户量级的客户群体的经验。
而除了算法和算力这两个谷歌所拥有的巨大优势之外,谷歌反击背后还离不开多年来积累的人才优势。
随着硅谷 AI 人才的争夺进入到白热化阶段,手握大量资金算力以及丰富的用户数据的谷歌,对于人才的吸引力来说是毋庸置疑的。人才能给 AI 业务发展带来的最重要的因素就是算法上的创新。硅谷多年来积累下来的 AI 人才的储备和管理经验,以及对新入行的 AI 人才的吸引力,使得他们一直以来都是行业的人才智力高地。
比如在 OpenAI 带队开发出 Sora 的 Tim Brooks,在 2024 年 10 月就加入谷歌,负责开发新的世界模型。而最近放出的 Genie 3 就是他们团队的最新作品。
而在硅谷的 AI 人才抢人大战中,谷歌为了避免核心人才的流失,开出了 2000 万美元的年薪。而除了令人咋舌的薪资,谷歌对这样的顶尖人才的吸引力,还是在于他们能够给项目提供行业里最好的算力和数据保障,能够帮助顶尖人才做出行业里最有影响力的成果。
而在组织管理层面,谷歌也在不断优化,将人才的战斗力系统性的放大。
而在去年谷歌将 DeepMind 和 Google Brain 两个研究型机构合并统一为 AI 战略的中枢之后,原本更偏向于科研机构的 DeepMind 现在已经成为了一个生产 AI 应用的创新工厂。
去年 10 月,Gemini 品牌化之后,谷歌把 Gemini App 团队并入 Google DeepMind;同时把 Assistant 的设备侧 并到 Platforms & Devices。前者确保 「应用团队成为模型一方的直接客户」,反馈与数据更快回流;后者则让端侧能力 (Android/芯片/硬件)围绕 「AI 本地推理与协同」 一体化推进。2025 年移动端用户从 Assistant 迁移到 Gemini,更是把体验、数据和增长目标统一到了一个坐标系内。
谷歌作为近些年来论文产出最高的组织,为了应对 AI 行业的竞争已经将 AI 论文的发表标准进行了更改,如果论文成果被评估为能为谷歌带来竞争优势,论文可能将被谷歌雪藏,避免公开 Transformer 这样具有划时代意义的科研成果,为竞争对手做嫁衣的情况再次出现。
也许未来,谷歌公开发表的 AI 论文会越来越少,但是像 nano banana 这样的具有优秀创新基因的 AI 产品会大量出现。
而作为过去 20 年 AI 领域投入最大,为人类 AI 发展贡献最多,现金流最为充沛的科技公司,谷歌在 AI-First 之后,将逐渐成为科技大厂中 AI 改革的标杆,值得更多的关注和期待。
本文来自微信公众号:直面 AI,作者:胡润、伍式