摘要
谷歌 Gemini 凭借技术深度与生态协同,在三项核心指标上实现对 ChatGPT 的超越,标志着人工智能竞争已从单一应用层面升级为系统级、多模态的综合博弈。
2025 年末,生成式 AI 领域迎来关键转折。Sensor Tower 发布的最新数据不仅反映了市场格局的变化,更揭示了技术架构演进的方向。尽管 OpenAI 依靠先发优势仍主导着现有用户市场,但在代表未来趋势的增量市场中,Google Gemini 已完成战略性反超。
这一转变并非偶然,而是“技术栈深度”与“生态广度”双重驱动的结果。AI 产品正从传统的聊天机器人(Chatbot)形态,向具备自主决策能力的系统级智能体(System Agent)演进;交互方式也由单一文本扩展至以“Nano Banana”为代表的高频多模态体验。对于开发者和架构师而言,理解背后的技术逻辑远比关注下载量本身更具战略意义。
| 日期 | ChatGPT | Microsoft 365 Copilot | Google Gemini | Perplexity | Grok | Claude |
|---|---|---|---|---|---|---|
| 2025年 1月 | 358,000,000 | 218,000,000 | 145,000,000 | 12,000,000 | 1,000,000 | 5,000,000 |
| 2025年 2月 | 398,000,000 | 213,000,000 | 201,000,000 | 15,000,000 | 4,000,000 | 5,000,000 |
| 2025年 3月 | 466,000,000 | 216,000,000 | 186,000,000 | 17,000,000 | 14,000,000 | 6,000,000 |
| 2025年 4月 | 558,000,000 | 213,000,000 | 205,000,000 | 19,000,000 | 22,000,000 | 7,000,000 |
| 2025年 5月 | 619,000,000 | 218,000,000 | 226,000,000 | 21,000,000 | 21,000,000 | 8,000,000 |
| 2025年 6月 | 668,000,000 | 206,000,000 | 245,000,000 | 23,000,000 | 22,000,000 | 8,000,000 |
| 2025年 7月 | 728,000,000 | 200,000,000 | 264,000,000 | 30,000,000 | 29,000,000 | 8,000,000 |
| 2025年 8月 | 760,000,000 | 198,000,000 | 270,000,000 | 36,000,000 | 31,000,000 | 9,000,000 |
| 2025年 9月 | 792,000,000 | 215,000,000 | 310,000,000 | 42,000,000 | 29,000,000 | 9,000,000 |
| 2025年 10月 | 803,000,000 | 219,000,000 | 326,000,000 | 50,000,000 | 31,000,000 | 11,000,000 |
| 2025年 11月 | 810,000,000 | 212,000,000 | 346,000,000 | 45,000,000 | 34,000,000 | 11,000,000 |
数据简要分析
ChatGPT:体量领先但增长趋缓
用户基数最大:从年初的 3.58 亿增至年末的 8.1 亿,稳居首位,约为 Gemini 的两倍以上。
增速明显放缓:尤其在 8 月至 11 月期间,月均增幅显著收窄,反映出市场逐渐饱和,进入存量运营阶段。
Google Gemini:持续加速,实现关键反超
实现翻倍增长:用户数从 1 月的 1.45 亿上升至 11 月的 3.46 亿,增速远超同行。
超越微软 Copilot:早在 6 月即以 2.45 亿用户超过 Microsoft 365 Copilot 的 2.06 亿,并在此后不断扩大领先优势,确立第二名位置。
Microsoft 365 Copilot:增长停滞,面临瓶颈
全年波动有限:用户规模长期徘徊于 2 亿左右,7 至 8 月甚至出现下滑,跌破 2 亿关口。
可能受限于企业订阅模式的门槛,导致新用户拓展困难,用户留存亦面临挑战。
第二梯队:差异化竞争激烈
Perplexity:表现亮眼,从 1200 万起步,10 月达 5000 万峰值,虽 11 月略有回调,但仍实现近四倍增长,成为增速最快的新锐之一。
Grok:经历 3 至 4 月爆发期后趋于稳定,用户维持在 3000 万上下,展现一定用户粘性。
Claude:增长平稳缓慢,由 500 万增至 1100 万,整体体量最小,尚未形成广泛普及。
一、增长动能的“剪刀差”:存量与增量的技术博弈
表面的数据走势之下,潜藏着产品生命周期与技术路径选择的深层逻辑。ChatGPT 与 Gemini 正呈现出典型的“剪刀差”趋势——前者高位盘整,后者低位快跑。这种分化本质上是两种发展模式的碰撞:一个是依托早期品牌效应维持存量市场的领跑者,另一个则是凭借系统整合能力撬动增量空间的挑战者。
随着 AI 应用场景不断深化,单纯的语言生成能力已不足以支撑长期竞争力。真正的较量正在转向操作系统层级的深度集成、跨设备协同以及多模态交互体验的构建。Gemini 的崛起正是得益于其与安卓生态、Pixel 设备及 Google Assistant 的无缝联动,而“Nano Banana”等新技术的引入,则进一步提升了用户的使用频率与场景覆盖密度。
相比之下,ChatGPT 尽管拥有庞大的初始用户群,但在移动端入口、原生系统集成等方面存在短板,难以有效激活高频日常使用场景。这也解释了为何其增长曲线逐步趋平。
1.1 流量迁移背后的数据洞察
根据 Sensor Tower 在 2025 年 11 月发布的数据,AI 应用市场呈现出显著的分化趋势。
| 核心指标 | ChatGPT(OpenAI) | Gemini(Google) | 趋势分析 |
|---|---|---|---|
| 全球下载量占比 | 50% | 快速上升 | 虽有存量优势,但获客成本持续攀升 |
| 月活跃用户(MAU) | ~8.1 亿(同比增长 6%) | 增速反超 | 用户基数庞大,但增长动力逐渐减弱 |
| 下载量增速 | 85% | >110% | 单一聊天模式正引发用户审美疲劳 |
| 用户日均使用时长 | 下降 10% | 增长 120%(达 11 分钟) | 多模态交互显著增强用户粘性 |
这组数据揭示了一个不可忽视的技术拐点:
单一文本交互的生成式 AI 正逐步逼近其效用极限(Utility Boundary)。
用户不再满足于仅获取文字答案。他们期望更丰富的交互方式、直观的视觉反馈以及与设备系统的深度整合。ChatGPT 增速低于行业平均水平(85% vs 110%),反映出其产品形态在过去一年中缺乏结构性创新。
1.2 增长停滞与“成熟期困境”
所谓 ChatGPT 的“成熟期困境”,本质上是交互模式边际效益递减的结果。
- 交互疲劳加剧:纯文本对话需要频繁输入提示词(Prompting),认知负担较重。随着新鲜感消退,普通用户对“提示工程”的参与意愿明显降低。
- 应用场景固化:当前主要集中在问答、写作等生产力用途。尽管使用频率高,但缺乏娱乐性和探索空间,限制了用户停留时间的增长潜力。
- 留存压力显现:日均使用时长下降 10%,是一个危险信号。在移动互联网生态中,使用时长即为竞争壁垒。这一下滑表明用户注意力正在流向更具效率或趣味性的新型 AI 工具。
相较之下,Gemini 的崛起并非依赖营销驱动,而是源于产品架构的根本性重构——它正从一个独立工具向“数字生活伴侣”转型。这种演进的背后,是谷歌在模型能力与系统集成层面的双重布局。
2.1 架构跃迁:从“对话引擎”到“沉浸体验”
谷歌于 9 月推出的“Nano Banana”模型(即 Gemini 2.5 Flash Image 系列代号),成为推动 Gemini 用户日均时长激增 120% 的核心技术驱动力。该模型不仅是图像生成器,更是多模态技术在移动端成功落地的典范。
传统大语言模型(LLM)以 Text-to-Text 处理为主。即便 GPT-4 支持多模态,但在移动端常面临响应延迟和交互卡顿的问题。“Nano Banana”的突破在于解决了两个关键瓶颈:
- 端云协同推理机制:为实现移动端流畅的图像编辑与生成,谷歌很可能采用了混合推理架构——轻量操作在设备本地预处理,复杂任务交由云端 TPU 集群加速执行。此举大幅降低了交互延迟(Latency),使用户体验从“等待结果”转变为“实时互动”。
- 即时视觉反馈闭环:人类天生偏好视觉信息。当 AI 能以毫秒级响应图像指令时,用户的多巴胺反馈回路被激活。“生成—修改—反馈”的高频循环,正是支撑 11 分钟平均使用时长的核心机制。
如上图所示,基于 Nano Banana 的视觉交互路径更能激发用户的探索欲望,有效延长单次会话时长(Session Duration)。
2.2 技术护城河:原生多模态架构
尽管 OpenAI 的 DALL-E 3 功能强大,但在 ChatGPT App 中仍作为插件调用,流程繁琐。而 Gemini 凭借 DeepMind 的长期积累,正在构建真正的原生多模态架构。
该架构的特点在于:模型训练阶段即融合图文数据,而非后期通过适配器(Adapter)拼接。由此带来的优势包括:
- 语义理解更精细:能够准确识别图像中的微小物体及其空间关系;
- 上下文无损切换:用户可在同一对话流中自由穿插图片编辑与文本提问,无需等待模式转换。
这种底层技术差异直接转化为用户体验优势,成为 Gemini 实现反超的关键支点。
二、模型层的突破:多模态的胜利与“Nano Banana”的崛起
“Nano Banana”不仅代表一次算法升级,更标志着 AI 产品设计哲学的转变——从“回答问题”转向“创造体验”。其成功验证了多模态能力在移动端的巨大潜力,也为整个行业提供了可复制的技术范式。
3.1 入口革命:系统级渗透 vs 应用级分发
如果说“Nano Banana”是 Gemini 的进攻利刃,那么安卓生态系统就是其防御坚盾。Sensor Tower 数据显示,在美国市场,通过安卓系统原生入口访问 Gemini 的用户数量,是独立 App 用户的两倍。这一悬殊比例凸显出:
系统级入口(System Entry Point)对应用级入口(App Entry Point)具有压倒性优势。
安卓系统将 Gemini 深度嵌入搜索、相册、通知中心等多个高频场景,实现了“无感触达”。用户无需主动打开 App,即可在日常操作中自然调用 AI 功能。这种“操作系统级降维打击”,本质上是一种生态级渗透策略,也被形象地称为“特洛伊木马”战术。
三、生态融合:安卓平台上的“隐形渗透”
Gemini 的增长并非孤立现象,而是谷歌整体 AI 战略的一部分。借助安卓庞大的装机量和系统权限,Gemini 实现了对用户行为路径的全面覆盖。无论是长按屏幕提取信息、语音助手联动,还是相册内自动建议编辑,都让用户在不知不觉中完成对 AI 的高频使用。
这种深度整合使得 Gemini 不再只是一个 App,而是演变为一种贯穿系统各环节的服务层。相比之下,依赖独立下载渠道的竞品,则面临越来越高的用户获取门槛。
在移动互联网时代,各类App往往如同信息孤岛。用户若想使用ChatGPT,必须完成“解锁手机 → 寻找图标 → 点击启动 → 等待加载”这一系列操作。尽管整个流程仅需数秒,但在高频使用场景下,这种操作链带来的使用摩擦(Friction)不容忽视。
谷歌凭借其对Android操作系统的核心控制权,将Gemini深度嵌入系统的底层架构中,实现了前所未有的接入效率:
- 长按电源键或Home键唤醒:该交互手势属于系统最高优先级指令,直接替代了原先Google Assistant的启动入口。
- Overlay(覆盖层)交互模式:Gemini能够以悬浮窗形式运行于其他应用之上。例如,当用户正在浏览网页或阅读邮件时,无需退出当前界面即可即时调用AI功能。
这种无感接入(Seamless Access)机制构建了极高的竞争壁垒。对于OpenAI而言,无论ChatGPT的应用优化程度如何,它始终受限于“单一App”的身份,无法实现Gemini那种随时随地“在场”的能力。
3.2 上下文感知(Context Awareness)的技术护城河
系统级整合的优势不仅体现在入口便捷性上,更关键的是具备强大的数据上下文获取能力。
作为安卓系统服务的一部分,Gemini在获得用户授权的前提下,理论上可访问当前屏幕内容(Screen Context),从而实现:
- 跨应用数据打通:用户在YouTube观看视频时唤醒Gemini,AI能直接理解视频主题;查看日历时,Gemini可读取具体行程安排。
- 意图识别(Intent Recognition):依托安卓系统的Intent机制,Gemini可成为用户操作意图的中枢调度者。例如,当用户说“把这张图发给Mike”,Gemini可自动调用微信或WhatsApp完成发送动作。
相比之下,ChatGPT受制于iOS与Android的沙盒机制(Sandbox),难以获取当前屏幕的上下文信息,也无法深度操控其他应用。这正是谷歌能在安卓主导市场建立独特优势的根本原因。
| 特性 | ChatGPT (App 级) | Gemini (系统级 - Android) | 技术优势分析 |
|---|---|---|---|
| 启动方式 | 点击图标 | 物理按键/语音/手势 | 系统级启动零摩擦,DAU转化率更高 |
| 运行环境 | 独立沙盒 | 系统服务/Overlay | 可在不打断当前任务的情况下提供服务 |
| 上下文获取 | 仅限App内输入 | 屏幕内容/系统状态 | 具备“上帝视角”,理解能力更强 |
| 跨应用操作 | 困难(需API对接) | 原生支持(Intent/Deep Link) | 真正的Agent代理能力 |
3.3 隐藏流量红利
所谓“新兴市场隐藏流量红利”,指的是那些并非通过传统应用商店下载,而是借助系统更新或出厂预装所获得的用户流量。在庞大的安卓设备基数支撑下,这类分发渠道是OpenAI无法触及的战略盲区。
谷歌可通过GMS(Google Mobile Services)的系统级推送,在短时间内让数亿台设备具备Gemini的调用入口。这种分发效率远超任何独立App厂商的能力范围,构成了难以复制的生态优势。
四、OpenAI的“红色警报”:技术债与战略纠偏
面对谷歌从系统层面发起的全面围剿,OpenAI CEO山姆·奥特曼发布的“Code Red”备忘录,实质上是一次紧急的技术与战略调整。此举表明公司内部已清醒认识到:单靠模型参数规模的领先,已不足以维持长期竞争优势,必须回归产品体验的本质竞争。
4.1 暂停非核心项目:减少工程熵增
备忘录中明确指出,将暂停广告系统、AI购物助手以及“Pulse”个人助手等非核心业务。从软件工程角度看,这是为了降低系统的熵增水平。
在高速扩张阶段,OpenAI曾同时推进多个项目,每个新功能都需要独立的工程团队、算力资源和持续维护成本。这导致核心产品ChatGPT的迭代速度放缓,用户体验优化滞后。
此次调整的核心目标包括:
- 资源聚焦:将顶尖工程师从边缘项目抽离,集中力量攻坚核心模型的延迟优化、上下文窗口扩展及多模态对齐问题。
- 减少技术债:早期快速上线的功能常伴随大量技术债务。暂停扩张有助于对现有系统架构进行重构与性能优化。
4.2 三大技术反击方向
奥特曼提出的三大战略重心——个性化、可靠性、图像生成,精准指向当前产品的关键短板。
4.2.1 深度个性化(Deep Personalization)
目前的ChatGPT对所有用户呈现“千人一面”的响应模式。要实现真正意义上的“个人长期AI助手”,需引入以下核心技术:
- 向量数据库(Vector Database):用于存储和检索用户历史行为与偏好数据。
- LSTM变体或其他记忆网络结构:实现对用户长期记忆的建模与调用。
其中,Memory机制尤为关键:系统需记住用户上周提及的偏好,并在今日对话中自然延续。这依赖复杂的RAG(检索增强生成)架构,在保障隐私安全的前提下高效检索历史交互记录,是当前主要技术挑战之一。
4.2.2 系统可靠性(System Reliability)
提升服务稳定性已成为当务之急。用户期望AI助手具备一致且可预测的行为表现,而非偶尔失灵的“智能玩具”。为此,OpenAI需加强后端容错机制、请求调度策略与异常监控体系,确保高并发下的响应质量与低故障率。

企业级与严肃场景用户流失的核心原因在于“幻觉”(Hallucination)问题。为提升模型的可靠性,需从以下两个关键方向入手:
强化 RLHF(人类反馈强化学习):在训练过程中,针对事实性错误的问题输出,显著增加惩罚权重,使模型更倾向于生成准确、可信的内容。
引入验证层(Verification Layer):在模型最终输出前,加入基于搜索引擎或知识图谱的事实核查机制,形成一道前置过滤屏障,有效降低虚假信息的生成概率。
补齐多模态能力短板
面对 Gemini 推出的“Nano Banana”所带来的竞争压力,OpenAI 必须加快对 DALL-E 的优化进程,重点提升图像生成的速度与质量。此外,开发适用于移动端的小型化视觉模型也成为必要举措,以增强端侧响应效率和用户体验。
垂直领域的突破者:Perplexity 与 Claude 的差异化突围
在谷歌与 OpenAI 展开正面交锋的同时,Perplexity 和 Claude 的快速崛起揭示了 AI 市场正迈向多极化(Multipolarity)格局。它们的成功表明,通用大模型并非适用于所有场景,专注于特定需求的深度优化依然拥有广阔发展空间。
Perplexity:以 RAG 架构重塑搜索体验
凭借月活跃用户增长达 370%,Perplexity 的核心优势在于将RAG(检索增强生成)技术发挥到极致:
- 实时性:与 ChatGPT 存在知识截止日期不同,Perplexity 可实时抓取并索引全网最新信息。
- 引用溯源:每条回答均附带来源链接,显著提升了内容可信度,缓解了 LLM 常见的信任危机。
- 流量入口地位:其定位已超越传统问答工具,逐渐成为用户获取信息的首要渠道,扮演着新一代“智能搜索引擎”的角色。
从技术本质上看,Perplexity 更像一个具备自然语言理解能力的搜索引擎,而非单纯的文本生成系统。
Claude:专注长文本处理与逻辑推理的“深思型”助手
Claude 实现 190% 的用户增长,主要得益于其在Context Window(上下文窗口)和逻辑推理(Reasoning)方面的突出表现:
- 超长上下文支持:可高效处理超过 100k token 的文档或代码库,在程序员、科研人员等专业群体中建立了良好口碑。
- 拟人化交互与安全性设计:依托 Anthropic 提出的“Constitutional AI”(宪法 AI)框架,Claude 的对话风格更加自然流畅,减少机械感,在长篇内容创作中展现出独特优势。
这两家公司的成功印证了一个趋势:增量市场正在被不断细分。用户开始依据任务类型选择最合适的工具——信息检索使用 Perplexity,编程或论文阅读选用 Claude,图像编辑与娱乐场景依赖 Gemini,而 ChatGPT 所主张的“全能型”定位反而显得不够聚焦,竞争力被稀释。
未来架构演进方向:走向多智能体协同与生态融合
结合当前发展态势,2026 年及以后的 AI 技术架构将呈现以下特征:
从“单一模型”到“模型路由(Model Routing)”
未来的 AI 应用将不再依赖单一巨型模型。为实现成本、速度与效果的最佳平衡,后端系统将广泛采用模型路由架构,根据不同任务动态调用最适合的模型资源:
- 日常闲聊 → 调用轻量级端侧模型(如 Gemini Nano)
- 复杂逻辑推理 → 调用高性能云端大模型(如 GPT-5 / Claude 3.5)
- 实时资讯查询 → 调用集成搜索能力的增强模型(如 Perplexity 引擎)
用户端的“组合式 AI”时代来临
单一应用通吃一切的时代已经结束。未来主流将是多个 AI 系统协同工作的模式:
- 操作系统作为调度中枢:Android 或 iOS 将充当“总线”角色,根据用户意图智能分发任务至不同的 AI Agent。
- 建立数据互通标准:行业亟需统一协议,支持跨 AI 工具之间的上下文传递。例如,Perplexity 检索到的信息可直接传输给 Claude 进行整理归纳,再由 Gemini 自动生成配图,实现无缝协作。
结论
2025 年末这场 AI 格局的深刻变革,本质上是技术落地能力的比拼。OpenAI 虽在“模型能力上限”上保持领先,却在“产品触达下限”暴露出短板;而谷歌 Gemini 的反超,则为整个技术圈敲响警钟:在消费级市场,仅靠模型参数领先(SOTA)难以取胜,真正的决胜点在于系统级整合能力和极致的交互体验。
随着“Code Red”级别的竞争警报拉响,以及更多垂直领域玩家的入场,AI 行业正式告别粗放扩张阶段,迈入精细化运营与深水区博弈的新周期。对开发者而言,当下最关键的课题是如何利用系统级基础设施(如 Android AI Core)和垂直化模型 API,构建真正具备智能协同能力的下一代应用,而非继续堆砌聊天界面的外壳。
未来,属于那些能够将技术创新、生态分发与具体用户场景深度融合的架构设计者。


雷达卡


京公网安备 11010802022788号







