前两篇我们分析了:CLI vs MCP 争的是管道,真正缺的是水龙头(第一篇);Agent 落地受阻于两层壁垒——平台封锁和组织管控(第二篇)。这篇看看现实中各方在怎么应对这两面墙。
三种应对策略
面对数据壁垒,目前出现了三种截然不同的策略:
阿里系"] Wall --> S2["策略二:翻墙
豆包手机、OpenCLI"] Wall --> S3["策略三:假装墙不存在
大部分 Agent 产品的营销"] S1 --> R1["有用,但用户被锁在生态内"] S2 --> R2["能用,但脆弱且灰色"] S3 --> R3["好看,但用户上手就碰壁"] style Wall fill:#ef4444,color:#fff style S1 fill:#6366f1,color:#fff style S2 fill:#f97316,color:#fff style S3 fill:#94a3b8,color:#fff
策略三的代表产品不少。OpenClaw 在 Mac mini 上 24/7 运行,社区有自动生成飞书日报1和财务报表的 Skill;Perplexity 在 2026 年 3 月发布了 Personal Computer2,同样跑在 Mac mini 上,接入 Gmail、Slack、GitHub、Notion、Salesforce 等 40+ 服务,月费 $200;Anthropic 的 Claude Cowork 则定位本地自主 Agent。Demo 视频里数据在多个平台之间流转得行云流水。
这些能力是真实的。但它们有一个共同的前提:你已经拥有所有工具的 API 权限。 第二篇已经分析过,这个前提在大多数真实工作环境中并不成立——平台可能不开放,即使开放了你的公司 IT 也可能不批准。
有一个值得注意的现象:同样是让 AI 代替用户操作应用,在 PC 端(OpenClaw)被热捧,在手机端(豆包手机)却遭微信、支付宝等主流 App 联合封杀3。原因很清楚——手机端的每个 App 都是封闭生态,系统级 AI 助手直接踩在了它们流量变现的命门上。
重点看前两种策略。
策略一:在围墙里做闭环——阿里的双线布局
阿里的策略最清晰:不打破围墙,在自己的围墙里先把闭环做了。 而且 B 端和 C 端同时推进。
C 端:千问 App——“搜索→决策→支付→履约"全链路
千问 App 的"千问办事"功能已经接入了阿里生态的核心消费场景4:
→ 高德"] User --> Food["奶茶餐饮 / 零食百货
→ 淘宝闪购"] User --> Movie["电影
→ 大麦"] User --> Travel["机票 / 火车票 / 酒店
→ 飞猪"] User --> Pay["统一支付
→ 支付宝 AI付"] style User fill:#6366f1,color:#fff
这不是 demo——阿里在用真金白银推闭环落地。千问 App 的"每日首单必减"活动5每天发放 1500 万份优惠券,覆盖外卖、酒店、机票、打车、电影票,支付统一通过支付宝 AI付完成。用户说一句"帮我点 30 杯奶茶”,千问就能走完从理解需求、挑选商品、自动领券到直达下单页面的全流程。
量子位的评价是:阿里已成为"全球首个大规模开放’搜索-决策-支付-履约’全链路 AI 功能的科技公司"4。技术上基于 MCP + A2A 协议,采用多 Agent 架构——主 Agent 拆解任务,多个子 Agent 在各自领域独立执行。
Auth 流程在生态内部几乎无感——首次使用时完成千问与高德/淘宝/飞猪的账号授权绑定(类似 gh auth login 的 OAuth 流程),之后所有操作自动带上登录态。整个阿里系共享支付宝账号体系,用户不需要反复授权。
B 端:悟空——企业级 AI Agent 平台
2026 年 3 月 17 日,阿里发布了企业级 AI Agent 平台"悟空"6,内嵌到超 2000 万企业组织的钉钉之中。钉钉 CEO 陈航的定位很明确:
“和市面上所有的龙虾 Agent 不一样,悟空天然就长在企业组织中。”
拥有 8 亿用户的钉钉为此完成了底层代码重写,进行了全面的 CLI 化改造7——悟空原生操作钉钉的上千项能力,而非模拟人类点击。值得注意的是,这次的 CLI 是专门为 AI 设计的:命令可以很长很详细(AI 不需要记),输出直接是 JSON(AI 解析结构化数据比看排版高效得多)。结合第一篇的分析,这验证了 CLI 在 Agent 工具调用中的效率优势。阿里旗下淘宝、天猫、1688、支付宝、阿里云等 B 端能力以 Skill 形式逐步接入,首批覆盖十大行业场景6。AI Agent 自动继承企业权限规则,绕过了第二篇分析的"组织管控"壁垒。
生态对比
| 玩家 | 有什么 | 缺什么 |
|---|---|---|
| 阿里(千问+悟空) | 电商+支付+出行+本地生活+企业协作+云 | 社交、内容 |
| 腾讯 | 社交+内容+支付+企业微信 | 电商闭环、出行 |
| 字节 | 内容+本地生活+飞书 | 支付、供应链 |
| 百度 | 搜索+地图+AI 模型 | 交易闭环、企业协作 |
阿里的优势:离交易最近,且 B 端 C 端同时闭环。 Agent 的终极价值不是聊天,是帮用户完成决策→执行→支付的完整链路。阿里是目前唯一在 C 端(千问 App)和 B 端(悟空)同时跑通这条链路的平台。
但这里存在一个结构性矛盾
但只在阿里生态里"] end U --> Gap["冲突点"] A --> Gap Gap --> Result["淘宝闪购帮你点了奶茶
但不会告诉你美团更便宜"] style Gap fill:#ef4444,color:#fff
私有生态 Agent 的本质:用 AI 的便利性,换取用户对比价权的放弃。 千问能帮你在淘宝闪购自动领券、凑单、下单,但它不会告诉你同一杯奶茶在美团外卖上可能更便宜。
策略二:翻墙——爬虫的新形态
等不及平台开放,有人开始强行突破:
云虚拟手机 + 视觉读屏"] D2["豆包手机(字节/UI-TARS)
手机端 GUI Agent"] D3["Manus
Firecracker microVM 沙箱"] end D1 --> Problem["共同特征"] D2 --> Problem D3 --> Problem Problem --> P1["不走 API 正门"] Problem --> P2["脆弱 — 平台更新即失效"] Problem --> P3["灰色 — 法律风险持续存在"] Problem --> P4["被封杀 — 豆包手机遭多 App 围剿"] style D1 fill:#6366f1,color:#fff style D2 fill:#6366f1,color:#fff style D3 fill:#6366f1,color:#fff style Problem fill:#ef4444,color:#fff
这条路线上有几个代表性产品,技术形态各不相同但本质一致:
智谱 AutoGLM8:为 AI 配备"云端虚拟手机",Agent 在云虚拟机里通过视觉模型理解屏幕内容,模拟人类操作完成跨 App 任务(点外卖、订机票、发微博)。不需要任何 API——它直接"看"屏幕。
豆包手机(字节/UI-TARS)3:手机端 GUI Agent,同样基于视觉驱动。一条语音指令就能完成从约人吃饭到订好场地、同步行程的全流程操作。上线后被微信、支付宝等多款 App 封杀,一部 3499 元的手机在二手市场被炒到 3.6 万元。
Manus9:每个任务分配一台独立的 Firecracker microVM(与 AWS Lambda 同一技术),Agent 在完整的云端沙箱环境里运行浏览器、写代码、操作文件,任务完成后交付结果。
技术形态不同,本质一致:不走 API 正门,绕过平台的授权体系来获取数据和执行操作。 从爬网页到爬屏幕到开虚拟机,手段在升级,但脆弱性和灰色地带没有根本改善——UI 改版即失效、平台封杀即停摆、法律风险始终悬着。
而且"翻墙"不只是脆弱——还危险。OpenClaw 的安全事件10就是警示:
- 10,000+ 实例因配置不当泄露了用户凭证
- 社区 Skills 中有 12% 被发现是恶意的——注入代码、窃取数据、建立持久化后门
- 770,000 个 Agent 被发现存在远程劫持风险
这些不是代码 bug,而是架构层面的必然结果——当你给 Agent shell 访问权限却没有授权边界时,安全事故是迟早的事。这也是为什么 MCP 的 OAuth + 权限隔离在企业场景中仍然有存在价值。
这些产品确实在推动一件对的事,但用的是注定不可持续的方式——不只是技术上不可持续,安全上也不可持续。
类比:视频网站的演进
盗版内容起量"] S2["灰色博弈
版权纠纷"] S3["正规化
版权采购 + 自制"] S4["成熟期
Netflix"] S1 -->|"我们在这"| S2 S2 --> S3 S3 --> S4 style S1 fill:#ef4444,color:#fff style S2 fill:#f97316,color:#fff style S3 fill:#eab308,color:#fff style S4 fill:#22c55e,color:#fff
Agent 生态现在像 2008 年的视频网站——靠"爬"来的内容(数据)给用户提供价值。用户确实获益了,但模式不可持续。
正规化需要的是平台主动开放——就像视频网站最终走向版权采购。但在 Agent 领域,这意味着平台要交出数据控制权,动的是商业模式的根基。
什么力量会推倒第一块砖?
不是技术。推动变化的是三件事:
1. 用户预期的不可逆转
变得不可忍受"] Consequence --> Pressure["平台必须响应
否则用户流失"] style Shift fill:#f97316,color:#fff style Pressure fill:#ef4444,color:#fff
如果阿里的闭环 Agent 先做出来了,用户在阿里生态里体验过"说一句话就能订酒店+买机票+规划路线"之后,回到其他平台手动搜索的体验就变得不可忍受。
2. 监管的外力
欧盟 DMA(数字市场法案)已经产生了实际执法效果11:
- 6 家守门人被指定:Alphabet、Amazon、Apple、ByteDance、Meta、Microsoft(2023 年 9 月)
- 2025 年 4 月开出首张罚单:苹果 5 亿欧元(限制 App Store 开放)+ Meta 2 亿欧元(强制"付费去广告")= 合计 7 亿欧元
- 最高处罚可达全球年营收的 10%(重复违规 20%)
- 第 7 条强制即时通讯服务互操作(WhatsApp、Messenger 须开放跨平台消息)
- 苹果和谷歌已被迫开放跨平台数据迁移(iOS 26.3 测试版新增"传输至安卓"功能)
国内的《个人信息保护法》第 45 条也规定了数据可携带权——用户有权请求将个人信息转移至其指定的其他处理者。但目前的执法重心在隐私保护(打击"开盒"、人脸识别滥用等),尚未出现以数据可携带权强制平台向第三方 Agent 开放数据的案例。
差距很明显:欧盟在用罚款倒逼开放,国内的数据可携带条款还基本停留在纸面上。 如果国内出台类似 DMA 的执行力度,那才是真正的转折点。
3. 竞争的囚徒困境
用户体验领先"] Ali --> Choice["其他厂商怎么办?"] Choice -->|"A"| Self["自己也做闭环
但生态不够,成本极高"] Choice -->|"B"| Open["接入开放协议
成本低,但要交出部分数据控制"] Choice -->|"C"| Nothing["什么都不做
用户流失"] Open --> Result["当多数厂商选 B
MCP 等标准协议才真正被需要"] style Ali fill:#6366f1,color:#fff style Open fill:#22c55e,color:#fff style Nothing fill:#ef4444,color:#fff style Result fill:#a855f7,color:#fff
就像银联/网联打通支付——不是谁主动想开放,是监管 + 竞争 + 用户预期共同推动的。
阿里现在做的事,短期看是在固化自己的围墙。长期看反而可能是推倒围墙的第一张多米诺骨牌——因为它会制造用户预期的差距,逼其他平台不得不跟进。
所以我们在等什么?
是数据持有者的选择"] style Ready fill:#22c55e,color:#fff style NotReady fill:#ef4444,color:#fff style Answer fill:#6366f1,color:#fff
AIGC 时代的瓶颈不是 AI 不够强,是数据持有者没有动力让 AI 替用户做选择。
因为一旦 Agent 能帮用户做最优选择,平台就失去了操纵用户决策的能力。Agent 对民生的价值和对平台利润的威胁,是同一件事的两面。
这个问题没有技术解——它需要用户预期、监管压力和市场竞争共同推动。而这三股力量正在缓慢积聚。
第一块砖会从哪里倒?我的猜测是阿里的闭环 Agent 先跑出体验差距,然后竞争压力传导到其他平台,然后监管顺势推一把。
至于这需要多久——大概比技术乐观派想的更慢,比悲观派想的更快。
这是 “Agent 生态思考” 系列第三篇。这个系列的核心观点只有一句话:CLI vs MCP 争的是管道,缺的是水龙头。 技术全部就绪,等的是数据持有者的选择。
参考资料
-
OpenClaw 社区的飞书集成 Skills,包括 feishu-ai-dailyreport(团队自动日报)和 finance-report-analyzer(财务报表生成)。 ↩︎
-
Perplexity 于 2026 年 3 月 11 日在 Ask 2026 开发者大会上发布 Personal Computer,运行在 Mac mini 上,$200/月(Perplexity Max 订阅),接入 40+ 服务。参见 The Verge 报道。 ↩︎
-
豆包手机(字节跳动 UI-TARS 技术)于 2025 年 12 月发布技术预览版,随后遭到微信、支付宝等多款主流 App 封杀。一部 3499 元的手机在二手市场被炒至 3.6 万元。参见新浪财经:“Manus、豆包手机没成的事,为何被一只’龙虾’做到了?”。 ↩︎ ↩︎
-
千问 App “千问办事"功能接入淘宝闪购、飞猪、高德、大麦、支付宝等阿里生态,实现"搜索→决策→支付→履约"全链路。基于 MCP + A2A 协议,多 Agent 架构。参见量子位,“AI开始’动手’了,全世界第一个带头的是阿里千问”。 ↩︎ ↩︎
-
千问 App “每日首单必减"活动规则:每日发放 1500 万份优惠券,覆盖外卖餐饮、零食百货、酒店、电影票、机票、火车票、打车等场景。服务由淘宝闪购、大麦、飞猪、高德提供履约支持,支付宝提供支付及优惠核销能力。数据来源:千问 App 活动规则页面(2026 年 2 月 18 日起)。 ↩︎
-
阿里巴巴于 2026 年 3 月 17 日发布企业级 AI Agent 平台"悟空",内嵌钉钉,阿里生态 ToB 能力以 Skill 形式接入。参见新浪财经报道、鲸林向海深度分析。 ↩︎ ↩︎
-
钉钉全面 CLI 化改造:拥有 8 亿用户的钉钉完成底层代码重写,全面转向 CLI 架构。与 DOS 时代的 CLI 不同,这次是专为 AI 设计——命令可以很长(AI 不需要记),输出是 JSON(结构化数据)。参见腾讯新闻,“钉钉已经彻底 CLI 化了”;潮起网,“钉钉 2.0 重磅升级:全量底层代码重写,实现全面 CLI 命令行界面化”。 ↩︎
-
智谱 AutoGLM:全球首个手机 Agent,基于 GLM-4.5V 多模态模型,采用"云端虚拟手机"架构,Agent 在沙箱中运行。2025 年 12 月开源(Apache-2.0)。参见 GitHub: Open-AutoGLM。 ↩︎
-
Manus:通用 Agent 平台,每个任务分配独立 Firecracker microVM 沙箱(2 vCPU, 8GB RAM),Agent 在完整云端环境中自主运行。2026 年被 Meta 收购。参见 Manus Sandbox 核心机制揭秘。 ↩︎
-
OpenClaw 安全事件数据来自 ScaleKit, “MCP vs CLI: Benchmarking AI Agent Cost & Reliability”, Mar 2026。另见 Skills vs MCP: The Token Efficiency War 中的引用。 ↩︎
-
欧盟 DMA 执法数据:2025 年 4 月 23 日首次开出罚单,苹果 5 亿欧元 + Meta 2 亿欧元,合计 7 亿欧元。参见 36 氪,“7 亿欧元,欧盟对苹果和 Meta 开出《数字市场法案》首张罚单”;安全内参,“欧盟《数字市场法》大考结束,六大守门人都交了什么合规答卷”,2026 年 3 月。中国《个人信息保护法》第 45 条规定数据可携带权,但目前执法集中在隐私保护领域,参见最高检 2026 年 1 月发布的个人信息保护检察公益诉讼典型案例。 ↩︎