如果你最近沉迷于AI和Web3的世界,你一定无数次听说过“AI Agent+区块链,是下一代互联网的终极解决方案”。
一边是AI Agent,早已不再是那个只会聊天、写文案的ChatGPT了——它已经进化成拥有长期记忆、能进行多步推理、能自主调用工具,甚至能与其他Agent组队协作的“数字自主实体”。夸张点说,现在的AI Agent已经能搭建一个全程无需人类干预的“零人类公司”,自己设定目标、分解任务、执行流程,简直就是数字世界中的全能打工人。
另一边是区块链,天生带有去中心化、不可篡改、确定性执行的特性,简直就是为AI Agent量身定做的“避风港”:中心化AI平台的黑箱操作、数据泄露、一言不合就关停服务的弊端,区块链都能完美解决;Agent的每一步操作都能上链留痕,身份和行为全透明,算力还能靠去中心化物理基础设施网络兜底,怎么看都是天作之合。
然而,理想很丰满,现实很骨感。当大家真的把AI Agent放到区块链上时,才发现这俩“天选CP”根本水土不服,跑起来步步卡壳。最近Galaxy发布的《AI Agents on Blockchains: Where the Friction Comes From》,直接把这层窗户纸捅破了:AI Agent在链上遇到的最大麻烦,从来不是“能不能执行操作”,而是执行层之上,那堆压得人喘不过气的语义理解、多主体协调烂摊子。
说白了,区块链从根上就是给人设计的,不是给AI Agent设计的。今天咱们就以这篇报告为核心,聊聊这对CP到底卡在哪了,行业里又想出了哪些招救场。
先搞懂:AI Agent和区块链,现在都进化到哪一步了?
在扒坑之前,咱们先把两个主角的现状说清楚,不然很容易陷入“拿着旧地图找新大陆”的误区。
AI智能体是什么?是个概率艺术家。你问它同一个问题十次,它可能给你十个略有不同的答案。它在不确定中游刃有余,靠上下文推理、模糊匹配、甚至一点“幻觉”来工作。
区块链是什么?是个确定性地狱。每一笔交易都必须精确到小数点后18位,签名必须完全匹配,Gas费必须算得一毛不差。这里没有“差不多”,只有“对”或“错”——错了就回滚,没得商量。
Galaxy那篇文章的Keypoint就在这里:最大的摩擦不在执行层,而在语义层。
简单说就是——区块链能完美执行“从A地址转0.5 ETH到B地址”这条指令,但它完全无法理解“帮我把这个月的收益换成USDC然后存到收益最高的借贷协议里”这句话背后的商业意图。
当前的解决方案是什么?人类在环(Human-in-the-loop)。就是AI负责出主意,人类负责签字确认。这就像是给自动驾驶汽车配了个需要手动换挡的司机——技术上能跑,但灵魂上已经输了。
Galaxy报告核心Keypoint:四大摩擦,卡死了AI Agent的链上之路
Galaxy这篇报告最狠的地方,就是把AI Agent在链上跑的全流程拆解得明明白白,从发现目标、验证信任、读取数据到最终执行,每一步都有原生的架构性坑,一个比一个难绕。
第一坑:发现摩擦——链上世界没有“高德地图”,AI Agent直接迷路
咱们先想一个场景:你让AI Agent去帮你找一个靠谱的去中心化图片存储服务,把你的照片备份起来。在互联网世界里,它能通过搜索引擎、应用商店、用户评分快速找到靠谱的服务;但在区块链上,情况完全变了。
Galaxy报告里一针见血地指出:从链上视角看,所有部署的合约都是平等的字节码。一个正经运营的官方存储合约、一个测试用的废弃合约、一个恶意仿冒的陷阱合约,在链上看起来都是可调用的代码,区块链不会告诉你哪个是能用的、哪个是安全的、哪个是你要找的。
这就像你给AI Agent一张空白地图,让它去找一家靠谱的打印店,地图上只标了几万个地址,每个地址都写着“打印店”,没有营业状态、没有用户评价、没有官方认证,甚至一半都是假地址。换你是AI,你也直接懵了。
更麻烦的是,传统的算法程序能靠提前写死的规则、预设的地址列表解决这个问题,但AI Agent的核心价值,就是能处理“开发时没预料到的新情况”。如果还是靠人提前给它列好白名单,那它又退回了传统程序的老路,自主能力直接废了一半。
行业主流怎么破局?
现在行业的共识,是给AI Agent建一套链上“可信黄页”。最具代表性的就是以太坊社区提出的ERC-8004(去信任智能体)标准,直接在链上搭了三个核心注册表:
•
身份注册表:给每个智能合约、每个AI Agent都发一个链上“身份证”,明确标注它的功能、支持的协议、信任模型,还得用加密证明绑定它的操作地址,从根上防仿冒;
•
声誉注册表:相当于链上“大众点评”,所有和它交互过的主体都能留下反馈,比如服务可用性、响应速度、成功率,而且这些数据直接存在合约里,其他Agent能实时读取,做自动化决策;
•
验证注册表:针对高风险场景,比如AI模型推理、数据处理,能让第三方做独立验证,把验证结果上链,用技术手段证明它的服务是靠谱的。
除此之外,行业里也在探索标准化的服务能力描述协议,让每个合约、每个Agent都能用统一的格式说清楚“我能做什么”,不用AI Agent自己去扒代码猜功能,从根源上降低发现的难度。
第二坑:控制平面摩擦——没有“官方认证”,AI Agent分不清李逵和李鬼
如果说发现摩擦是“找不到路”,那控制平面摩擦就是“找到了路,却分不清哪个是真的入口”。
Galaxy报告里举了一个特别经典的例子:链上有近200个合约,名字、符号、精度都和官方的WETH完全一样,但只有一个是真的。人能通过Etherscan、行业共识、官方渠道分辨出来,但AI Agent只看代码返回的结果,根本分不出来哪个是正品,哪个是仿冒的。
这背后的核心问题是:区块链没有原生的“官方/正品”概念。一个合约是不是某个应用的官方版本,是不是安全可信的,从来不是链上协议说了算的,而是靠人类社会的共识、品牌、官方渠道来确认的。人能看懂品牌、能分辨官方账号、能理解社会层面的信任信号,但AI Agent没有这个能力。
你让它去调用Aave的合约,它得自己判断哪个地址是官方的、有没有被代理升级、有没有 governance 改了参数;你让它去用一个去中心化服务,它得自己判断这个合约是不是恶意的、有没有后门。这些事,人靠社会常识和信息检索就能搞定,AI Agent却要做极其复杂的链上推理,还很容易出错。
行业主流怎么破局?
行业的核心方向,是给AI Agent建一套独立的、可审计的身份体系,也就是现在常说的KYA(了解你的智能体),替代传统面向人的KYC。
斯坦福大学数字经济实验室牵头的白皮书中,明确提出了Agent身份管理的核心框架:首先,必须把Agent的身份和它代表的用户身份明确分开,支持“代表用户执行”的工作流,建立可审计、有权限限制、可过期的委托授权链,防止Agent“冒充用户”操作;其次,针对Agent生成子Agent、和其他Agent协作的“递归委托”场景,必须做权限范围衰减,下游子Agent绝对不能继承主Agent的最高权限,从根上防止权限失控。
除此之外,TIVA(去中心化身份与链上意图验证)框架也成了行业主流方案:把Agent的去中心化标识符(DID)、可验证凭证,和它的链上操作深度绑定,Agent在链下可以自由做推理、做决策,但只要发起链上操作,区块链就会先验证它的身份、委托链条、操作意图,确保它的每一步操作,都在用户给的授权范围内,而且能追溯到源头。
第三坑:数据摩擦——每个合约都说自己的“方言”,AI Agent根本听不懂
解决了“找得到、分得清”的问题,AI Agent马上就遇到了第三个坎:数据读不懂、拿不到。
Galaxy报告里把这个问题扒得特别透:区块链底层只暴露存储槽、事件日志、函数调用这些最基础的东西,从来没有提供过标准化的业务对象接口。
举个例子,同样是去中心化存储服务,A合约把用户的存储容量、剩余时长、文件数量放在一个结构体里,用一个函数就能全拿到;B合约把这些数据拆成了三个独立的函数,要分三次调用;C合约更离谱,数据存在二级映射里,要先查文件索引,再查对应状态。甚至连最基础的参数单位,每个合约的约定都不一样。
这就像你让AI Agent去统计100家超市的牛奶价格,结果每个超市的价目表都用不同的语言、不同的格式、不同的单位,有的写在黑板上,有的印在传单上,有的甚至把价格藏在货架缝里。AI Agent要一个个去解析、去拼接、去转换单位,不仅工作量极大,还特别容易出错。
更麻烦的是,区块链的数据访问模式是“拉模式”:AI Agent必须主动一遍遍去查询合约状态,才能知道数据有没有变;没有原生的“订阅推送”功能,你想知道存储容量有没有到期,只能定时去查,不能等合约状态变了主动告诉你。对于需要7×24小时运行的AI Agent来说,这种模式不仅效率极低,还会造成大量的冗余查询。
行业主流怎么破局?
针对这个问题,行业里分成了两个核心方向,双管齐下。
第一个方向,是给AI Agent建统一的“通用语言”,也就是在现有网络架构之上,新增专门的智能体通信层(L8)和语义层(L9)。L8层负责标准化Agent之间的通信格式,比如请求-回复、发布-订阅这些交互模式,让大家的“信封格式”统一;L9层则负责解决语义理解的问题,把行业里的通用术语、业务对象做标准化绑定,让不同的合约、不同的Agent,对同一个业务概念有统一的理解,不用再各自猜意思。
第二个方向,是重构数据流模式,做“推模式”的链上数据中间件。现在行业里已经有很多项目在做这件事:把链上的合约状态变化,实时转换成结构化的业务事件,主动推送给订阅的AI Agent。比如存储合约的容量到期了,不用Agent一遍遍查,中间件会直接把到期事件推给它,从根本上解决了轮询的效率问题。同时,各类索引器也在做标准化的业务数据接口,把不同合约的异构数据,转换成统一格式的业务对象,给AI Agent“喂饭吃”,不用它自己去底层扒数据。
第四坑:执行摩擦——区块链只负责“把事做了”,不负责“做的事对不对”
终于到了最后一步执行,也是最致命的一个坑。Galaxy报告里说得特别扎心:现在区块链的整个交互流程,都是围绕“人点击UI、钱包二次确认”设计的,从意图翻译、风险检查到结果验证,全都是人在兜底。把人拿掉之后,AI Agent根本不知道怎么跑。
咱们拆解一下人用区块链的流程:你想把文件存到去中心化存储里,先在UI上选好服务、设置好参数,UI会帮你把操作拆解成对应的合约调用,然后钱包弹出确认框,你自己检查一遍操作对不对、有没有风险,确认后签名执行,执行完你再去UI上看一眼,文件是不是真的存好了、有没有符合你的预期。
在这个流程里,区块链只做了一件事:你签名的交易,它严格按照代码执行,保证执行过程不出错。至于这个交易是不是符合你的真实意图、有没有风险、执行结果有没有达到你的目标,它一概不管,全靠人来把控。
但AI Agent执行的时候,没有这个“人在环”的兜底了。你给它一个目标“把我的照片备份到性价比最高的去中心化存储里”,它需要自己完成:把自然语言目标拆解成具体的操作步骤、检查每一步操作有没有风险、验证执行结果是不是符合预期、如果中间某一步失败了要怎么调整。
区块链只保证“代码执行了”,不保证“执行的结果符合你的意图”。这就像你给自动驾驶汽车一个目标“从北京开到上海”,结果导航只告诉你“踩油门、转方向盘”,不规划路线、不提示限速、不告诉你有没有闯红灯,甚至不告诉你有没有开到目的地,所有的事都要汽车自己来,这路能好开吗?
行业主流怎么破局?
现在行业里对这个问题的共识高度统一:必须在基础设施层给AI Agent做可编程的执行护栏,绝对不能靠提示词工程来约束AI,那玩意儿根本不靠谱。
核心的技术底座,就是以太坊生态的账户抽象(ERC-4337)标准。它的核心是用智能合约账户,替代传统的外部账户,让账户本身就能写可编程的验证逻辑。简单说,你可以给AI Agent的账户,提前写死各种硬约束:单笔操作的上限、能交互的合约白名单、禁止操作的黑名单、风险评估规则,一旦AI Agent的操作超出了预设范围,账户直接拒绝执行,根本不用人逐笔确认。
同时,行业里普遍采用了“隔离签名层”的架构:把私钥和AI Agent的运行环境完全隔离开,Agent只能发起操作请求,不能碰私钥,独立的签名层会按照预设的规则,验证请求合不合法,合法才签名执行。再加上权限分离原则,负责读数据、做推理的Agent进程,和负责执行高权限操作的进程完全分开,就算AI被提示词注入攻击了,也能把损失范围降到最低。
除此之外,意图引擎也成了行业的热门方向。AI Agent只需要用自然语言说清楚最终目标,意图引擎会自动把它拆解成具体的执行步骤,找最优的执行路径,甚至先在虚拟环境里模拟一遍,确认没问题再上链执行,彻底把AI Agent从复杂的底层操作里解放出来。
现在行业里,AI Agent+区块链都落地了哪些真东西?
聊完了坑和解决方案,肯定有人问:说了这么多,现在到底有没有能用的东西?
当然有,而且已经跳出了概念阶段,有了不少实打实的技术落地,全程不碰金融,纯靠技术解决真实问题:
第一类,是去中心化多智能体协作网络。最典型的就是Olas网络,它用“共识小工具”的架构,解决了多Agent链下协作、链上共识的问题。多个AI Agent可以在链下自主完成复杂的逻辑推理、数据处理、任务协作,先在临时共识网络里对结果达成一致,再把最终的验证结果上链。现在已经有Agent能自主读取DAO的治理提案,做全流程的分析、合规性校验,甚至给出投票建议,全程不用人干预;还有的Agent能自主调用去中心化计算网络,完成AI模型的分布式微调,从任务拆分、算力调度到模型训练,全流程自主运行。
第二类,是链上去信任AI服务市场。基于ERC-8004标准,现在已经有了完全去中心化的AI服务集市:每个AI Agent都能在链上注册自己的服务能力,比如图像生成、语音识别、数据清洗、内容审核,其他Agent能自主发现、调用、验证服务质量,所有的交互记录、服务结果都上链可审计,不用中心化平台做撮合和担保。比如一个做视频剪辑的Agent,能自主调用图像生成Agent、配音Agent、字幕生成Agent,协作完成一个完整的视频,所有的服务调用和结算都通过链上合约自动完成,真正实现了“机器为机器服务”。
第三类,是可信AI推理验证网络。也就是现在行业里大火的ZKML(零知识机器学习),它把AI推理和零知识证明结合起来:AI Agent在链下的去中心化算力网络里完成模型推理,同时生成一个简洁的零知识证明,把证明提交到链上,任何人都能以极低的成本验证,这个推理确实是用指定的模型、指定的数据正确执行的,而且全程不泄露模型权重和用户的隐私数据。现在已经落地到了医疗诊断、工业质检、内容合规审核这些场景里,比如医疗AI Agent给患者做诊断,能把诊断结果和加密证明上链,医院能验证诊断的真实性和合规性,又不会泄露患者的隐私数据。
第四类,是**物联网+