
3 月 12 日消息,多所顶尖高校联合发表《混沌智能体》研究,揭示 AI 智能体存在严重安全隐患,超六成企业无法终止失控的智能体,面临“能看不能管”的治理断层。
由哈佛大学、麻省理工学院、斯坦福大学、卡内基梅隆大学和东北大学等学府联合多家顶尖机构,发表《混沌智能体》研究,测试发现在企业环境下,AI 智能体存在严重失控情况。
研究团队模拟企业生产环境,搭建了近乎相同的环境来部署 AI 智能体,并在短短两周内触发并记录了 11 起严重的安全漏洞案例,证明当前 AI 智能体极易被操控。
研究清晰指出,攻破 AI 智能体无需投毒训练数据或利用零日漏洞,仅靠传统的“社交工程”对话即可实现。例如,智能体在明确拒绝直接提取数据的请求后,却在执行“转发邮件”指令时,违规附带了社保号码与银行账户等敏感信息。
此外,当攻击者在外部平台伪造身份后,智能体会毫无防备地接受指令,甚至主动清除自身配置文件并交出系统的最高管理权限。
比系统漏洞更严峻的是企业极度滞后的干预能力。Kiteworks 发布的 2026 年风险预测报告显示,多数组织陷入了“能看不能管”的困境。
尽管企业投入资源监控 AI 的行为,但 60% 的企业根本无法强行终止行为异常的智能体,63% 的企业无法限制其使用范围。在掌握关键基础设施的政府机构中,高达 76% 的部门未配备“一键终止”开关,导致失控风险成倍放大。
面对上述系统性缺陷,单纯依靠优化提示词或设置模型护栏已无法解决问题。行业专家强调,企业必须将治理架构的核心从“约束 AI 模型本身”转移到“管控底层数据层”。
具体而言,企业应在 AI 智能体与敏感数据之间建立统一的安全控制平面,确保智能体的每一次访问请求都经过严格的身份验证、授权与审计,从而用架构硬性管理风险。
