OWASP:AI Agent仍无法防prompt injection攻击
2026-06-13分类:人工智能 阅读()

OWASP GenAI 安全计划于 6 月 11 日发布最新版《State of Agentic AI Security and Governance》报告 v2.01,内容直指自主型 AI Agent 在生产环境最常见的资安失效仍是 prompt injection(提示注入),并警告现有架构性问题短期无解。据 Help Net Security 报导,这份报告追踪 53 个自主型 AI 专案,其中 28 个是编码类 Agent,并列举 2026 年 2 月与 3 月两起真实供应链攻击事件。
同期间,Pillar Security 技术长办公室的 AI 资安研究员 Ariel Fogel 于 Infosecurity Europe 2026 演讲中,明确将 prompt injection 定性为「LLM 架构层级的未解问题」,呼应 OWASP 报告结论。
核心结论:LLM 架构上无法区分系统指令与使用者输入
据 Infosecurity Magazine 报导,Fogel 在演讲中表示:「大型语言模型把所有输入视为单一 token 序列,没有任何可靠机制能在系统提示、使用者查询与 Agent 抓取的内容之间强制执行权限边界。」
这段话点出问题本质:与传统软体可以透过记忆体分页、权限位元、process 隔离等机制清楚划分「可信指令」与「不可信资料」不同,LLM 在推理时把所有 token 平行对待,攻击者只要将恶意指令藏进 Agent 将会读到的文件、网页或外部回应,模型就有机率把它当作合法指令执行。
OWASP 报告同样指出,Simon Willison 提出的 lethal trifecta(私有资料存取 + 不可信内容暴露 + 对外通讯能力同时具备)以及 Meta 提出的 Agents Rule of Two(Agent 同时最多只能满足三项属性中的两项,否则需人类介入)两套设计准则「有助于降低风险,但都非完整解方」。先前曾报导 Google Cloud 为 AI Agent 提出的五大设计模式,这次 OWASP 报告可视为业界针对相同问题的最新一份系统性盘点。
两起真实攻击:GitHub Actions 与 LiteLLM PyPI 供应链污染
报告列举的指标事件包括:
- 2026 年 2 月,名为 Hackerbot-claw 的攻击者利用 GitHub Actions 设定错误,跨多个开源储存库植入恶意自动化流程。
- 2026 年 3 月,同一攻击者透过 Aqua Security 旗下 Trivy 在 GitHub Actions 的设定漏洞,窃取 LiteLLM 的 PyPI 发布权杖,并向 PyPI 直接推送两个植入后门的 LiteLLM 版本。在被侦测下架前的 3 小时内,已累积 47,000 次下载。
4 月曾完整报导 LiteLLM PyPI 供应链攻击事件,受影响套件每月下载量达 9,700 万次,使用该套件的 AI 服务的 SSH 金钥与 API 凭证大规模外泄。OWASP 这次将该案列入年度指标事件,定位为 prompt injection 风险如何在现实供应链扩散的代表案例。
编码类 Agent 集中曝险、Claude Code 等成为攻击热区
OWASP 报告中追踪的 53 个自主型 Agent 专案,有 28 个属于编码类 Agent,使「编码」成为当前企业采用 AI Agent 的最大用例,幅度超过其他用例近一个数量级。报告点名快速增长的编码类 Agent 包括 Claude Code、Gemini CLI、Codex、Cline、Aider 五款。
编码类 Agent 直接拥有读写程式码、执行 shell 指令、提交 Pull Request 的能力,正好符合 lethal trifecta 三要素,攻击面远大于仅有对话功能的 LLM。先前报导微软揭露 Claude Code 提示注入漏洞、可窃 CI/CD 凭证,正是这类风险的具体实例。
对于企业部署,Fogel 建议的防御方向集中在「执行阶段」而非「模型阶段」:即时行为监测、自动化异常隔离、短效凭证搭配密码学凭证链、跨部门事件回应剧本。先前整理的 AI Agent 工具链完整指南中,编码、支付与托管三层的安全责任分配也是当前生态的核心议题。
Tags:
