欢迎您访问欢迎来到沄森网,沄森智能旗下资讯平台!今天是:2026年05月18日 星期一 农历:丙午(马)年-四月-初二
您现在的位置是:首页 > AI

深知安全风控推出 AI Agent 安全护栏比较评估

沄森™2026-05-18
  随着 AI Agent(人工智能智能体)逐渐进入工具调用、文件访问、流程执行等应用场景,AI 安全问题引发的行业担忧,也催生了全新的安全需求。近日,深圳深知智新技术有限公司(以下简称:深知)旗下深知安全风控(DKnownAI Guard

  随着 AI Agent(人工智能智能体)逐渐进入工具调用、文件访问、流程执行等应用场景,AI 安全问题引发的行业担忧,也催生了全新的安全需求。近日,深圳深知智新技术有限公司(以下简称:深知)旗下深知安全风控(DKnownAI Guard)团队公开发布了一项面向 Agentic(智能体化)场景的安全护栏测评,并同步开放技术报告与评测数据集。此次测评围绕真实攻击与正常交互边界,对多类主流安全护栏方案进行了统一评估,尝试为 AI 智能体安全能力建设提供新的行业参考。

  从内容审核到智能体安全:聚焦 AI 智能体安全新挑战

  与传统内容安全测评主要聚焦违规表达、敏感内容识别不同,AI 智能体场景中的风险往往与任务目标、上下文信息以及交互过程紧密相关,仅依赖文本层面的判断,已难以完整反映相关安全能力。因此,此次测评的重点不仅在于比较不同安全方案的识别结果,更在于尝试通过统一标准,观察 AI 智能体场景下真实攻击识别能力与正常请求放行能力之间的平衡情况。

  据了解,此次测评从 8 个公开安全数据集中抽样 1018 条样本,并结合真实部署语境进行了人工复审与重标注,最终形成统一的 BLOCKED / ALLOWED(拦截 / 放行)评估框架。测评对象包括 AWS Bedrock Guardrails(亚马逊云科技安全护栏)、Azure Content Safety(微软内容安全服务)、Lakera Guard(Lakera 安全防护方案)等主流安全方案。

  业内认为,公开数据集与统一评估框架的建立,有助于提升 AI 智能体安全能力的可比性与可评估性,也为行业进一步观察复杂攻击识别能力、误伤控制能力以及整体安全效果之间的关系,提供了新的参考依据。

  从“拒答”到“分类处理”:深知安全风控为 AI 可信落地提供新实践

  在此次测评中,深知安全风控(DKnownAI Guard)在多项核心指标中表现突出。其中,召回率(Recall)达到 96.5%,真负率(True Negative Rate)达到 90.4%,均位列第一,体现出其在 AI 智能体场景下兼顾攻击识别能力与正常请求放行能力的综合安全水平。

  在机器学习领域,Recall 通常用于衡量模型对目标类别的识别覆盖能力,True Negative Rate 则用于衡量模型对非目标类别的正确判断能力。结合本次测评语境,前者对应真实攻击识别能力,后者对应正常请求放行能力。

  对于 AI 智能体场景而言,如果过度强调拦截能力,容易影响正常交互体验;而如果放行过多,则可能带来新的安全风险。测评结果显示,深知安全风控的优势并不只是提升单一拦截能力,而是在风险识别与误伤控制之间取得了较好平衡。换句话说,其关注的不只是“文本是否像风险内容”,而是“AI 智能体是否会因此做出错误行为”。这一能力对于涉及办公协同、客户服务、企业运营等实际场景的 AI 智能体应用而言,具有较强现实意义。

  据了解,深知安全风控采用组件化插入模式,可与基座大模型及相关智能体应用协同配合,对潜在风险进行识别与响应。针对部分风险问题,系统并非简单拒答,而是结合风险研判结果进行分类处理,在风险防控与正常使用体验之间实现平衡。

  测评结果显示,深知安全风控不仅能够有效识别提示词注入、指令劫持等风险,还能降低对正常业务交互的误伤,为 AI 智能体从“能用”迈向“可信可用”提供了新的实践参考。

  业内认为,仅依靠传统内容安全思路,已经难以充分应对新一代 AI 智能体场景中的复杂风险。此次公开测评通过统一数据集与评估框架,为 AI 智能体安全能力建立了新的比较参考体系,也进一步体现出行业对于“可信 AI”安全能力建设的持续关注。

  随着 AI 智能体加速进入办公协同、客户服务、企业运营等更多实际应用场景,能够兼顾风险识别能力与正常使用体验的安全能力,或将成为推动 AI 智能体进一步规模化落地的重要基础。

所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。

举报邮箱:1002263188@qq.com

相关标签: