Guardrails(安全护栏)

📅 2026-06-14 | 🏷️ AI术语 | ✍️ 妙趣AI

没有Guardrails的Agent就像没有刹车的汽车——跑得再快也不敢坐。Guardrails(安全护栏)是一套限制AI Agent行为的安全边界。它不是不信任Agent,而是确保Agent在安全的轨道上运行。毕竟,一个能执行shell命令的Agent,一不小心就能把服务器搞崩。

🏗️ Guardrails 的类型

  1. 输入过滤(Input Guardrails)
    • 阻止恶意prompt注入
    • 过滤敏感信息(密码、密钥)
    • 验证输入格式和长度
  2. 输出过滤(Output Guardrails)
    • 检测有害内容
    • 防止信息泄露
    • 验证输出格式
  3. 工具限制(Tool Guardrails)
    • 白名单/黑名单工具
    • 参数验证
    • 执行权限控制
  4. 行为限制(Behavior Guardrails)
    • 最大循环次数
    • 执行时间上限
    • Token消耗上限
// Guardrails工作流程
用户输入 → [输入过滤] → Agent处理 → [输出过滤] → 响应
                                      ↓
                              [工具限制] → 工具调用
                                      ↓
                              [行为限制] → 资源控制

🔧 OpenClaw 的安全防护

# OpenClaw内置多层Guardrails
{
  "security": {
    "guardrails": {
      "input": {
        "blockPromptInjection": true,
        "filterSensitiveData": true,
        "maxInputLength": 10000
      },
      "output": {
        "filterHarmfulContent": true,
        "preventDataLeak": true
      },
      "tools": {
        "allowlist": ["web_search", "web_fetch", "read"],
        "blocklist": ["rm", "mkfs", "dd"],
        "requireApproval": ["exec:elevated"]
      },
      "behavior": {
        "maxToolCalls": 50,
        "maxExecutionTime": 3600,
        "maxTokens": 100000
      }
    }
  }
}

安全最佳实践

💡 妙趣说: 理解这个概念,是成为AI Agent高手的关键一步。理论结合实践,在OpenClaw中动手试试吧!

📚 相关推荐

Agent State Management Explained
Safetensors Explained
Human Approval Gate Explained