Guardrails（安全护栏）

📅 2026-06-14 | 🏷️ AI术语 | ✍️ 妙趣AI

没有Guardrails的Agent就像没有刹车的汽车——跑得再快也不敢坐。Guardrails（安全护栏）是一套限制AI Agent行为的安全边界。它不是不信任Agent，而是确保Agent在安全的轨道上运行。毕竟，一个能执行shell命令的Agent，一不小心就能把服务器搞崩。

🏗️ Guardrails 的类型

输入过滤（Input Guardrails）
- 阻止恶意prompt注入
- 过滤敏感信息（密码、密钥）
- 验证输入格式和长度
输出过滤（Output Guardrails）
- 检测有害内容
- 防止信息泄露
- 验证输出格式
工具限制（Tool Guardrails）
- 白名单/黑名单工具
- 参数验证
- 执行权限控制
行为限制（Behavior Guardrails）
- 最大循环次数
- 执行时间上限
- Token消耗上限

// Guardrails工作流程
用户输入 → [输入过滤] → Agent处理 → [输出过滤] → 响应
                                      ↓
                              [工具限制] → 工具调用
                                      ↓
                              [行为限制] → 资源控制

🔧 OpenClaw 的安全防护

# OpenClaw内置多层Guardrails
{
  "security": {
    "guardrails": {
      "input": {
        "blockPromptInjection": true,
        "filterSensitiveData": true,
        "maxInputLength": 10000
      },
      "output": {
        "filterHarmfulContent": true,
        "preventDataLeak": true
      },
      "tools": {
        "allowlist": ["web_search", "web_fetch", "read"],
        "blocklist": ["rm", "mkfs", "dd"],
        "requireApproval": ["exec:elevated"]
      },
      "behavior": {
        "maxToolCalls": 50,
        "maxExecutionTime": 3600,
        "maxTokens": 100000
      }
    }
  }
}