工业智能体进入生产现场后,安全与可靠性必须被放在首位。不同于一般办公软件,工业智能体可能影响设备运行、质量判定、排程调整、维修优先级和现场人员操作。因此,系统设计不能只关注模型准确率,更要关注异常情况下的风险控制能力。

在工业环境中,一个智能体即使大多数时候表现正确,只要少数情况下给出错误建议,并且这些建议没有被系统拦截,就可能造成严重后果。真正可靠的工业智能体,不是“永远不出错”,而是“即使出错,也不会轻易造成生产事故”。

这意味着工业智能体必须具备安全边界、权限控制、风险识别、人工接管、审计追踪和持续监控能力。

一、工业智能体必须遵守 OT 安全原则

工业现场存在 IT 与 OT 的区别。IT 系统主要处理业务信息,OT 系统则直接关联设备运行和生产控制。工业智能体一旦接入 SCADA、DCS、PLC、设备网关或 Historian,就不再只是普通软件系统,而是进入了工业控制环境。

因此,智能体不应直接暴露在生产控制网络中,也不应随意访问底层控制系统。更合理的方式是通过安全网关、数据隔离区、只读镜像库或受控 API 访问工业数据。

基本原则包括:

  • IT 与 OT 网络分区分域。
  • 智能体默认不直接访问 PLC 或控制器。
  • 生产控制网不直接暴露给模型服务。
  • 写操作必须通过受控业务系统完成。
  • 所有接口采用最小权限原则。
  • 高风险操作必须人工确认。
  • 敏感数据需要脱敏和访问审计。

这类设计并不会削弱智能体价值,反而是其进入真实生产环境的前提。

二、需要防范模型带来的新型风险

工业智能体引入大模型后,会带来传统工业软件中较少出现的新风险。

1. 幻觉风险

模型可能生成看似专业但并不存在的设备处理方法、参数范围或质量标准。因此,涉及生产现场的回答应尽量引用可信来源,并区分事实、推断和建议。

2. 提示注入风险

如果智能体读取外部文档、邮件、网页或供应商资料,其中可能包含恶意指令,例如诱导模型忽略审批、泄露数据或执行越权操作。因此,外部内容必须被视为不可信输入,而不是系统指令。

3. 数据投毒风险

如果历史案例、维修记录或质量标签存在错误,模型可能基于错误样本形成错误判断。工业智能体不能盲目信任历史数据,而应结合数据来源、审批状态和专家确认程度进行判断。

4. 越权操作风险

用户可能通过自然语言要求智能体执行其本身无权完成的操作。例如操作员要求修改工艺参数,普通工程师要求放行异常批次。系统必须由权限机制而不是模型主观判断来拦截。

5. 过度自动化风险

为了追求效率,企业可能过早让智能体自动执行高风险动作。实际上,工业智能体应优先从低风险、可回滚、边界清晰的任务开始,逐步扩大自动化范围。

三、可靠性的核心是“安全失败”

工业智能体不可能永远正确。因此,系统设计目标不应是让模型在所有问题上都给出答案,而应是让它在不确定时保守,在高风险时升级,在错误时被拦截。

这可以概括为“安全失败”原则。

具体机制包括:

  • 低置信度时拒绝给出确定结论。
  • 数据缺失时明确说明分析限制。
  • 参数越界时自动阻断建议。
  • 高风险动作转交人工审批。
  • 工具调用失败时返回错误原因。
  • 模型输出与规则冲突时以规则为准。
  • 关键操作支持回滚或人工接管。
  • 重大异常自动升级到责任人员。

例如,在工艺优化场景中,智能体建议将某温度从 180℃ 调整到 195℃。即使该建议基于历史良率分析看似合理,系统也必须检查该值是否在当前产品、设备、物料和客户标准允许的工艺窗口内。如果超出边界,建议应被拦截,而不是进入执行流程。

四、项目示意:参数建议的风险拦截

假设某工厂使用智能体分析涂布工艺良率。智能体发现,当烘箱第二区温度略高时,膜厚一致性似乎更好,于是生成建议:

“建议将二区烘箱温度从 86℃ 提高到 92℃。”

系统随后进行规则校验:

  1. 当前产品工艺窗口为 82℃—88℃。
  2. 92℃ 超出已验证窗口。
  3. 该产品属于客户重点管控型号。
  4. 参数变更需要工艺工程师和质量负责人审批。
  5. 当前批次正在量产,不允许未经验证的参数调整。

因此,系统不会执行该建议,而是转换为:

“该建议超出当前工艺验证窗口,不能直接执行。可作为工艺优化假设,建议进入 DOE 试验或工程变更流程,由工艺工程师评估。”

这就是工业智能体可靠性的关键:模型可以提出假设,但系统必须决定假设能否进入生产动作。

五、工业智能体的监控与审计

安全可靠不仅依赖上线前设计,也依赖运行中的持续监控。工业智能体应记录并监控以下内容:

  • 用户请求类型。
  • 数据来源和数据完整性。
  • 模型输出内容。
  • 工具调用记录。
  • 规则校验结果。
  • 人工审批记录。
  • 被拦截的高风险建议。
  • 用户采纳或驳回情况。
  • 后续生产结果。
  • 异常和投诉记录。

这些数据可以用于复盘智能体表现。例如,如果某类建议经常被工程师驳回,说明知识库、规则或模型提示需要优化。如果某类高风险建议频繁出现,说明场景边界需要重新定义。

工业智能体的安全治理,不是一套静态文档,而是持续运营机制。

六、评估指标不能只看准确率

对于工业智能体,准确率只是基础指标。更重要的是它是否改善生产结果,以及是否有效控制风险。

建议企业关注以下几类指标:

业务价值指标

  • 异常定位时间缩短。
  • 维修响应时间降低。
  • 停线时间减少。
  • 质量追溯效率提升。
  • 排程调整效率提升。

质量与生产指标

  • 良率变化。
  • 报废率变化。
  • 重复故障率变化。
  • MTTR 改善。
  • 计划达成率改善。

风险控制指标

  • 高风险动作拦截次数。
  • 不可执行建议比例。
  • 人工驳回率。
  • 越权请求拦截率。
  • 审计记录完整率。
  • 数据不足提示准确性。

尤其要关注“错误建议是否被系统拦住”。在工业现场,这比模型单次回答是否漂亮更重要。

结语

工业智能体的安全与可靠性,不是上线前补充的一层防护,而应从架构设计阶段就内置其中。

真正适合工业现场的智能体,不应追求无约束自治,而应在数据、权限、规则、流程和人工确认的边界中运行。它可以帮助企业更快发现问题、更好组织知识、更高效协同流程,但不能把模型的不确定性直接传导到生产现场。

工业智能体的目标不是永远不犯错,而是即使发生错误,也能被系统边界、规则校验和人工机制及时拦截。这是它从演示系统走向生产系统的关键分水岭。