场景验证
框架的价值不在于它看起来多完整,而在于它在真实场景中是否真的解决了困难问题。
验证逻辑
EICPS 的验证不是”系统跑通了”,而是针对困难问题中四个约束逐一给出证据:
| 困难约束 | 验证方式 | 度量指标 |
|---|---|---|
| 自主规划与执行 | HTN 子任务分解正确率 | 算子序列合法率、规划时间 ≤ 0.2ms |
| 场景定制约束满足 | STL 形式化规约自动验证 | 时序约束满足率、 |
| 语义-物理转化 | ETL 序列生成与接口协议一致性 | 接口报文合规率 |
| 安全可靠 | CBF 看门狗实时监控 | 安全边界违反次数(目标:0) |
三个核心问题必须全部回答:任务完不完成、过程安不安全、集成有没有增益(消融实验)。
进行中的场景
| 场景 | 项目·课题 | 覆盖的检修任务 | 状态 |
|---|---|---|---|
| 架空输电线路运检 | 项目167·课题3 | 防振锤更换(基准任务) | 🔄 进行中 |
计划扩展的检修任务
项目167·课题4 覆盖范围,在基准任务验证通过后向以下任务扩展:
| 检修任务 | 子任务类型 | 主要扩展点 |
|---|---|---|
| 导线异物清除 | 识别·接近·清除·撤离 | 目标不确定性,HTN 方法扩展 |
| 导地线补修 | 损伤定位·补修夹安装·张力恢复 | 多步物理操作,STL 约束更复杂 |
| 绝缘子污秽清除 | 检测·清洗·干燥·复检 | 连续过程监控,RHC 滚动窗口扩展 |
| 锁紧销修复 | 定位·拆销·换销·锁紧 | 精细操作,子任务粒度最细 |
消融实验设计
验证逻辑中的第三个核心问题——集成有没有增益——需要消融实验回答。以下是预定义的实验设计,确保验证结论可复现、可对比。
集成增益的形式定义
集成增益(Integration Gain, IG) 定义为:EICPS 完整系统相对于最优单工具基线在综合指标上的提升幅度。
综合指标 是任务完成率、安全违反次数、STL 鲁棒度三项的加权组合:
其中 (权重须在实验前固定,不得事后调整)。集成增益定义为:
表示集成系统优于任意单一基线,即集成产生了正向增益。
消融基线
| 基线 | 配置 | 缺少的核心能力 | 预期失效模式 |
|---|---|---|---|
| A:仅 HTN | HTN 规划 + 直接力矩控制,无 STL / CBF | 无实时安全形式化保障 | 任务可执行,但安全边界无强制约束;人员进入安全距离时无法保证停止 |
| B:仅 CBF | CBF 安全过滤 + 固定任务序列,无 HTN | 无语义规划,无任务分解 | 安全可保证,但无法应对动态任务切换;遇到 Jump 触发条件时不能重规划 |
| C:人工遥控 | 全程人工遥操作,无自主规划 | 无自主性 | 完成率依赖操作员技能,不具可扩展性;作为人类基准参考点 |
| EICPS | 七项工具完整集成 | — | — |
主验证指标
| 指标 | 单位 | 测量方法 | 期望值 |
|---|---|---|---|
| 任务完成率 | % | 防振锤更换任务成功次数 / 总次数 | > 90% |
| 安全边界违反次数 | 次 / 试验 | CBF 满足 的累计发生次数 | 0 |
| STL 鲁棒度均值 | 无量纲 | 全任务周期内 的时间平均值 | |
| 规划时间 | ms | HTN 子任务分解耗时(单次) | ≤ 200 ms |
| EvidencePack 生成率 | % | 任务结束时成功生成完整六元组的比例 | 100% |
注:当前场景(项目167·课题3)处于系统搭建阶段,上表为预定指标,实测数据将在实验执行后更新。每组基线须在相同物理场景、相同任务工单下重复至少 20 次,报告均值与 95% 置信区间。若场景条件变化(任务类型、线路参数),须重新固定权重 后独立报告,不得与原组合并。
当前局限与适用边界
任何诚实的框架都需要说清楚自己不能做什么。以下局限是已知的、结构性的,不是工程缺陷,而是当前设计范围的边界。
局限 1:单场景验证,泛化性待证
当前唯一的实验场景是架空输电线路防振锤更换任务。EICPS 框架的可泛化性(是否适用于地下管廊、核电站检修、海上平台作业等其他高安全场景)尚未验证。框架的组件(HTN、STL、CBF)具有场景无关的数学保证,但接口 A/B 的参数、STL 规约的具体公式、CBF 安全函数 的形状都是场景特定的,切换场景需要重新设计这些部分。
局限 2:仿真-实物差距(Sim-to-Real Gap)
当前验证以仿真环境为主。物理实验中存在建模误差(气动扰动、关节摩擦、导线弹性变形)、传感器噪声和通信抖动,这些会使 EKF 的状态估计精度下降,并影响 CBF 安全边界的实际有效性。Sim-to-Real Gap 是整个 CPS 领域的开放问题,EICPS 不能提供通用解,但通过 EKF 鲁棒估计 + STL 鲁棒度正余量设计( 留有裕量)缓解了部分影响。
局限 3:Brain 层是黑箱,安全保证是下游的
VLA/LLM 的推理过程不可验证,EICPS 的安全保证完全依赖 Spine 层的 STL + CBF 过滤——即安全性来自”即使 Brain 出错也能被 Spine 拦截”,而不是来自”Brain 不会出错”。这意味着:若 Brain 产生语义上合理但物理上危险的指令,且该指令恰好落在 CBF 安全集内部,Spine 不会拦截。EICPS 不解决 Brain 层的幻觉问题,只保证幻觉不会穿透安全边界到达执行层。
局限 4:EvidencePack 的有效性依赖传感器数据质量
EvidencePack 的六元组 的可信度以传感器数据的准确性为前提。若传感器被损坏、干扰(如强电磁场影响 IMU)或存在系统性偏差, 的记录会失真,基于此生成的 和 在事后审计时可能误判。EvidencePack 是可自动生成的法证记录,不是独立于物理世界的绝对真相证明。
局限 5:HTN 知识库的完备性限制规划质量
HTN 的任务分解质量取决于知识库中任务算子(Operator)的定义完整性。当前知识库针对防振锤更换任务手工编写,覆盖已知任务模式。面对知识库中未预见的子任务组合(如线路覆冰导致防振锤卡死),HTN 规划器会失败(无法找到合法分解),需要人工接管。这是符号 AI 规划方法的普遍局限,EICPS 不例外。