场景验证

框架的价值不在于它看起来多完整,而在于它在真实场景中是否真的解决了困难问题。

验证逻辑

EICPS 的验证不是”系统跑通了”,而是针对困难问题中四个约束逐一给出证据:

困难约束验证方式度量指标
自主规划与执行HTN 子任务分解正确率算子序列合法率、规划时间 ≤ 0.2ms
场景定制约束满足STL 形式化规约自动验证时序约束满足率、ρ>0\rho > 0
语义-物理转化ETL 序列生成与接口协议一致性接口报文合规率
安全可靠CBF 看门狗实时监控安全边界违反次数(目标:0)

三个核心问题必须全部回答:任务完不完成、过程安不安全、集成有没有增益(消融实验)。

进行中的场景

场景项目·课题覆盖的检修任务状态
架空输电线路运检项目167·课题3防振锤更换(基准任务)🔄 进行中

计划扩展的检修任务

项目167·课题4 覆盖范围,在基准任务验证通过后向以下任务扩展:

检修任务子任务类型主要扩展点
导线异物清除识别·接近·清除·撤离目标不确定性,HTN 方法扩展
导地线补修损伤定位·补修夹安装·张力恢复多步物理操作,STL 约束更复杂
绝缘子污秽清除检测·清洗·干燥·复检连续过程监控,RHC 滚动窗口扩展
锁紧销修复定位·拆销·换销·锁紧精细操作,子任务粒度最细

消融实验设计

验证逻辑中的第三个核心问题——集成有没有增益——需要消融实验回答。以下是预定义的实验设计,确保验证结论可复现、可对比。

集成增益的形式定义

集成增益(Integration Gain, IG) 定义为:EICPS 完整系统相对于最优单工具基线在综合指标上的提升幅度。

综合指标 SS 是任务完成率、安全违反次数、STL 鲁棒度三项的加权组合:

S=w1TaskSuccessRatew2SafetyViolations+w3ρˉS = w_1 \cdot \text{TaskSuccessRate} - w_2 \cdot \text{SafetyViolations} + w_3 \cdot \bar{\rho}

其中 w1=0.5,  w2=0.3,  w3=0.2w_1 = 0.5,\; w_2 = 0.3,\; w_3 = 0.2(权重须在实验前固定,不得事后调整)。集成增益定义为:

IG=SEICPSmaxiSBaselineimaxiSBaselinei×100%\text{IG} = \frac{S_{\text{EICPS}} - \max_i\, S_{\text{Baseline}_i}}{\bigl|\max_i\, S_{\text{Baseline}_i}\bigr|} \times 100\%

IG>0\text{IG} > 0 表示集成系统优于任意单一基线,即集成产生了正向增益。

消融基线

基线配置缺少的核心能力预期失效模式
A:仅 HTNHTN 规划 + 直接力矩控制,无 STL / CBF无实时安全形式化保障任务可执行,但安全边界无强制约束;人员进入安全距离时无法保证停止
B:仅 CBFCBF 安全过滤 + 固定任务序列,无 HTN无语义规划,无任务分解安全可保证,但无法应对动态任务切换;遇到 Jump 触发条件时不能重规划
C:人工遥控全程人工遥操作,无自主规划无自主性完成率依赖操作员技能,不具可扩展性;作为人类基准参考点
EICPS七项工具完整集成

主验证指标

指标单位测量方法期望值
任务完成率%防振锤更换任务成功次数 / 总次数> 90%
安全边界违反次数次 / 试验CBF 满足 h(x)<0h(x) < 0 的累计发生次数0
STL 鲁棒度均值 ρˉ\bar{\rho}无量纲全任务周期内 ρ(t)\rho(t) 的时间平均值>ρwarn> \rho_{warn}
规划时间msHTN 子任务分解耗时(单次)≤ 200 ms
EvidencePack 生成率%任务结束时成功生成完整六元组的比例100%

:当前场景(项目167·课题3)处于系统搭建阶段,上表为预定指标,实测数据将在实验执行后更新。每组基线须在相同物理场景、相同任务工单下重复至少 20 次,报告均值与 95% 置信区间。若场景条件变化(任务类型、线路参数),须重新固定权重 ww 后独立报告,不得与原组合并。


当前局限与适用边界

任何诚实的框架都需要说清楚自己不能做什么。以下局限是已知的、结构性的,不是工程缺陷,而是当前设计范围的边界。

局限 1:单场景验证,泛化性待证

当前唯一的实验场景是架空输电线路防振锤更换任务。EICPS 框架的可泛化性(是否适用于地下管廊、核电站检修、海上平台作业等其他高安全场景)尚未验证。框架的组件(HTN、STL、CBF)具有场景无关的数学保证,但接口 A/B 的参数、STL 规约的具体公式、CBF 安全函数 h(x)h(x) 的形状都是场景特定的,切换场景需要重新设计这些部分。

局限 2:仿真-实物差距(Sim-to-Real Gap)

当前验证以仿真环境为主。物理实验中存在建模误差(气动扰动、关节摩擦、导线弹性变形)、传感器噪声和通信抖动,这些会使 EKF 的状态估计精度下降,并影响 CBF 安全边界的实际有效性。Sim-to-Real Gap 是整个 CPS 领域的开放问题,EICPS 不能提供通用解,但通过 EKF 鲁棒估计 + STL 鲁棒度正余量设计(ρ>ρwarn\rho > \rho_{warn} 留有裕量)缓解了部分影响。

局限 3:Brain 层是黑箱,安全保证是下游的

VLA/LLM 的推理过程不可验证,EICPS 的安全保证完全依赖 Spine 层的 STL + CBF 过滤——即安全性来自”即使 Brain 出错也能被 Spine 拦截”,而不是来自”Brain 不会出错”。这意味着:若 Brain 产生语义上合理但物理上危险的指令,且该指令恰好落在 CBF 安全集内部,Spine 不会拦截。EICPS 不解决 Brain 层的幻觉问题,只保证幻觉不会穿透安全边界到达执行层。

局限 4:EvidencePack 的有效性依赖传感器数据质量

EvidencePack 的六元组 {P,A,xact,φ,ρ,v}\{P, A, x_{act}, \varphi, \rho^*, v\} 的可信度以传感器数据的准确性为前提。若传感器被损坏、干扰(如强电磁场影响 IMU)或存在系统性偏差,xactx_{act} 的记录会失真,基于此生成的 ρ\rho^*vv 在事后审计时可能误判。EvidencePack 是可自动生成的法证记录,不是独立于物理世界的绝对真相证明。

局限 5:HTN 知识库的完备性限制规划质量

HTN 的任务分解质量取决于知识库中任务算子(Operator)的定义完整性。当前知识库针对防振锤更换任务手工编写,覆盖已知任务模式。面对知识库中未预见的子任务组合(如线路覆冰导致防振锤卡死),HTN 规划器会失败(无法找到合法分解),需要人工接管。这是符号 AI 规划方法的普遍局限,EICPS 不例外。


困难问题:我们在解决什么集成框架:我们用了哪些工具