场景验证

框架的价值不在于它看起来多完整，而在于它在真实场景中是否真的解决了困难问题。

验证逻辑

EICPS 的验证不是”系统跑通了”，而是针对困难问题中四个约束逐一给出证据：

困难约束	验证方式	度量指标
自主规划与执行	HTN 子任务分解正确率	算子序列合法率、规划时间 ≤ 0.2ms
场景定制约束满足	STL 形式化规约自动验证	时序约束满足率、 $\rho > 0$
语义-物理转化	ESTL 序列生成与接口协议一致性	接口报文合规率
安全可靠	CBF 看门狗实时监控	安全边界违反次数（目标：0）

三个核心问题必须全部回答：任务完不完成、过程安不安全、集成有没有增益（消融实验）。

进行中的场景

场景	项目·课题	覆盖的检修任务	状态
架空输电线路运检	项目167·课题3	防振锤更换（基准任务）	🔄 进行中

计划扩展的检修任务

项目167·课题4 覆盖范围，在基准任务验证通过后向以下任务扩展：

检修任务	子任务类型	主要扩展点
导线异物清除	识别·接近·清除·撤离	目标不确定性，HTN 方法扩展
导地线补修	损伤定位·补修夹安装·张力恢复	多步物理操作，STL 约束更复杂
绝缘子污秽清除	检测·清洗·干燥·复检	连续过程监控，RHC 滚动窗口扩展
锁紧销修复	定位·拆销·换销·锁紧	精细操作，子任务粒度最细

消融实验设计

验证逻辑中的第三个核心问题——集成有没有增益——需要消融实验回答。以下是预定义的实验设计，确保验证结论可复现、可对比。

集成增益的形式定义

集成增益（Integration Gain, IG） 定义为：EICPS 完整系统相对于最优单工具基线在综合指标上的提升幅度。

综合指标 $S$ 是任务完成率、安全违反次数、STL 鲁棒度三项的加权组合：

S = w_1 \cdot \text{TaskSuccessRate} - w_2 \cdot \text{SafetyViolations} + w_3 \cdot \bar{\rho}

其中 $w_1 = 0.5,\; w_2 = 0.3,\; w_3 = 0.2$ （权重须在实验前固定，不得事后调整）。集成增益定义为：

\text{IG} = \frac{S_{\text{EICPS}} - \max_i\, S_{\text{Baseline}_i}}{\bigl|\max_i\, S_{\text{Baseline}_i}\bigr|} \times 100\%

$\text{IG} > 0$ 表示集成系统优于任意单一基线，即集成产生了正向增益。

消融基线

基线	配置	缺少的核心能力	预期失效模式
A：仅 HTN	HTN 规划 + 直接力矩控制，无 STL / CBF	无实时安全形式化保障	任务可执行，但安全边界无强制约束；人员进入安全距离时无法保证停止
B：仅 CBF	CBF 安全过滤 + 固定任务序列，无 HTN	无语义规划，无任务分解	安全可保证，但无法应对动态任务切换；遇到 Jump 触发条件时不能重规划
C：人工遥控	全程人工遥操作，无自主规划	无自主性	完成率依赖操作员技能，不具可扩展性；作为人类基准参考点
EICPS	七项工具完整集成	—	—

主验证指标

指标	单位	测量方法	期望值
任务完成率	%	防振锤更换任务成功次数 / 总次数	> 90%
安全边界违反次数	次 / 试验	CBF 满足 $h(x) < 0$ 的累计发生次数	0
STL 鲁棒度均值 $\bar{\rho}$	无量纲	全任务周期内 $\rho(t)$ 的时间平均值	$> \rho_{warn}$
规划时间	ms	HTN 子任务分解耗时（单次）	≤ 200 ms
EvidencePack 生成率	%	任务结束时成功生成完整六元组的比例	100%

注：当前场景（项目167·课题3）处于系统搭建阶段，上表为预定指标，实测数据将在实验执行后更新。每组基线须在相同物理场景、相同任务工单下重复至少 20 次，报告均值与 95% 置信区间。若场景条件变化（任务类型、线路参数），须重新固定权重 $w$ 后独立报告，不得与原组合并。

当前局限与适用边界

任何诚实的框架都需要说清楚自己不能做什么。以下局限是已知的、结构性的，不是工程缺陷，而是当前设计范围的边界。

局限 1：单场景验证，泛化性待证

当前唯一的实验场景是架空输电线路防振锤更换任务。EICPS 框架的可泛化性（是否适用于地下管廊、核电站检修、海上平台作业等其他高安全场景）尚未验证。框架的组件（HTN、STL、CBF）具有场景无关的数学保证，但接口 A/B 的参数、STL 规约的具体公式、CBF 安全函数 $h(x)$ 的形状都是场景特定的，切换场景需要重新设计这些部分。

局限 2：仿真-实物差距（Sim-to-Real Gap）

当前验证以仿真环境为主。物理实验中存在建模误差（气动扰动、关节摩擦、导线弹性变形）、传感器噪声和通信抖动，这些会使 EKF 的状态估计精度下降，并影响 CBF 安全边界的实际有效性。Sim-to-Real Gap 是整个 CPS 领域的开放问题，EICPS 不能提供通用解，但通过 EKF 鲁棒估计 + STL 鲁棒度正余量设计（ $\rho > \rho_{warn}$ 留有裕量）缓解了部分影响。

局限 3：Brain 层是黑箱，安全保证是下游的

VLA/LLM 的推理过程不可验证，EICPS 的安全保证完全依赖 Spine 层的 STL + CBF 过滤——即安全性来自”即使 Brain 出错也能被 Spine 拦截”，而不是来自”Brain 不会出错”。这意味着：若 Brain 产生语义上合理但物理上危险的指令，且该指令恰好落在 CBF 安全集内部，Spine 不会拦截。EICPS 不解决 Brain 层的幻觉问题，只保证幻觉不会穿透安全边界到达执行层。

局限 4：EvidencePack 的有效性依赖传感器数据质量

EvidencePack 的六元组 $\{P, A, x_{act}, \varphi, \rho^*, v\}$ 的可信度以传感器数据的准确性为前提。若传感器被损坏、干扰（如强电磁场影响 IMU）或存在系统性偏差， $x_{act}$ 的记录会失真，基于此生成的 $\rho^*$ 和 $v$ 在事后审计时可能误判。EvidencePack 是可自动生成的法证记录，不是独立于物理世界的绝对真相证明。

局限 5：HTN 知识库的完备性限制规划质量

HTN 的任务分解质量取决于知识库中任务算子（Operator）的定义完整性。当前知识库针对防振锤更换任务手工编写，覆盖已知任务模式。面对知识库中未预见的子任务组合（如线路覆冰导致防振锤卡死），HTN 规划器会失败（无法找到合法分解），需要人工接管。这是符号 AI 规划方法的普遍局限，EICPS 不例外。

→ 困难问题：我们在解决什么 → 集成框架：我们用了哪些工具