消融实验怎么设计？集成增益如何衡量？

验证 EICPS 有三个必须回答的核心问题：任务完不完成、过程安不安全、集成有没有增益。前两个问题可以直接测量，第三个问题需要消融实验——如果七个工具各自单独运行都能达到同样的效果，那集成的意义就不大。

为什么需要消融实验

“系统跑通了”不能证明集成的价值——你需要对比：同样的场景、同样的任务，用单一工具能做到什么，用完整集成能做到什么。差值就是集成增益。

没有消融实验，“EICPS 优于现有方法”是无法证明的断言；有了消融实验，“集成增益 IG = 23%“是可以被重复验证的实验结论。

基线 A：仅 HTN——保留任务规划能力，去掉 STL/CBF 安全保障。

预期失效：任务可以执行，但安全边界没有形式化约束。当人员进入危险区时，系统无法保证停止；当关节力矩超限时，没有硬件保护之外的软件拦截。这个基线验证了：仅有规划能力，缺乏安全保障，是不够的。

基线 B：仅 CBF——保留实时安全能力，去掉 HTN 规划（用固定任务序列代替）。

预期失效：安全可以保证，但系统无法应对动态任务切换。当防振锤卡住需要改变操作策略时，固定序列无法重规划，系统僵死或请求人工接管。这个基线验证了：仅有安全保障，缺乏智能规划，也是不够的。

基线 C：人工遥控——全程人工遥操作，无自主规划。

这是人类基准参考点——代表了当前人类直觉控制的上限。完成率依赖操作员技能，不具可扩展性，会产生疲劳风险。如果 EICPS 不能在综合指标上超过人工遥控，则自主化的价值存疑。

综合指标 $S$ 是三项的加权组合：

S = w_1 \cdot \text{TaskSuccessRate} - w_2 \cdot \text{SafetyViolations} + w_3 \cdot \bar{\rho}

权重 $w_1 = 0.5, w_2 = 0.3, w_3 = 0.2$ ，须在实验前固定，不得根据实测结果回调。

集成增益定义为 EICPS 完整系统相对于最优单工具基线的提升幅度：

\text{IG} = \frac{S_{\text{EICPS}} - \max_i\, S_{\text{Baseline}_i}}{|\max_i\, S_{\text{Baseline}_i}|} \times 100\%

注意 IG 是和最优单工具基线比较——确保它真正衡量集成本身的价值，而不是”比最烂的方案好”。 $\text{IG} > 0$ 表示完整集成系统优于任意单一基线，即集成产生了正向增益。

每组基线在相同物理场景、相同任务工单下重复至少 20 次，报告均值与 95% 置信区间。若场景条件变化（任务类型、线路参数），须重新固定权重后独立报告，不得与原组合并计算。

当前状态：场景（项目 167·课题 3）处于系统搭建阶段，上述为预定实验设计，实测数据将在实验执行后更新。