消融实验怎么设计?集成增益如何衡量?

验证 EICPS 有三个必须回答的核心问题:任务完不完成、过程安不安全、集成有没有增益。前两个问题可以直接测量,第三个问题需要消融实验——如果七个工具各自单独运行都能达到同样的效果,那集成的意义就不大。

为什么需要消融实验

“系统跑通了”不能证明集成的价值——你需要对比:同样的场景、同样的任务,用单一工具能做到什么,用完整集成能做到什么。差值就是集成增益。

没有消融实验,“EICPS 优于现有方法”是无法证明的断言;有了消融实验,“集成增益 IG = 23%“是可以被重复验证的实验结论。

三个对比基线

基线 A:仅 HTN——保留任务规划能力,去掉 STL/CBF 安全保障。

预期失效:任务可以执行,但安全边界没有形式化约束。当人员进入危险区时,系统无法保证停止;当关节力矩超限时,没有硬件保护之外的软件拦截。这个基线验证了:仅有规划能力,缺乏安全保障,是不够的。

基线 B:仅 CBF——保留实时安全能力,去掉 HTN 规划(用固定任务序列代替)。

预期失效:安全可以保证,但系统无法应对动态任务切换。当防振锤卡住需要改变操作策略时,固定序列无法重规划,系统僵死或请求人工接管。这个基线验证了:仅有安全保障,缺乏智能规划,也是不够的。

基线 C:人工遥控——全程人工遥操作,无自主规划。

这是人类基准参考点——代表了当前人类直觉控制的上限。完成率依赖操作员技能,不具可扩展性,会产生疲劳风险。如果 EICPS 不能在综合指标上超过人工遥控,则自主化的价值存疑。

集成增益的形式定义

综合指标 SS 是三项的加权组合:

S=w1TaskSuccessRatew2SafetyViolations+w3ρˉS = w_1 \cdot \text{TaskSuccessRate} - w_2 \cdot \text{SafetyViolations} + w_3 \cdot \bar{\rho}

权重 w1=0.5,w2=0.3,w3=0.2w_1 = 0.5, w_2 = 0.3, w_3 = 0.2,须在实验前固定,不得根据实测结果回调

集成增益定义为 EICPS 完整系统相对于最优单工具基线的提升幅度:

IG=SEICPSmaxiSBaselineimaxiSBaselinei×100%\text{IG} = \frac{S_{\text{EICPS}} - \max_i\, S_{\text{Baseline}_i}}{|\max_i\, S_{\text{Baseline}_i}|} \times 100\%

注意 IG 是和最优单工具基线比较——确保它真正衡量集成本身的价值,而不是”比最烂的方案好”。IG>0\text{IG} > 0 表示完整集成系统优于任意单一基线,即集成产生了正向增益。

实验规范

每组基线在相同物理场景、相同任务工单下重复至少 20 次,报告均值与 95% 置信区间。若场景条件变化(任务类型、线路参数),须重新固定权重后独立报告,不得与原组合并计算。

当前状态:场景(项目 167·课题 3)处于系统搭建阶段,上述为预定实验设计,实测数据将在实验执行后更新。

场景验证·消融实验设计