消融实验怎么设计?集成增益如何衡量?
验证 EICPS 有三个必须回答的核心问题:任务完不完成、过程安不安全、集成有没有增益。前两个问题可以直接测量,第三个问题需要消融实验——如果七个工具各自单独运行都能达到同样的效果,那集成的意义就不大。
为什么需要消融实验
“系统跑通了”不能证明集成的价值——你需要对比:同样的场景、同样的任务,用单一工具能做到什么,用完整集成能做到什么。差值就是集成增益。
没有消融实验,“EICPS 优于现有方法”是无法证明的断言;有了消融实验,“集成增益 IG = 23%“是可以被重复验证的实验结论。
三个对比基线
基线 A:仅 HTN——保留任务规划能力,去掉 STL/CBF 安全保障。
预期失效:任务可以执行,但安全边界没有形式化约束。当人员进入危险区时,系统无法保证停止;当关节力矩超限时,没有硬件保护之外的软件拦截。这个基线验证了:仅有规划能力,缺乏安全保障,是不够的。
基线 B:仅 CBF——保留实时安全能力,去掉 HTN 规划(用固定任务序列代替)。
预期失效:安全可以保证,但系统无法应对动态任务切换。当防振锤卡住需要改变操作策略时,固定序列无法重规划,系统僵死或请求人工接管。这个基线验证了:仅有安全保障,缺乏智能规划,也是不够的。
基线 C:人工遥控——全程人工遥操作,无自主规划。
这是人类基准参考点——代表了当前人类直觉控制的上限。完成率依赖操作员技能,不具可扩展性,会产生疲劳风险。如果 EICPS 不能在综合指标上超过人工遥控,则自主化的价值存疑。
集成增益的形式定义
综合指标 是三项的加权组合:
权重 ,须在实验前固定,不得根据实测结果回调。
集成增益定义为 EICPS 完整系统相对于最优单工具基线的提升幅度:
注意 IG 是和最优单工具基线比较——确保它真正衡量集成本身的价值,而不是”比最烂的方案好”。 表示完整集成系统优于任意单一基线,即集成产生了正向增益。
实验规范
每组基线在相同物理场景、相同任务工单下重复至少 20 次,报告均值与 95% 置信区间。若场景条件变化(任务类型、线路参数),须重新固定权重后独立报告,不得与原组合并计算。
当前状态:场景(项目 167·课题 3)处于系统搭建阶段,上述为预定实验设计,实测数据将在实验执行后更新。