AI 时代实验验证能替代部分严格证明吗?
这个问题涉及 EST 的方法论立场,也是整个 AI 时代工程研究的核心认识论问题。直接的答案是:不只是”可以”,而是这种组合比单一路线更可信。
认识论模式的历史转变
严格证明并非总是先于工程实践:
Fourier 在 L² 空间的数学理论存在之前就用三角级数解了热传导方程,函数论的严格基础是一百年后才由 Dirichlet、Riemann 等人补上的。Shannon 在建立信息论时,有限码长的有限误差和随机编码的实验结果先于 noisy channel coding theorem 的完整证明。神经网络的收敛性至今没有通用证明,但 scaling law(Kaplan et al. 2020)作为经验规律被业界广泛接受,并驱动了 GPT 系列的工程决策。
这些不是”因为证明太难所以将就”,而是认识论上的正当模式:工程框架先行,数学形式化跟进。先建立可重复的经验规律,再追求严格证明,是科学进步的常见路径。
EST 的分层验证策略
对 EST 框架,不同层次的声明有不同的验证方式,这本身是设计上的优势:
物理层( 上的 CBF/STL 机制):有严格的数学证明。CBF 前向不变性定理、STL 鲁棒度的在线计算、EvidencePack 的机械可验性——这些是控制理论的经典结论,证明是已有的,EST 的贡献是选型和集成。这部分可以直接引用定理,无需重新证明。
接口层(Brain/Spine 分层设计):有奇异摄动定理作为数学支撑(Kokotović 1986),有神经生物学作为存在性证明。这部分是”理论有保障的工程选择”。
语义层(任务图 的覆盖充分性):目前没有通用证明,但有可测量的实验指标(SEC)和可验证的经验规律(SEC 和 FAILSAFE 率的相关性)。这部分采用实验验证模式,声明的是经验性充分性而非数学必然性。
三层的组合构成一个完整的论证链:物理安全有证明,分层合理性有理论支持,语义覆盖有实验验证。审稿人看到前两层已严格的前提下,对第三层接受实验验证的容忍度会显著提高。
工程师与数学家的分工
从 EST 到可能的后续理论研究,一个清晰的分工是:
工程研究(EST 论文的贡献)提供:一个具体的问题表述(语义嵌入覆盖率 SEC 的定义),一个需要解释的经验规律(SEC 和 FAILSAFE 率的定量关系),以及一个需要严格化的直觉(语义采样充分性的代数结构)。
数学研究(未来方向)需要回答:SEC 在什么条件下是语义完备性的充分指标,语义 Nyquist 条件是否可以从拓扑或信息论出发给出严格表述, 这个层化空间是否存在”语义采样定理”的类比。
论文里可以在 Discussion 或 Limitations 节显式列出这个开放问题,这是加分项而不是缺陷——它表明作者清楚自己工作的边界,并为后续研究指明了方向。
电力作业场景:一个有利的特殊性
你的观察是关键洞察。电力作业场景不是开放域任务,它有一个其他机器人场景通常不具备的特性:语义空间可以从监管文件中枚举。
规程约束:架空输电线路运检的作业类型由国家电网/IEC 作业规程定义,是有文件依据的有限集合。不同于服务机器人需要处理开放域的任意用户请求,线路运检的”任务词汇表”本质上已经写在了作业规程里。
约束变量有界:场景的语义变异来源可以列举:作业类型(≈10-20 种)、电气状态(带电/停电)、工况等级(风速、温度、能见度)、人员分布(安全距离状态)。这些变量的组合空间大但有界,不是无限开放的。
“背景干净”的精确含义:语义噪声来源少——作业人员用规范术语描述任务,而非自然语言的任意变体;任务的前置条件和终止条件有明确定义;异常情况的处理也在规程中有预案。
枚举完备性:比 SEC 更强的证明
对开放域场景,只能用 SEC 统计估计覆盖率。但对电力作业场景,可以做到更强的东西——枚举完备性验证:
从适用作业规程中提取所有任务类型,建立”规程任务词汇表” ,然后验证:
如果这个包含关系成立,则 是精确成立的,而非统计近似。这不依赖”采样够不够”的假设,是对规程定义范围内任务的完备覆盖证明。
“精确语义理解是可以做到的”——在受约束的电力作业场景中,这不是乐观假设,是可以用枚举验证的事实。
实验计划的对应安排
三件具体的事情可以直接进入实验设计:
规程覆盖验证:从国家电网架空线路运检相关作业规程中提取所有作业任务类型,与 EICPS 任务图 逐条对照,报告覆盖率和未覆盖的类型(后者是任务图扩充的方向)。
内在维度估计:用规程词汇表的 LLM 嵌入分布,用 TwoNN 或 DANCo 估计语义空间内在维度,为”场景语义空间是低维的、SEC 近似有效”提供数字依据。
FAILSAFE 原因分类:在消融实验的 20 次重复中,记录每次 FAILSAFE 触发的直接原因,区分”语义 gap 触发”(任务描述超出任务图)和”控制算法触发”(安全约束违反),前者的比率是实测的 。
这三项数据构成了对语义 Nyquist 条件的实验验证,其说服力不低于(在某些维度上高于)一个当前尚不存在的形式化证明——因为它反映的是真实场景的实测结果,不依赖数学假设。