方法详解

问题建模

输入与目标

输入:现场操作员的自然语言指令 tt(如”更换防振锤”、“清除异物”)。

目标:给出形式化保证——对于规程域内任意合法指令 tt,系统能将其正确映射到可执行的机器人动作序列,并在物理执行过程中维持安全约束。

关键挑战

现有 LLM 规划方法在语义层面”优雅降级”:当遇到未见过的指令时,可能静默地错误路由,而非显式触发安全机制。这在高压作业等安全关键场景是不可接受的。


SEC:语义嵌入覆盖率

定义

ϕ:TRd\phi: \mathcal{T} \to \mathbb{R}^d 为语义嵌入函数(本文使用 Gemini Embedding 001),Q={q1,,qn}Q = \{q_1,\ldots,q_n\} 为任务图节点(词汇表),Dtask\mathcal{D}_{\mathrm{task}} 为任务分布,τ>0\tau > 0 为覆盖阈值。

SEC(Q,τ)=PtDtask ⁣[minqiQϕ(t)ϕ(qi)2<τ]\mathrm{SEC}(Q,\tau) = \mathbb{P}_{t \sim \mathcal{D}_{\mathrm{task}}}\!\left[\min_{q_i \in Q}\|\phi(t) - \phi(q_i)\|_2 < \tau\right]

直觉:SEC 测量的是”任意从真实任务分布中采样到的指令 tt,能被词汇表 QQ 中的某个节点在嵌入空间内以阈值 τ\tau 覆盖”的概率。SEC = 1 意味着覆盖无遗漏。

与标准做法的对比

做法覆盖保证代价
蒙特卡洛采样SEC1δ\mathrm{SEC} \geq 1-\delta(统计下界)δ>0\delta > 0 不可消除
本文(定理 Q-18)SEC(Q,τ)=1\mathrm{SEC}(Q,\tau^*) = 1(精确等式)需要 PCA 条件成立

规程约束假设(PCA)

封闭性的关键作用

传统做法将任务分布 Dtask\mathcal{D}_{\mathrm{task}} 视为连续分布(需蒙特卡洛采样)。本文的核心洞见是:

电力作业规程(GB 26859、DL/T 741 等)经政府/行业机构文件枚举完备——规程中列出的任务构成一个有限可枚举的支撑集。

这使得 supp(Dtask)\mathrm{supp}(\mathcal{D}_{\mathrm{task}}) 从不可数变为可数,进而将 SEC 从统计量转化为可形式化验证的对象。

PCA 正式表述

Assumption 1(规程约束假设,PCA):存在 ϵ>0\epsilon > 0,使得对所有 tsupp(Dtask)t \in \mathrm{supp}(\mathcal{D}_{\mathrm{task}}),均有:

minqiQϕ(t)ϕ(qi)2τϵ\min_{q_i \in Q}\|\phi(t) - \phi(q_i)\|_2 \leq \tau^* - \epsilon

其中 τ=0.0291\tau^* = 0.0291 为最优阈值(由 Step A 枚举实验确定),ϵ=dmin/2=0.0971/2\epsilon = d_{\min}/2 = 0.0971/2

PCA 是一个可实验验证的条件,通过以下四步实验方案验证:


四步验证方案

A
Step A · 词汇表枚举与阈值确定

输入:4 份规程文件
GB 26859 / DL/T 741 / T/CES / GB/T 10320

过程:逐条枚举任务 → 嵌入 → 计算类间/类内距离

59 条 V₁₆₇ᴸτ* = 0.0291d_sem = 3.56d_min = 0.0971

词汇表 Q + 阈值 τ* → 输入 Step B

B
Step B · PCA 条件验证(核心)

输入:18 条自然语言改写
每类任务各 2 条,覆盖 9 类

检验:改写嵌入距离是否落入合规区(满足 PCA 约束)

18/18 = 100% ✓最大偏移 0.020 以内SEC(Q, τ*) = 1 ✓

PCA 成立 → Theorem Q-18 激活 → 进一步测试鲁棒极限

C
Step C · 对抗鲁棒性测试(覆盖上界)

输入:100 条高斯随机扰动
σ=0.1,破坏语义结构

目的:确定系统对噪声的鲁棒极限

通过率 53%最大漂移 0.4187上界 ≈ 0.42(已知局限)

明确鲁棒极限 → 验证 FAILSAFE 可靠性

D
Step D · FAILSAFE 边界分析(安全验证)

输入:6 条规程外指令
工程/农业/建筑等非电力场景

验证:三区域边界 · 安全间隙充足性

6/6 FAILSAFE ✓安全间隙 0.115缓冲区 0.30–0.41
🎯
综合结论
Step A 建立词汇表 → Step B 验证 PCA(激活 Theorem Q-18)→ Step C 明确鲁棒边界 → Step D 确认 FAILSAFE 可靠性。四步形成完整的形式化保证链:SEC(Q,τ)=1\mathrm{SEC}(Q, \tau^*) = 1,安全间隙 0.1150.115

Theorem Q-18:语义 Nyquist 完备性

Theorem 1(语义 Nyquist 完备性,Theorem Q-18):设词汇表 QQ 与嵌入函数 ϕ()\phi(\cdot) 满足 PCA(Assumption 1)。则:

SEC(Q,τ)=1\mathrm{SEC}(Q, \tau^*) = 1

证明思路(三步)

  1. 封闭性:PCA 成立时,supp(Dtask)\mathrm{supp}(\mathcal{D}_{\mathrm{task}}) 有限可枚举,可直接遍历验证。

  2. 覆盖:对每个 tsupp(Dtask)t \in \mathrm{supp}(\mathcal{D}_{\mathrm{task}}),PCA 保证 qiQ\exists q_i \in Q 使得 ϕ(t)ϕ(qi)2τϵ<τ\|\phi(t)-\phi(q_i)\|_2 \leq \tau^* - \epsilon < \tau^*,即 ttQQ 覆盖。

  3. 概率:由于所有支撑集内的 tt 均被覆盖,SEC(Q,τ)=P[]=1\mathrm{SEC}(Q,\tau^*) = \mathbb{P}[\cdot] = 1\square

意义:这是首次将语义覆盖从”统计概率”提升为”确定性等式”。不可覆盖的指令(规程域外)被显式路由至 FAILSAFE,而非静默错误处理。


三层架构

Layer 1 · Procedure(规程层)

负责将自然语言指令解析并映射到 V167L\mathcal{V}_{167}^{\mathrm{L}} 词汇表:

  • NL Input Parser:正则表达式 + 关键词匹配,提取语义关键词
  • V₁₆₇ᴸ Vocabulary:59 条任务、9 类(巡检/维护/测量/清障/安全/通信/应急/记录/协同)
  • Embedding NN Lookup ϕ()\phi(\cdot):Gemini Embedding 001 计算余弦相似度,阈值 τ=0.0291\tau^*=0.0291

理论保证:Theorem Q-18 → SEC=1\mathrm{SEC}=1

Layer 2 · HTN Semantic Planning(语义规划层)

将任务 ID 分解为可执行动作序列:

  • HTN Decomposer:SHOP2 风格的分层任务网络分解,方法库覆盖 59 条任务
  • Action Sequencer & Param Binder:绑定参数(目标塔号、异物类型、能量等级)
  • Semantic Guard:执行前 SEC 二次校验 + FAILSAFE 触发逻辑

FAILSAFE 触发条件minqiQϕ(t)ϕ(qi)2τdep=0.30\min_{q_i \in Q}\|\phi(t)-\phi(q_i)\|_2 \geq \tau_{\mathrm{dep}}=0.30。触发后执行 Hover → RTL → Abort。

Layer 3 · CBF Physical Safety(物理安全层)

实时保证物理约束 h(x)0h(x) \geq 0

  • State Observer:EKF 融合 IMU 与 GPS,输出状态估计 x^(t)\hat{x}(t)
  • CBF-QP Solverminuuunom2\min_u \|u - u_{\mathrm{nom}}\|^2 s.t. h˙(x)+αh(x)0\dot{h}(x) + \alpha h(x) \geq 0
  • Actuator Output:电机指令 + E-Stop 继电器

理论保证:前向不变性 h(x(t))0,t0h(x(t)) \geq 0,\,\forall t \geq 0(Ames et al. 2019)


与相关工作的关键区别

方法语义覆盖保证物理安全保证封闭域假设
SayCan无形式化可行性打分(软)
Code as Policies无形式化
ProgPrompt无形式化
EICPS(本文)SEC=1\mathrm{SEC}=1(精确)CBF 前向不变性PCA(可验证)