语义 Nyquist 条件:任务图覆盖了多少才算够?

这是从 DFT/FT 类比推导出来的一个开放研究问题。弱版本答案已经可以给出,而且是可以实验验证的。

问题的精确表述

DFT 有 Nyquist 采样定理作为”充分性判据”:采样频率 fs>2fmaxf_s > 2f_{max} 时,离散序列可以无损重建连续信号。类比地,我们需要一个判据来回答:离散任务图 QQ 什么时候对连续语义空间的覆盖是”足够”的?

不足的后果:HTN 规划器遇到 QQ 中没有对应模态的任务时,找不到合法分解路径,系统触发 FAILSAFE,请求人工接管。类比于混叠(aliasing)——但这里的混叠更危险:不是信号失真,而是系统在不应该执行任务时错误地匹配到邻近模态,产生错误动作。

弱版本答案:语义嵌入覆盖率(SEC)

定义

Dtask\mathcal{D}_{task} 是目标部署场景中任务描述的概率分布,ϕ:TRd\phi: \mathcal{T} \to \mathbb{R}^d 是 LLM 语义编码器(如 text-embedding-ada-002),τ>0\tau > 0 是覆盖半径。

语义嵌入覆盖率定义为:

SEC(Q,τ)=PtDtask[minqiQϕ(t)ϕ(qi)2<τ]\text{SEC}(Q, \tau) = \mathbb{P}_{t \sim \mathcal{D}_{task}}\left[\min_{q_i \in Q} \|\phi(t) - \phi(q_i)\|_2 < \tau\right]

即:从任务分布中随机采样一个任务 tt,其语义嵌入落在 QQ 中某个已知模态的 τ\tau-邻域内的概率。

充分性条件(弱版本 Nyquist 条件)

SEC(Q,τ)1δ\text{SEC}(Q, \tau) \geq 1 - \delta

其中 δ\delta 是可接受的失效率,对安全关键系统通常取 δ103\delta \leq 10^{-3}

这个条件说:以至少 1δ1-\delta 的概率,任意遇到的任务都能在 QQ 中找到”足够近”的已知模态,HTN 规划不会因语义未覆盖而失败。

参数如何确定

覆盖半径 τ\tau:由模态间距和失效代价共同决定。一种操作化方法:

τ=αminijϕ(qi)ϕ(qj)2\tau = \alpha \cdot \min_{i \neq j} \|\phi(q_i) - \phi(q_j)\|_2

取已知模态对之间最小距离的 α\alpha 倍(α<0.5\alpha < 0.5 保证不同模态的 τ\tau-邻域不重叠)。这与 Nyquist 条件中”采样间隔必须小于信号最短周期一半”的逻辑一致。

失效率 δ\delta:与 FAILSAFE 触发率直接对应:

P(FAILSAFE due to semantic gap)1SEC(Q,τ)P(\text{FAILSAFE due to semantic gap}) \approx 1 - \text{SEC}(Q, \tau)

如果系统要求 FAILSAFE 触发率低于 0.1%,则需要 SEC0.999\text{SEC} \geq 0.999

实验估计流程

第一步:构建任务分布样本

用 LLM 生成 M=1000M = 1000 条覆盖目标场景的任务描述(通过变换主语、增减约束条件、引入边界情况等),构成 D^task\hat{\mathcal{D}}_{task} 的蒙特卡洛近似。对架空输电线路运检场景,例子包括:

  • 主任务的各种表述变体(“换防振锤”的十几种说法)
  • 约束变体(带电 / 停电、风速高 / 低、工具卡住 / 正常)
  • 边界情况(突发人员入侵、设备故障降级等)

第二步:嵌入并计算覆盖率

SEC^(Q,τ)=1Mj=1M1[miniϕ(tj)ϕ(qi)2<τ]\widehat{\text{SEC}}(Q, \tau) = \frac{1}{M}\sum_{j=1}^M \mathbf{1}\left[\min_i \|\phi(t_j) - \phi(q_i)\|_2 < \tau\right]

第三步:识别覆盖空缺

对于每个 tjt_j 使 miniϕ(tj)ϕ(qi)2τ\min_i \|\phi(t_j) - \phi(q_i)\|_2 \geq \tau 的样本,收集起来,用聚类方法(如 k-means)找到”未被覆盖的语义簇”——这些簇中心就是任务图 QQ候补新节点,指导知识库扩充的方向。

PAC 风格的采样复杂度下界

设语义流形的内在维度为 dsemd_{sem}(可用 TwoNN 从嵌入数据估计),要在半径 τ\tau 内覆盖整个语义空间,所需模态数的下界由覆盖数(covering number)给出:

QminN(Msem,τ)=Ω(1τdsem)|Q|_{\min} \geq \mathcal{N}(\mathcal{M}_{sem}, \tau) = \Omega\left(\frac{1}{\tau^{d_{sem}}}\right)

这是语义 Nyquist 条件的结构性含义:任务图的粒度必须与语义空间的内在维度和覆盖要求匹配。若场景语义复杂(dsemd_{sem} 大),则需要更多任务模态。

对于架空输电线路运检场景:实验初步估计任务语义空间内在维度约为 dsem4d_{sem} \approx 466(主要变量:任务类型、工况、约束等级、应急状态),这对应约 QO(102)|Q| \sim O(10^2) 数量级的模态才能达到较高覆盖率。

与已有框架的关系

与 FAILSAFE 机制的连接:HTN 规划失败触发 FAILSAFE 是现有机制,SEC 给了这个机制一个可预测的触发率估计。测量 SEC^\widehat{\text{SEC}} 等价于提前估计部署后的 FAILSAFE 频率。

与消融实验的连接:可以将”仅 HTN 基线”的失败案例分类——属于”知识库覆盖不足(语义 gap)“还是”规划算法失效”,SEC 提供了前者的定量指标。

与安全证明的连接:EvidencePack 目前记录物理层的安全证据;若能同时记录每次任务的 miniϕ(t)ϕ(qi)2\min_i \|\phi(t) - \phi(q_i)\|_2(任务描述到最近已知模态的语义距离),则可将语义覆盖质量纳入审计链。

局限与开放问题

这个弱版本答案有几个已知局限:

分布假设SEC\text{SEC} 的有效性取决于 D^task\hat{\mathcal{D}}_{task} 是否真实代表部署分布。若真实部署中出现 MM 个样本未覆盖的边界情况,SEC 高估计了覆盖率。这类似于 DFT 中若信号含有超出 fs/2f_s/2 的成分而未被检测到,采样定理的保证失效。

嵌入质量τ\tau 的意义依赖 ϕ\phi 的质量——不同 LLM 嵌入器对语义距离的刻画不同,覆盖半径 τ\tau 的物理意义与所用嵌入模型耦合。

动态场景:若部署场景的任务分布随时间演化(新类型故障出现),SEC 需要定期重新估计,任务图 QQ 需要相应更新。这类似于时变频谱需要短时傅里叶变换(STFT)而非静态 DFT。

没有精确重建定理:最根本的区别——DFT 在 Nyquist 条件下可以无损重建原始信号;语义 Nyquist 条件满足时,我们只能说”遇到未知任务的概率低于 δ\delta“,但无法从 QQ 重建完整的连续语义流形。弱版本答案的”弱”就在这里。


这个框架的研究价值:SEC 是一个可测量、可比较、可指导任务图扩充方向的量,把”知识库够不够用”从定性判断变成定量指标,为 EST 的系统验证部分提供了新的维度。

语义流形是工程近似吗?DFT 类比 · 语义和数据可以是流形吗? · 消融实验与集成增益