实验结果

所有实验基于 Gemini Embedding 001 嵌入模型,验证代码见代码页,原始数据见数据集页

数字均为精确值,来源于可重现的 Notebook 实验,非近似或估计。


Step A:词汇表枚举与阈值确定

从 GB 26859、DL/T 741、T/CES 等规程文件枚举任务词汇:

指标
词汇表规模 V167L\|V_{167}^L\|59
任务类别9
最优阈值 τ\tau^*0.0291
最小类内距 dmind_{\min}0.0971
语义内在维度 dsemd_{\mathrm{sem}}(TwoNN)3.56

dsem=3.56d_{\mathrm{sem}}=3.56 表明尽管嵌入空间是高维的(768 维),任务语义实际上分布在约 4 维的流形上——词汇表规模(59 条)已足够覆盖这一低维结构。


Step B:PCA 验证(语义覆盖率)

实验设计:为每条任务生成多条自然语言改写,测试嵌入距离是否满足 PCA 条件。

指标
测试改写总数18 条(每类 2 条)
满足 PCA(距离 <τ< \tau^*18/18 = 100%
SEC(Q,τ)\mathrm{SEC}(Q, \tau^*)1.0(精确)
最大改写偏移距离<0.020< 0.020(远低于 τ=0.0291\tau^*=0.0291

结论:PCA 条件在实验范围内 100% 成立,Theorem Q-18 的前提条件得到验证,SEC = 1 精确成立。

Step B/C/D 三步实验综合可视化

图 1 Step B/C/D 三步实验综合结果:PCA 验证(左)· 对抗鲁棒性(中)· FAILSAFE 边界(右)


Step C:对抗鲁棒性(覆盖上界)

实验设计:对词汇表中的任务描述施加随机扰动,测试系统的鲁棒极限。

C1:随机高斯扰动

指标
测试样本数100 条
通过率(距离 <τ< \tau^*53%
最大漂移距离0.4187
对抗覆盖上界0.42\approx 0.42

解读:随机扰动破坏了语义结构,53% 的样本仍在阈值内,说明系统对语义保持的改写具有鲁棒性,但对结构破坏性的扰动存在边界(上界 ≈ 0.42)。这是已知局限,在论文 §6 中讨论。

Step C1 随机高斯扰动嵌入偏移分布

图 2 Step C1:100 条随机高斯扰动样本的嵌入偏移距离分布(红线为 τ=0.0291\tau^*=0.0291

C2/C3:结构化对抗样本

语义保持的改写(同义替换、语序变换)通过率显著高于随机扰动,验证了 PCA 条件对真实指令变体的适用性。

Step C3 不同扰动强度下的通过率曲线

图 3 Step C3:扰动强度 σ\sigma 从 0 到 0.5 变化时的覆盖通过率,确定对抗上界 0.42\approx 0.42


Step D:FAILSAFE 边界分析

实验设计:测试规程外指令和边界指令的触发行为。

D1:规程外指令(FAILSAFE 触发)

指标
测试样本数6 条(工程、农业、建筑等非电力场景)
FAILSAFE 触发率6/6 = 100%
触发阈值 τdep\tau_{\mathrm{dep}}0.30
安全间隙(合规区与禁止区之间)0.115

所有规程外指令的嵌入距离均超过 0.30,远离合规区(<τ=0.0291< \tau^* = 0.0291),安全间隙充足。

Step D1 规程外指令 FAILSAFE 触发结果

图 4 Step D1:6 条规程外指令的嵌入距离(均 0.30\geq 0.30,100% 触发 FAILSAFE)

D2/D3:缓冲区分析

区域距离范围行为
合规区[0,0.029)[0,\, 0.029)正常路由
缓冲区[0.30,0.41)[0.30,\, 0.41)建议人机协同复查
禁止区[0.41,+)[0.41,\, +\infty)FAILSAFE 立即触发

缓冲区 0.30–0.41 设计为人机协同复查区:系统不自主执行,提示操作员确认。

Step D2/D3 三区域安全间隙分析

图 5 Step D2/D3:合规区([0,0.029)[0, 0.029))· 缓冲区([0.30,0.41)[0.30, 0.41))· 禁止区([0.41,+)[0.41, +\infty))三区域边界与安全间隙 0.115 可视化

D4:学术风格描述(已知局限)

指令风格示例距离结果
规程自然语言”清除导线异物”0.018✅ 合规路由
学术/技术描述”execute load shedding protocol”0.31–0.35⚠️ 缓冲区

学术风格描述落入缓冲区,说明 V167L\mathcal{V}_{167}^L 词汇表针对现场操作语言优化,对技术规范语言覆盖有限——这是 V1.0 版本的已知局限。


结果汇总

实验步骤关键指标结果
Step A词汇表规模59 条,9 类
Step Aτ\tau^*dmind_{\min}dsemd_{\mathrm{sem}}0.0291,0.0971,3.56
Step BPCA 验证18/18 = 100%
Step BSEC= 1.0(精确)✅
Step C对抗覆盖上界0.42
Step DFAILSAFE 触发率6/6 = 100%
Step D安全间隙0.115
Step D缓冲区范围0.30–0.41