实验结果

所有实验基于 Gemini Embedding 001 嵌入模型，验证代码见代码页，原始数据见数据集页。

数字均为精确值，来源于可重现的 Notebook 实验，非近似或估计。

Step A：词汇表枚举与阈值确定

从 GB 26859、DL/T 741、T/CES 等规程文件枚举任务词汇：

$d_{\mathrm{sem}}=3.56$ 表明尽管嵌入空间是高维的（768 维），任务语义实际上分布在约 4 维的流形上——词汇表规模（59 条）已足够覆盖这一低维结构。

实验设计：为每条任务生成多条自然语言改写，测试嵌入距离是否满足 PCA 条件。

结论：PCA 条件在实验范围内 100% 成立，Theorem Q-18 的前提条件得到验证，SEC = 1 精确成立。

实验设计：对词汇表中的任务描述施加随机扰动，测试系统的鲁棒极限。

解读：随机扰动破坏了语义结构，53% 的样本仍在阈值内，说明系统对语义保持的改写具有鲁棒性，但对结构破坏性的扰动存在边界（上界 ≈ 0.42）。这是已知局限，在论文 §6 中讨论。

语义保持的改写（同义替换、语序变换）通过率显著高于随机扰动，验证了 PCA 条件对真实指令变体的适用性。

实验设计：测试规程外指令和边界指令的触发行为。

所有规程外指令的嵌入距离均超过 0.30，远离合规区（ $< \tau^* = 0.0291$ ），安全间隙充足。

缓冲区 0.30–0.41 设计为人机协同复查区：系统不自主执行，提示操作员确认。

指令风格	示例	距离	结果
规程自然语言	”清除导线异物”	0.018	✅ 合规路由
学术/技术描述	”execute load shedding protocol”	0.31–0.35	⚠️ 缓冲区

学术风格描述落入缓冲区，说明 $\mathcal{V}_{167}^L$ 词汇表针对现场操作语言优化，对技术规范语言覆盖有限——这是 V1.0 版本的已知局限。