具身空间几何

具身空间(Embodied Space,E\mathcal{E})是 EST 的核心本体论概念。E\mathcal{E} 由三种本质不同的流形叠加构成,每种流形对应不同的知识类型和计算范式——三流形的显式分离与接口映射,是 EICPS 规避”物理幻觉”的核心结构选择。

phy 物理流形 sem 语义流形 data 数据流形 EICPS 具身空间 ε 仿真采样 模型学习 意图编码
图:三种流形叠加关系。物理仿真产生训练数据,数据训练语义模型,语义意图再投影回物理执行,循环构成具身空间 ε。

📐 理论定位

Mphy\mathcal{M}_{phy} 的黎曼几何基础源自 Riemann(1854)的曲面理论,由 Hausdorff(1914)推广为度量空间框架;Mdata\mathcal{M}_{data} 的存在依赖流形假设——高维数据集中于低维非线性子流形,由 Tenenbaum / Roweis(2000)在机器学习中形式化;Pfeifer & Scheier(1999)已指出感知、动作、语义三者的空间结构本质不同,不能用同一向量空间混合表达。EST 的贡献在于:在具身 CPS 工程语境中,将这一直觉系统形式化为三个具有独立几何结构的流形 (Mphy,Msem,Mdata)(\mathcal{M}_{phy},\, \mathcal{M}_{sem},\, \mathcal{M}_{data}),明确定义它们之间的映射接口,并给出可计算的工程实现(★ EST 系统形式化)。

→ 数学基础详见 数学讲义第一讲:流形是什么 · 第二讲:三种流形对比

物理流形 Mphy\mathcal{M}_{phy}

定义:由系统动力学方程与物理约束共同定义的连续状态空间。

Mphy={xRnf(x,x˙,u)=0,  g(x)0}\mathcal{M}_{phy} = \{ x \in \mathbb{R}^n \mid f(x, \dot{x}, u) = 0,\; g(x) \leq 0 \}

其中 ff 为微分代数方程(DAE),gg 为约束不等式(接触、关节限位等)。

黎曼度量来自质量矩阵Mphy\mathcal{M}_{phy} 上的内积由机器人惯性张量 M(q)M(q) 定义:

q˙1,q˙2q=q˙1M(q)q˙2\langle \dot{q}_1,\, \dot{q}_2 \rangle_q = \dot{q}_1^\top M(q)\, \dot{q}_2

M(q)M(q) 为常数时,流形退化为平坦欧氏空间,测地线即直线;当 M(q)M(q) 随关节构型 qq 变化时,流形弯曲,测地线为最小能量路径。这是 Mphy\mathcal{M}_{phy}真正黎曼流形而非 Rn\mathbb{R}^n 子集的物理根源(△ 推广自 Riemannian Geometry)。

拓扑结构Mphy\mathcal{M}_{phy} 通常不是欧氏平坦的——旋转群 SO(3)SO(3)、位姿群 SE(3)SE(3)、约束子流形均具有非零曲率。

工程实现:在决策层应用中,Mphy\mathcal{M}_{phy} 对应特定作业场景的三维物理空间,约束 g(x)0g(x)\leq 0 描述安全隔离边界与禁止进入区。Unity 用于搭建高保真仿真环境并生成带语义标注的场景数据;Python 负责安全区建模、Sim-to-Real 数据管线与 VLA/LLM 模型微调。

工程场景:以 架空输电线路运检(Prj167) 为例,Mphy\mathcal{M}_{phy} 的约束 g(x)0g(x)\leq 0 包含两类:①可达性约束——导线空间构型与附件安装点决定机器人末端可操作空间;②安全隔离约束——与带电体的安全距离(≥1.5m)在整个作业过程中须始终满足。机器人在此约束流形内完成防振锤更换、绝缘子检测等五类检修任务,底层控制完全由 Spine 层实时保障。

机器人最常见的物理流形是旋转群 SO(3)SO(3)(3自由度朝向)和位姿群 SE(3)=SO(3)R3SE(3) = SO(3) \ltimes \mathbb{R}^3(6自由度位姿)。两者都是弯曲的李群——位姿的”插值”不是线性平均,而是李代数上的指数映射;强行在欧氏空间做加减,会得到非正交矩阵和漂移轨迹。这正是 Mphy\mathcal{M}_{phy}真正黎曼流形而非 Rn\mathbb{R}^n 子集的根本原因。

→ 完整推导与工程用法见 数学讲义·李群与 SE(3)

语义流形 Msem\mathcal{M}_{sem}

定义:由 VLA 模型学习得到的连续高维嵌入空间,承载任务意图、语言指令与动作语义。

MsemRd,d32512\mathcal{M}_{sem} \subseteq \mathbb{R}^d, \quad d \sim 32\text{–}512

度量结构由模型训练过程隐式习得——语义相近的概念在 Msem\mathcal{M}_{sem} 中距离更近。概念之间的关系可以用图结构近似描述,但 Msem\mathcal{M}_{sem} 本身是连续的嵌入空间,而非离散图。

特点Msem\mathcal{M}_{sem} 不是物理测量的,而是定义或学习出来的。它支持长程规划、类比推理和语义组合,但不直接承载物理约束——这正是它与 Mphy\mathcal{M}_{phy} 之间存在拓扑和度量鸿沟的根本原因,也是接口 A 需要做语义→动力学投影的必要性所在。

数据流形 Mdata\mathcal{M}_{data}

定义:由真实或合成数据在状态空间中形成的统计分布结构。

Mdata=supp(pθ(x))\mathcal{M}_{data} = \text{supp}(p_\theta(x))

流形假设(Manifold Hypothesis):高维观测数据 xRDx \in \mathbb{R}^D(相机图像、点云、传感器流)实际集中于维度远低于 DD 的子流形:

dim(Mdata)=dD\dim(\mathcal{M}_{data}) = d \ll D

典型例子:1024×10241024 \times 1024 RGB 图像的像素空间维度 D=3,145,728D = 3{,}145{,}728,而描述有意义工作姿态的内维度 dd 可能仅为数十。该假设由 Tenenbaum(2000,Isomap)和 Roweis(2000,LLE)在实验上证实,Bengio et al.(2013)在深度学习中给出形式化。

工程含义dDd \ll D 是 VLA 模型可以在合理计算量下运行的几何根基——模型学到的不是像素空间,而是 Mdata\mathcal{M}_{data} 上的低维结构。Sim-to-Real 数据的采集策略也因此改变:需要覆盖 Mdata\mathcal{M}_{data} 的关键流形区域(高曲率边界、稀疏采样区),而非均匀撒点于全维空间。

关键性质Mdata\mathcal{M}_{data}Mphy\mathcal{M}_{phy}采样近似。Sim-to-Real Gap 在几何意义上即为:

dGH(Mdatasim,  Mphyreal)>ϵd_{GH}(\mathcal{M}_{data}^{sim},\; \mathcal{M}_{phy}^{real}) > \epsilon

其中 dGHd_{GH} 为 Gromov-Hausdorff 距离。当该距离超过阈值 ϵ\epsilon,迁移失败。

谱距离量化:Gromov-Hausdorff 距离在工程上以 Shape-DNA 距离(加权 LB 特征值距离)近似:

dλ(Msim,Mreal)=k=1K(λksimλkreal)2kαd_{\lambda}(\mathcal{M}_{sim}, \mathcal{M}_{real}) = \sqrt{\sum_{k=1}^{K} \frac{(\lambda_k^{sim} - \lambda_k^{real})^2}{k^\alpha}}

权重 1/kα1/k^\alphaα>1\alpha > 1)使低频模态(决定宏观可通行性的几何结构)获得更高比较权重。若前 KK 个 LB 特征值满足 ϵ\epsilon-近似等谱且 Betti 数序列一致(βksim=βkreal\beta_k^{sim} = \beta_k^{real}),则称两个具身空间结构同构——仿真里的”死胡同”在现实里也是死胡同,“环路”也是环路。结构同构是 Sim-to-Real 迁移成功的充分条件。反直觉地,对 LB 谱做低通截断(丢弃高频 λk\lambda_k)会提高泛化能力——策略只依赖”搬不走、改不掉”的宏观几何特征。

三流形的交互

三种流形通过以下映射相互作用:

𝓜ₛₑₘ  ──(意图编码)──→  𝓜ₚₕᵧ  规划轨迹
𝓜ₚₕᵧ  ──(仿真采样)──→  𝓜_data  训练数据
𝓜_data ──(模型学习)──→  𝓜ₛₑₘ  经验知识

EST 的分析视角:从三流形框架来看,端到端 VLA 与扩散策略将 Msem\mathcal{M}_{sem} 的操作直接映射到 Mphy\mathcal{M}_{phy} 的执行,而没有显式建模两者在拓扑和度量上的差异——EST 将这一设计隐患称为”物理幻觉”的几何来源。三流形的显式分离与接口映射,是 EICPS 避免这一问题的核心结构选择。

Mphy\mathcal{M}_{phy} 边界的三层分解——结构谱三重奏:约束集合 g(x)0g(x) \leq 0 在工程上可进一步分解为三个可计算的谱结构:

Mphy    ΣG    ΣT    ΣS\partial\mathcal{M}_{phy} \;\simeq\; \Sigma_G \;\cap\; \Sigma_T \;\cap\; \Sigma_S
  • ΣG\Sigma_G(几何谱):SE(3) 空间可达性——机器人构型能否到达目标位姿
  • ΣT\Sigma_T(拓扑谱):路径连通性——从当前位置到目标是否存在无碰撞路径
  • ΣS\Sigma_S(安全谱):安全约束——与危险体的距离是否满足电气/物理安全要求

三谱联合剪枝 ΣGΣTΣS\Sigma_G \wedge \Sigma_T \wedge \Sigma_SMphy\mathcal{M}_{phy} 连续约束的离散化近似,也是将流形几何转化为工程可计算结构的核心机制(详见 数学讲义·结构谱与 Sim2Real)。

符号落地与物理幻觉

具身系统中,语义流形上的规划成功不等同于物理可执行。这一鸿沟在认知科学中称为符号落地问题(Symbol Grounding Problem):当大语言模型谈论”伸臂抓取”时,它处理的是词汇之间的统计关联;在物理世界中,“伸臂抓取”是一个涉及摩擦力、雅可比矩阵奇异点、力矩平衡的复杂动力学过程。

维度语义空间 Msem\mathcal{M}_{sem}物理空间 Mphy\mathcal{M}_{phy}
本质离散符号、统计关联微分方程、能量守恒
可逆性可撤回一句话无法撤回一次摔倒
错误代价文本错误(可修正)碰撞损坏(不可逆)
典型表现懂莎士比亚,不懂摩擦力执行力强,但无规划能力

物理幻觉(Physical Hallucination) 是 EST 对这一现象的几何学定义:AI 规划出的动作在语义上完全合理,但在动力学上根本不可行。精确定义为:

物理幻觉    γsemMsem  存在,但  Π(γsem)Mphy\text{物理幻觉} \;\Leftrightarrow\; \gamma_{sem} \in \mathcal{M}_{sem} \;\text{存在,但}\; \Pi(\gamma_{sem}) \notin \mathcal{M}_{phy}

其中 Π:MsemMphy\Pi: \mathcal{M}_{sem} \to \mathcal{M}_{phy}语义-物理投影算子γsem\gamma_{sem} 是语义流形上的规划路径。大模型在”平坦”的语义流形上规划出的测地线,投影到弯曲的物理流形后,可能映射到一条根本不存在的路径——就像把平面地图上的直线画到球面上,忽略了那里可能是一座悬崖。

Prj167 中的典型案例:VLA 规划”举起 50kg 防振锤放置到指定位置”,在语义流形上逻辑完整;但在 Mphy\mathcal{M}_{phy} 中,机械臂水平伸出 0.8m 时关节力矩 τ=r×F\tau = r \times F 将瞬间超过电机峰值扭矩,Π(γsem)Mphy\Pi(\gamma_{sem}) \notin \mathcal{M}_{phy} ——幻觉发生。

EICPS 的接口解答:在 Msem\mathcal{M}_{sem}Mphy\mathcal{M}_{phy} 之间,接口 A 将语义→动力学的投影显式化、可验证化:

MsemVLA 规划ProposalΠ(物理投影)ActionPlanSTL 验证EvidencePack\mathcal{M}_{sem} \xrightarrow{\text{VLA 规划}} \text{Proposal} \xrightarrow{\Pi \text{(物理投影)}} \text{ActionPlan} \xrightarrow{\text{STL 验证}} \text{EvidencePack}

Spine 层的 CBF 实时监控是 Π\Pi 算子在执行层的工程实现——当 Π(γsem)Mphy\Pi(\gamma_{sem}) \notin \mathcal{M}_{phy} 时,CBF 以最小干预修正控制输入,而非等待 Brain 层重新规划。


工具与深入阅读

工具箱:Sim-to-Real 距离计算器(Shape-DNA 谱距离 + GW 距离 Nyström 近似,可上传点云)

数学讲义·三种流形对比(k-NN 图、测地距离、本征维度估计算法)

接口协议 A/BΠ\Pi 投影算子的凸优化实现:力矩约束 QP、关节限位、速度约束)


参考文献

#文献关联概念
[1]Riemann, B. (1854). Über die Hypothesen, welche der Geometrie zu Grunde liegen. Göttingen.黎曼流形,Mphy\mathcal{M}_{phy} 几何基础
[2]Hausdorff, F. (1914). Grundzüge der Mengenlehre. Leipzig: Veit.Hausdorff 度量空间,拓扑框架
[3]Tenenbaum, J. B., de Silva, V., & Langford, J. C. (2000). A global geometric framework for nonlinear dimensionality reduction. Science, 290(5500), 2319–2323.Isomap,流形假设实验验证,dim(Mdata)=dD\dim(\mathcal{M}_{data}) = d \ll D
[4]Roweis, S. T., & Saul, L. K. (2000). Nonlinear dimensionality reduction by locally linear embedding. Science, 290(5500), 2323–2326.LLE,Mdata\mathcal{M}_{data} 局部线性化
[5]Gromov, M. (1981). Structures métriques pour les variétés riemanniennes. Paris: CEDIC/Fernand Nathan.Gromov-Hausdorff 距离,Sim-to-Real Gap 量化基础
[6]Bengio, Y., Courville, A., & Vincent, P. (2013). Representation learning: A review and new perspectives. IEEE Trans. Pattern Anal. Mach. Intell., 35(8), 1798–1828.流形假设的深度学习形式化,Mdata\mathcal{M}_{data} 理论
[7]Murray, R. M., Li, Z., & Sastry, S. S. (1994). A Mathematical Introduction to Robotic Manipulation. CRC Press.SE(3) 机器人学,Mphy\mathcal{M}_{phy} 李群结构
[8]Pfeifer, R., & Scheier, C. (1999). Understanding Intelligence. MIT Press.感知、动作、语义三者空间结构本质不同的早期论述,与三流形框架相互印证