第二讲:三种流形对比

EICPS 的几何骨架由三种流形共同撑起:Mphy\mathcal{M}_{phy}(物理流形)、Msem\mathcal{M}_{sem}(语义流形)、Mdata\mathcal{M}_{data}(数据流形)。三者各司其职,通过映射相互连接。

流形空间类型度量来源典型维数工程含义
Mphy\mathcal{M}_{phy}黎曼流形(带约束)惯性张量 M(q)M(q)ndofn_{dof}关节/位形空间
Msem\mathcal{M}_{sem}嵌入向量空间学习得到32–512任务/意图语义
Mdata\mathcal{M}_{data}高维数据子流形数据分布dDd \ll D传感器数据结构

前言:理论发展沿革

1914年,豪斯多夫(Hausdorff)在《集合论基础》中定义了度量空间,并引入了以他命名的 Hausdorff 距离——衡量两个紧致集合之间”最大最小”距离的经典工具。这是”比较两个空间有多不同”这一问题的最早精确表述,奠定了现代拓扑学的基础。

1981年,俄裔法国数学家格罗莫夫(Gromov)将 Hausdorff 距离推广为 Gromov-Hausdorff(GH)距离,使得我们可以比较不共享同一背景空间的两个度量空间之间的差异。这是革命性的:仿真世界与真实世界的关节空间根本不在同一坐标系下,但 GH 距离却能给出一个有意义的”差距数值”。格罗莫夫因此项工作(及其他贡献)荣获2009年阿贝尔奖。

同期,计算机视觉和机器人学在独立探索同一问题的工程版本。1999年,Pfeifer 和 Scheier 在《理解智能》中指出:感知、动作、语义三者的”空间结构”本质不同,不能用同一个向量空间混合表达。这与 EST 三流形框架不谋而合。2010年代,深度学习的崛起使”跨域迁移”成为核心工程问题:语言模型迁移到机器人指令解析,仿真数据迁移到真实部署。

每一次迁移的本质,都是在度量两个流形之间的 GH 距离,并寻找拉近它们的映射 flearnf_{learn}。EST 把这一工程直觉数学化:Mphy\mathcal{M}_{phy}(关节物理空间)、Msem\mathcal{M}_{sem}(语义意图空间)、Mdata\mathcal{M}_{data}(传感器数据空间)三者各有独立的几何结构,Sim2Real Gap 正是这三张流形错位的量化表达。本讲将逐一解剖三种流形的数学特征,理解它们为何”必须分开对待”。


1 物理流形 M_phy:黎曼度量来自机器人动力学

第一讲建立了 Mphy\mathcal{M}_{phy}(关节空间 T2T^2)的直觉。本节聚焦其黎曼度量

q˙1,q˙2q=q˙1M(q)q˙2\langle \dot{q}_1,\, \dot{q}_2 \rangle_q = \dot{q}_1^\top M(q)\, \dot{q}_2

其中 M(q)M(q) 是机器人的质量矩阵(惯性张量),随关节构型 qq 变化:

  • M(q)M(q) 恒定 \Rightarrow 欧氏空间(平坦),测地线 = 直线
  • M(q)M(q)qq 变化 \Rightarrow 黎曼流形(弯曲),测地线 = 最小能量路径
M_phy 黎曼度量椭圆与质量矩阵
图1:M_phy 度量椭圆(左)与质量矩阵 M(q₂) 各分量随 θ₂ 的变化(右)

图注

  • 左图:关节空间中5×5网格点处的黎曼度量椭圆。椭圆代表局部度量张量 M(q)M(q) 的单位球,椭圆形状随 θ₂ 系统性变化(随 θ₁ 不变),直观体现了流形弯曲。
  • 右图:质量矩阵三个分量随 θ₂ 的变化。M22M_{22} 为常数(末端连杆质量),M11M_{11}M12M_{12} 作余弦变化。正是这种位形依赖性使得 Mphy\mathcal{M}_{phy} 成为非欧几里得的黎曼流形,测地线(最小能量路径)不同于直线。

2 语义流形 M_sem:任务/意图的抽象空间

语义流形是 EICPS 的”中间层”——它不是物理测量的,而是定义或学习出来的:

dsem(GraspCup,GraspBottle)dsem(GraspCup,MoveForward)d_{sem}(\text{GraspCup},\,\text{GraspBottle}) \ll d_{sem}(\text{GraspCup},\,\text{MoveForward})

类似的任务在 Msem\mathcal{M}_{sem} 中距离近,不相关的任务距离远。在 Msem\mathcal{M}_{sem} 中做线性插值,可生成介于两类任务之间的新任务——这是技能迁移(few-shot transfer)的数学基础。

M_sem 语义空间散点图、相似度矩阵与插值路径
图2:语义嵌入空间(左)、相似度矩阵(中)、语义插值路径(右)

图注

  • 左图:2维语义空间中的机器人任务分布(实际维度32–512,此处降维展示)。三个聚类(操作/运动/检视)清晰分离,红色虚线是从「抓杯」到「前进」的语义插值路径。
  • 中图:语义相似度矩阵(高斯核,越绿越相似)。同族任务局部相关强(对角块近1),跨族任务相似度低(块间近0)。
  • 右图:两条语义插值路径示例。■=起点,◆=终点,●=中间混合任务。在 Msem\mathcal{M}_{sem} 中走到语义近邻,即可用少量新样本适配新任务——少样本迁移的几何本质。

3 数据流形 M_data:传感器数据的隐含低维结构

流形假设(Manifold Hypothesis):高维传感器数据实际分布在一个低维流形上:

传感器数据RD,D1    真实数据MdataRD,dim(Mdata)=dD\text{传感器数据} \in \mathbb{R}^D,\quad D\gg 1 \;\Rightarrow\; \text{真实数据} \in \mathcal{M}_{data} \subset \mathbb{R}^D,\quad \dim(\mathcal{M}_{data}) = d \ll D

机器人摄像头图像 R640×480×3\in \mathbb{R}^{640\times480\times3}(约 920K 维),但有意义的构型只有 dd\sim 几十维。瑞士卷(Swiss Roll)是经典教学示例:三维空间中的二维流形。

M_data 瑞士卷数据流形与内在维数估计
图3:瑞士卷3D视图(左)、真实2维内在坐标展开(中)、关联维数估计(右)

图注

  • 左图:1500个点分布在三维空间中,实则由两个内在坐标(卷绕角 tt、高度 hh)完全决定。颜色编码内在坐标 tt
  • 中图:将隐含坐标展开后,点均匀分布在2D矩形区域内——证明内在维数 d=2d=2 远小于环境维数 D=3D=3。实际工程中此展开需由学习模型(自编码器/UMAP)完成。
  • 右图:关联维数估计。log-log 图斜率 ≈ 2,与真实值 d=2d=2 吻合。这是在不知道内在坐标的情况下判断高维数据低维结构的经典方法。

4 三种流形横向对比

三种流形雷达图对比与性质总结表
图4:五维属性雷达图(左)与性质总结表(右)

图注

  • 雷达图:五个维度的横向打分(1–5分)。Mphy\mathcal{M}_{phy}(蓝)度量明确、可测性强,需要的学习最少(物理定律直接给出)。Mdata\mathcal{M}_{data}(橙)拓扑最复杂,需要的学习最多。Msem\mathcal{M}_{sem}(青)居中。
  • 性质表:六个关键属性对比。特别注意「访问方式」一行:Mphy\mathcal{M}_{phy} 用正/逆运动学,Msem\mathcal{M}_{sem} 用嵌入模型,Mdata\mathcal{M}_{data} 用编码器或降维工具。三条技术路线在 EICPS 架构中需联合设计,不能割裂开来。

5 三种流形之间的映射关系

三种流形通过以下映射形成具身智能的信息处理链:

Mdata  fp  (感知)Msem  fa  (执行)Mphy\mathcal{M}_{data} \xrightarrow{\;f_p\;\text{(感知)}} \mathcal{M}_{sem} \xrightarrow{\;f_a\;\text{(执行)}} \mathcal{M}_{phy}
EICPS 三种流形映射链 M_data 数据流形 高维传感器子流形 d ≪ D(内在维数低) 视觉 / 触觉 / 本体感知 M_sem 语义流形 嵌入向量空间 32–512 维 任务意图 / 语言描述 M_phy 物理流形 黎曼流形(带约束) n_dof 维关节空间 度量 = 惯性张量 M(q) f_p 感知 M_data→M_sem f_a 执行 M_sem→M_phy f_learn 域适应 M_data ↔ M_phy(最小化 GH 距离) 典型实现 视觉编码器 / CLIP / VLM (f_p 的输入端) 典型实现 运动规划 / IK 扩散策略(Diffusion Policy) Sim-to-Real Gap d_GH(M_data_sim, M_data_real) → 0
图5:EICPS 信息流——感知映射 f_p(M_data→M_sem)、执行映射 f_a(M_sem→M_phy)、域适应 f_learn(双向桥接)

图注(EICPS 信息流)

  • fpf_p(感知映射):将高维传感器数据(Mdata\mathcal{M}_{data})映射到语义空间(Msem\mathcal{M}_{sem})。典型实现:视觉编码器、CLIP、VLM。
  • faf_a(执行映射):将语义意图(Msem\mathcal{M}_{sem})转化为关节空间轨迹(Mphy\mathcal{M}_{phy})。典型实现:运动规划器、逆运动学(IK)、扩散策略(Diffusion Policy)。
  • flearnf_{learn}(域适应):双向桥接 Mdata\mathcal{M}_{data}Mphy\mathcal{M}_{phy}。仿真的 Mdatasim\mathcal{M}_{data}^{sim} 与真实的 Mdatareal\mathcal{M}_{data}^{real} 之间存在 Gromov-Hausdorff 距离,域适应的目标是最小化这个距离——这正是 Sim-to-Real Gap 的几何内涵。

配套 Notebook

Open In Colab

本讲配套 Notebook 包含所有可运行代码:质量矩阵黎曼度量椭圆、语义相似度矩阵、瑞士卷流形假设演示、五维雷达对比图、EICPS 映射链架构图。


参考文献

  1. Hausdorff, F. (1914). Grundzüge der Mengenlehre. Veit & Comp. Hausdorff 距离的原始定义,度量空间理论的奠基著作,两个集合之间”最大最小距离”概念的来源。

  2. Gromov, M. (1981). Structures métriques pour les variétés riemanniennes. Cedic/Fernand Nathan. GH 距离的原始文献,使”比较不共享背景空间的两个度量空间”成为可能,Sim2Real Gap 量化的数学基础。

  3. Mémoli, F. (2011). Gromov–Wasserstein distances and the metric approach to object matching. Foundations of Computational Mathematics, 11(4), 417–487. 将 GH 距离与最优传输结合,给出了可计算的 GW 距离,是 dGHd_{GH} 数值化的重要工程化路径。

  4. Bengio, Y., Courville, A., & Vincent, P. (2013). Representation learning: A review and new perspectives. IEEE TPAMI, 35(8), 1798–1828. 深度学习时代的流形假设综述:高维数据集中在低维流形附近,Mdata\mathcal{M}_{data} 的学习本质是发现该流形。

  5. Pfeifer, R., & Scheier, C. (1999). Understanding Intelligence. MIT Press. 具身认知的系统论著:感知、动作、语义三者的空间结构本质不同,三流形框架的哲学来源。


总结

M_phy(物理流形)  ← 黎曼,度量 = 惯性张量 M(q),直接可测
M_sem(语义流形)  ← 嵌入空间,度量由学习定义,语义近邻结构
M_data(数据流形) ← 高维数据的低维内嵌,流形假设,需学习坐标

映射链:M_data →[fₚ 感知]→ M_sem →[fₐ 执行]→ M_phy
               ←──────[f_learn 域适应]──────→

下一讲:Flow-Jump 动力学仿真 — 连续 Flow 与离散 Jump 的混合动力系统,弹跳球 + 机器人步态切换。