第二讲:三种流形对比
EICPS 的几何骨架由三种流形共同撑起:(物理流形)、(语义流形)、(数据流形)。三者各司其职,通过映射相互连接。
| 流形 | 空间类型 | 度量来源 | 典型维数 | 工程含义 |
|---|---|---|---|---|
| 黎曼流形(带约束) | 惯性张量 | 关节/位形空间 | ||
| 嵌入向量空间 | 学习得到 | 32–512 | 任务/意图语义 | |
| 高维数据子流形 | 数据分布 | 传感器数据结构 |
前言:理论发展沿革
1914年,豪斯多夫(Hausdorff)在《集合论基础》中定义了度量空间,并引入了以他命名的 Hausdorff 距离——衡量两个紧致集合之间”最大最小”距离的经典工具。这是”比较两个空间有多不同”这一问题的最早精确表述,奠定了现代拓扑学的基础。
1981年,俄裔法国数学家格罗莫夫(Gromov)将 Hausdorff 距离推广为 Gromov-Hausdorff(GH)距离,使得我们可以比较不共享同一背景空间的两个度量空间之间的差异。这是革命性的:仿真世界与真实世界的关节空间根本不在同一坐标系下,但 GH 距离却能给出一个有意义的”差距数值”。格罗莫夫因此项工作(及其他贡献)荣获2009年阿贝尔奖。
同期,计算机视觉和机器人学在独立探索同一问题的工程版本。1999年,Pfeifer 和 Scheier 在《理解智能》中指出:感知、动作、语义三者的”空间结构”本质不同,不能用同一个向量空间混合表达。这与 EST 三流形框架不谋而合。2010年代,深度学习的崛起使”跨域迁移”成为核心工程问题:语言模型迁移到机器人指令解析,仿真数据迁移到真实部署。
每一次迁移的本质,都是在度量两个流形之间的 GH 距离,并寻找拉近它们的映射 。EST 把这一工程直觉数学化:(关节物理空间)、(语义意图空间)、(传感器数据空间)三者各有独立的几何结构,Sim2Real Gap 正是这三张流形错位的量化表达。本讲将逐一解剖三种流形的数学特征,理解它们为何”必须分开对待”。
1 物理流形 M_phy:黎曼度量来自机器人动力学
第一讲建立了 (关节空间 )的直觉。本节聚焦其黎曼度量:
其中 是机器人的质量矩阵(惯性张量),随关节构型 变化:
- 恒定 欧氏空间(平坦),测地线 = 直线
- 随 变化 黎曼流形(弯曲),测地线 = 最小能量路径
图注:
- 左图:关节空间中5×5网格点处的黎曼度量椭圆。椭圆代表局部度量张量 的单位球,椭圆形状随 θ₂ 系统性变化(随 θ₁ 不变),直观体现了流形弯曲。
- 右图:质量矩阵三个分量随 θ₂ 的变化。 为常数(末端连杆质量), 和 作余弦变化。正是这种位形依赖性使得 成为非欧几里得的黎曼流形,测地线(最小能量路径)不同于直线。
2 语义流形 M_sem:任务/意图的抽象空间
语义流形是 EICPS 的”中间层”——它不是物理测量的,而是定义或学习出来的:
类似的任务在 中距离近,不相关的任务距离远。在 中做线性插值,可生成介于两类任务之间的新任务——这是技能迁移(few-shot transfer)的数学基础。
图注:
- 左图:2维语义空间中的机器人任务分布(实际维度32–512,此处降维展示)。三个聚类(操作/运动/检视)清晰分离,红色虚线是从「抓杯」到「前进」的语义插值路径。
- 中图:语义相似度矩阵(高斯核,越绿越相似)。同族任务局部相关强(对角块近1),跨族任务相似度低(块间近0)。
- 右图:两条语义插值路径示例。■=起点,◆=终点,●=中间混合任务。在 中走到语义近邻,即可用少量新样本适配新任务——少样本迁移的几何本质。
3 数据流形 M_data:传感器数据的隐含低维结构
流形假设(Manifold Hypothesis):高维传感器数据实际分布在一个低维流形上:
机器人摄像头图像 (约 920K 维),但有意义的构型只有 几十维。瑞士卷(Swiss Roll)是经典教学示例:三维空间中的二维流形。
图注:
- 左图:1500个点分布在三维空间中,实则由两个内在坐标(卷绕角 、高度 )完全决定。颜色编码内在坐标 。
- 中图:将隐含坐标展开后,点均匀分布在2D矩形区域内——证明内在维数 远小于环境维数 。实际工程中此展开需由学习模型(自编码器/UMAP)完成。
- 右图:关联维数估计。log-log 图斜率 ≈ 2,与真实值 吻合。这是在不知道内在坐标的情况下判断高维数据低维结构的经典方法。
4 三种流形横向对比
图注:
- 雷达图:五个维度的横向打分(1–5分)。(蓝)度量明确、可测性强,需要的学习最少(物理定律直接给出)。(橙)拓扑最复杂,需要的学习最多。(青)居中。
- 性质表:六个关键属性对比。特别注意「访问方式」一行: 用正/逆运动学, 用嵌入模型, 用编码器或降维工具。三条技术路线在 EICPS 架构中需联合设计,不能割裂开来。
5 三种流形之间的映射关系
三种流形通过以下映射形成具身智能的信息处理链:
图注(EICPS 信息流):
- (感知映射):将高维传感器数据()映射到语义空间()。典型实现:视觉编码器、CLIP、VLM。
- (执行映射):将语义意图()转化为关节空间轨迹()。典型实现:运动规划器、逆运动学(IK)、扩散策略(Diffusion Policy)。
- (域适应):双向桥接 与 。仿真的 与真实的 之间存在 Gromov-Hausdorff 距离,域适应的目标是最小化这个距离——这正是 Sim-to-Real Gap 的几何内涵。
配套 Notebook
本讲配套 Notebook 包含所有可运行代码:质量矩阵黎曼度量椭圆、语义相似度矩阵、瑞士卷流形假设演示、五维雷达对比图、EICPS 映射链架构图。
参考文献
-
Hausdorff, F. (1914). Grundzüge der Mengenlehre. Veit & Comp. Hausdorff 距离的原始定义,度量空间理论的奠基著作,两个集合之间”最大最小距离”概念的来源。
-
Gromov, M. (1981). Structures métriques pour les variétés riemanniennes. Cedic/Fernand Nathan. GH 距离的原始文献,使”比较不共享背景空间的两个度量空间”成为可能,Sim2Real Gap 量化的数学基础。
-
Mémoli, F. (2011). Gromov–Wasserstein distances and the metric approach to object matching. Foundations of Computational Mathematics, 11(4), 417–487. 将 GH 距离与最优传输结合,给出了可计算的 GW 距离,是 数值化的重要工程化路径。
-
Bengio, Y., Courville, A., & Vincent, P. (2013). Representation learning: A review and new perspectives. IEEE TPAMI, 35(8), 1798–1828. 深度学习时代的流形假设综述:高维数据集中在低维流形附近, 的学习本质是发现该流形。
-
Pfeifer, R., & Scheier, C. (1999). Understanding Intelligence. MIT Press. 具身认知的系统论著:感知、动作、语义三者的空间结构本质不同,三流形框架的哲学来源。
总结
M_phy(物理流形) ← 黎曼,度量 = 惯性张量 M(q),直接可测
M_sem(语义流形) ← 嵌入空间,度量由学习定义,语义近邻结构
M_data(数据流形) ← 高维数据的低维内嵌,流形假设,需学习坐标
映射链:M_data →[fₚ 感知]→ M_sem →[fₐ 执行]→ M_phy
←──────[f_learn 域适应]──────→
下一讲:Flow-Jump 动力学仿真 — 连续 Flow 与离散 Jump 的混合动力系统,弹跳球 + 机器人步态切换。