什么是具身空间？如何建模？

“具身空间”是 EST（具身空间理论）提出的核心数学对象。理解它需要先看清楚传统机器人学的建模框架在哪里遭遇了边界。

传统框架的两个局限

经典机器人控制用两个空间描述系统状态：关节空间（joint space）和任务空间（task space）。关节空间记录每个关节的角度 $q = (\theta_1, \ldots, \theta_n) \in \mathbb{R}^n$ ；任务空间记录末端执行器的位置和姿态 $p \in SE(3)$ ；两者通过正运动学 $f: q \mapsto p$ 相连。

这个框架在经典工业机器人上是够用的——任务是确定性的，环境是固定的，控制器只需要在物理层面工作。

现在加入大模型和自然语言任务描述，问题就出现了。LLM 的输出是语义层面的——“换一下 3 号防振锤”——它不存在于 $\mathbb{R}^n$ 里，没有物理坐标。另一方面，物理控制器不理解语义，它只接受力矩/速度指令。两个系统之间没有共同的状态空间，也就无法建立形式化的接口。

第二个局限更隐蔽：关节空间 $\mathbb{R}^n$ 是平坦的，但关节角是周期性的， $\theta = 0$ 和 $\theta = 2\pi$ 是同一个物理状态。用欧氏距离衡量关节角之间的距离会产生系统性误差，这在控制精度要求高的场景里不可接受。

具身空间：三流形乘积

具身空间的定义是：

$\mathcal{M} = \mathcal{M}_{sem} \times \mathcal{M}_{phy} \times \mathcal{M}_{lat}$

三个分量各自是一个黎曼流形，各自有自己的度量结构：

$\mathcal{M}_{phy}$ ：物理流形。 系统的机械状态——关节角、角速度、接触力。对于 $n$ 个旋转关节， $\mathcal{M}_{phy} = T^n$ （ $n$ 维环面），而非 $\mathbb{R}^n$ 。环面的拓扑结构自然地体现了关节角的周期性，测地距离不会产生跨周期的误差。

$\mathcal{M}_{sem}$ ：语义流形。 任务的语义状态——当前处于哪个任务阶段、意图是什么、人员是否在场。结构上是一个有向图：节点是任务模态（接近、夹持、提升、放置……），边是合法的状态转换。HTN 规划器在这个流形上展开任务分解。

$\mathcal{M}_{lat}$ ：数据流形（潜空间）。 传感器数据经过神经编码器后落在的潜空间。视觉、力觉、本体感觉信号在这里融合成一个结构化的表示。Sim2Real Gap 在这个流形上有精确定义： $d_{GH}(\mathcal{M}_{lat}^{sim}, \mathcal{M}_{lat}^{real})$ ，即仿真与真实数据流形之间的 Gromov-Hausdorff 距离。

系统在任意时刻的完整状态是三元组 $(s, q, z) \in \mathcal{M}_{sem} \times \mathcal{M}_{phy} \times \mathcal{M}_{lat}$ 。Brain 层在 $\mathcal{M}_{sem}$ 上规划，Spine 层在 $\mathcal{M}_{phy}$ 上控制，潜空间 $\mathcal{M}_{lat}$ 是二者共享的感知表示。

简单例子：二自由度平面机械臂

取臂长 $l_1 = 1.0$ m， $l_2 = 0.8$ m，两个关节都是旋转关节。

图1：配置空间与任务可达集

左图： $\mathcal{M}_{phy} = T^2$ 展开为正方形，每个点是一组关节角 $(\theta_1, \theta_2)$ ，颜色代表末端到原点的距离。注意：左右两边（ $\theta_1 = 0$ 与 $\theta_1 = 2\pi$ ）在物理上是同一点——这是环面的拓扑结构，在平坦欧氏空间中无法正确体现。

右图：正运动学 $f: T^2 \to \mathbb{R}^2$ 将配置空间映射到末端执行器的可达集。同一个末端位置可由多组关节角到达（运动学冗余），需要在规划层额外选取最优配置。

正运动学公式：

$f(\theta_1, \theta_2) = \begin{pmatrix} l_1 \cos\theta_1 + l_2 \cos(\theta_1+\theta_2) \\ l_1 \sin\theta_1 + l_2 \sin(\theta_1+\theta_2) \end{pmatrix}$

图2：欧氏距离 vs 测地距离

取 $A = (\theta_1 = 0.15\ \text{rad},\ \theta_2 = 0.8\ \text{rad})$ 和 $B = (\theta_1 = 2\pi - 0.15\ \text{rad},\ \theta_2 = 0.8\ \text{rad})$ 两个配置：

左图：两个姿态的末端执行器（星号）几乎重合，说明两个配置在物理上极为相近。

右图：在展开的配置空间中，A 和 B 的欧氏距离约为 6.08 rad（紫色虚线），看似相距很远；但沿环面边界绕过去的测地距离仅约 0.2 rad（绿色路径），末端执行器的实际分离距离小于 0.001 m。

用欧氏距离设计的控制律会”绕远路”，在安全控制中这是不可接受的。 $\mathcal{M}_{phy} = T^n$ 的黎曼测地距离才是正确的度量。

图3：黎曼度量的分布

$\mathcal{M}_{phy}$ 上的黎曼度量由正运动学的雅可比矩阵诱导：

$G(q) = J(q)^T J(q), \quad J = \frac{\partial f}{\partial q}$

热图显示 $\sqrt{\det G(q)}$ 在配置空间上的分布。深色区域（高灵敏度）：关节速度能有效传导到末端——这是控制的有效区间。浅色/奇异区域（青色边界内）： $\det G \approx 0$ ，末端速度趋零，机械臂失去可操控性。CBF 安全集设计需要在配置空间中回避这些奇异区域，而不只是在笛卡尔空间中检查碰撞。

雅可比矩阵的显式表达式（ $s_1 = \sin\theta_1$ ， $c_{12} = \cos(\theta_1+\theta_2)$ ，以此类推）：

$J(\theta_1, \theta_2) = \begin{pmatrix} -l_1 s_1 - l_2 s_{12} & -l_2 s_{12} \\ l_1 c_1 + l_2 c_{12} & l_2 c_{12} \end{pmatrix}$

图4：三流形乘积结构

这张图把三个分量并排展示，说明具身空间 $\mathcal{M} = \mathcal{M}_{sem} \times \mathcal{M}_{phy} \times \mathcal{M}_{lat}$ 在这个简单例子中的具体形态：

左： $\mathcal{M}_{sem}$ 是一个有向图，四个节点对应任务阶段（Approach → Grasp → Lift → Place），当前状态是 Grasp。HTN 规划器在此图上搜索合法的任务序列。

中： $\mathcal{M}_{phy}$ 的环面结构（投影显示），红星是当前关节角配置。Spine 层的 CBF/STL 安全机制在此流形上定义安全集并实时验证约束。

右： $\mathcal{M}_{lat}$ 是神经编码器输出的潜空间。仿真数据（蓝色）与真实数据（红色）落在不同区域，两者之间的 Gromov-Hausdorff 距离 $d_{GH}(\mathcal{M}_{lat}^{sim}, \mathcal{M}_{lat}^{real})$ 是 Sim2Real Gap 的精确数学定义。Gap 越大，仿真训练的策略在真实环境中泛化能力越差。

与 EICPS 架构的对应

完整状态 $(\text{Grasp},\ (\theta_1, \theta_2),\ z_{visual}) \in \mathcal{M}_{sem} \times T^2 \times \mathcal{M}_{lat}$ 描述了系统的全部信息，足以支撑 Brain 层的 HTN 规划和 Spine 层的 CBF 安全控制同时运行，两者通过接口 A 交换信息而不共享计算层。这正是”具身空间”作为统一数学框架的价值：它给出了两个计算层之间形式化的状态共同语言。

→ EST 理论概述 · 为什么三层架构？ · 数学讲义·流形是什么 · 数学讲义·三种流形对比