什么是具身空间?如何建模?

“具身空间”是 EST(具身空间理论)提出的核心数学对象。理解它需要先看清楚传统机器人学的建模框架在哪里遭遇了边界。

传统框架的两个局限

经典机器人控制用两个空间描述系统状态:关节空间(joint space)和任务空间(task space)。关节空间记录每个关节的角度 q=(θ1,,θn)Rnq = (\theta_1, \ldots, \theta_n) \in \mathbb{R}^n;任务空间记录末端执行器的位置和姿态 pSE(3)p \in SE(3);两者通过正运动学 f:qpf: q \mapsto p 相连。

这个框架在经典工业机器人上是够用的——任务是确定性的,环境是固定的,控制器只需要在物理层面工作。

现在加入大模型和自然语言任务描述,问题就出现了。LLM 的输出是语义层面的——“换一下 3 号防振锤”——它不存在于 Rn\mathbb{R}^n 里,没有物理坐标。另一方面,物理控制器不理解语义,它只接受力矩/速度指令。两个系统之间没有共同的状态空间,也就无法建立形式化的接口。

第二个局限更隐蔽:关节空间 Rn\mathbb{R}^n 是平坦的,但关节角是周期性的,θ=0\theta = 0θ=2π\theta = 2\pi 是同一个物理状态。用欧氏距离衡量关节角之间的距离会产生系统性误差,这在控制精度要求高的场景里不可接受。

具身空间:三流形乘积

具身空间的定义是:

M=Msem×Mphy×Mlat\mathcal{M} = \mathcal{M}_{sem} \times \mathcal{M}_{phy} \times \mathcal{M}_{lat}

三个分量各自是一个黎曼流形,各自有自己的度量结构:

Mphy\mathcal{M}_{phy}:物理流形。 系统的机械状态——关节角、角速度、接触力。对于 nn 个旋转关节,Mphy=Tn\mathcal{M}_{phy} = T^nnn 维环面),而非 Rn\mathbb{R}^n。环面的拓扑结构自然地体现了关节角的周期性,测地距离不会产生跨周期的误差。

Msem\mathcal{M}_{sem}:语义流形。 任务的语义状态——当前处于哪个任务阶段、意图是什么、人员是否在场。结构上是一个有向图:节点是任务模态(接近、夹持、提升、放置……),边是合法的状态转换。HTN 规划器在这个流形上展开任务分解。

Mlat\mathcal{M}_{lat}:数据流形(潜空间)。 传感器数据经过神经编码器后落在的潜空间。视觉、力觉、本体感觉信号在这里融合成一个结构化的表示。Sim2Real Gap 在这个流形上有精确定义:dGH(Mlatsim,Mlatreal)d_{GH}(\mathcal{M}_{lat}^{sim}, \mathcal{M}_{lat}^{real}),即仿真与真实数据流形之间的 Gromov-Hausdorff 距离。

系统在任意时刻的完整状态是三元组 (s,q,z)Msem×Mphy×Mlat(s, q, z) \in \mathcal{M}_{sem} \times \mathcal{M}_{phy} \times \mathcal{M}_{lat}。Brain 层在 Msem\mathcal{M}_{sem} 上规划,Spine 层在 Mphy\mathcal{M}_{phy} 上控制,潜空间 Mlat\mathcal{M}_{lat} 是二者共享的感知表示。

简单例子:二自由度平面机械臂

取臂长 l1=1.0l_1 = 1.0 m,l2=0.8l_2 = 0.8 m,两个关节都是旋转关节。

图1:配置空间与任务可达集

配置空间 T² 与任务空间可达集

左图Mphy=T2\mathcal{M}_{phy} = T^2 展开为正方形,每个点是一组关节角 (θ1,θ2)(\theta_1, \theta_2),颜色代表末端到原点的距离。注意:左右两边(θ1=0\theta_1 = 0θ1=2π\theta_1 = 2\pi)在物理上是同一点——这是环面的拓扑结构,在平坦欧氏空间中无法正确体现。

右图:正运动学 f:T2R2f: T^2 \to \mathbb{R}^2 将配置空间映射到末端执行器的可达集。同一个末端位置可由多组关节角到达(运动学冗余),需要在规划层额外选取最优配置。

正运动学公式:

f(θ1,θ2)=(l1cosθ1+l2cos(θ1+θ2)l1sinθ1+l2sin(θ1+θ2))f(\theta_1, \theta_2) = \begin{pmatrix} l_1 \cos\theta_1 + l_2 \cos(\theta_1+\theta_2) \\ l_1 \sin\theta_1 + l_2 \sin(\theta_1+\theta_2) \end{pmatrix}

图2:欧氏距离 vs 测地距离

欧氏距离 vs 测地距离对比

A=(θ1=0.15 rad, θ2=0.8 rad)A = (\theta_1 = 0.15\ \text{rad},\ \theta_2 = 0.8\ \text{rad})B=(θ1=2π0.15 rad, θ2=0.8 rad)B = (\theta_1 = 2\pi - 0.15\ \text{rad},\ \theta_2 = 0.8\ \text{rad}) 两个配置:

左图:两个姿态的末端执行器(星号)几乎重合,说明两个配置在物理上极为相近。

右图:在展开的配置空间中,A 和 B 的欧氏距离约为 6.08 rad(紫色虚线),看似相距很远;但沿环面边界绕过去的测地距离仅约 0.2 rad(绿色路径),末端执行器的实际分离距离小于 0.001 m。

用欧氏距离设计的控制律会”绕远路”,在安全控制中这是不可接受的。Mphy=Tn\mathcal{M}_{phy} = T^n 的黎曼测地距离才是正确的度量。

图3:黎曼度量的分布

黎曼度量 sqrt(det G(q)) 的热图

Mphy\mathcal{M}_{phy} 上的黎曼度量由正运动学的雅可比矩阵诱导:

G(q)=J(q)TJ(q),J=fqG(q) = J(q)^T J(q), \quad J = \frac{\partial f}{\partial q}

热图显示 detG(q)\sqrt{\det G(q)} 在配置空间上的分布。深色区域(高灵敏度):关节速度能有效传导到末端——这是控制的有效区间。浅色/奇异区域(青色边界内):detG0\det G \approx 0,末端速度趋零,机械臂失去可操控性。CBF 安全集设计需要在配置空间中回避这些奇异区域,而不只是在笛卡尔空间中检查碰撞。

雅可比矩阵的显式表达式(s1=sinθ1s_1 = \sin\theta_1c12=cos(θ1+θ2)c_{12} = \cos(\theta_1+\theta_2),以此类推):

J(θ1,θ2)=(l1s1l2s12l2s12l1c1+l2c12l2c12)J(\theta_1, \theta_2) = \begin{pmatrix} -l_1 s_1 - l_2 s_{12} & -l_2 s_{12} \\ l_1 c_1 + l_2 c_{12} & l_2 c_{12} \end{pmatrix}

图4:三流形乘积结构

具身空间三分量:语义流形、物理流形、数据流形

这张图把三个分量并排展示,说明具身空间 M=Msem×Mphy×Mlat\mathcal{M} = \mathcal{M}_{sem} \times \mathcal{M}_{phy} \times \mathcal{M}_{lat} 在这个简单例子中的具体形态:

Msem\mathcal{M}_{sem} 是一个有向图,四个节点对应任务阶段(Approach → Grasp → Lift → Place),当前状态是 Grasp。HTN 规划器在此图上搜索合法的任务序列。

Mphy\mathcal{M}_{phy} 的环面结构(投影显示),红星是当前关节角配置。Spine 层的 CBF/STL 安全机制在此流形上定义安全集并实时验证约束。

Mlat\mathcal{M}_{lat} 是神经编码器输出的潜空间。仿真数据(蓝色)与真实数据(红色)落在不同区域,两者之间的 Gromov-Hausdorff 距离 dGH(Mlatsim,Mlatreal)d_{GH}(\mathcal{M}_{lat}^{sim}, \mathcal{M}_{lat}^{real}) 是 Sim2Real Gap 的精确数学定义。Gap 越大,仿真训练的策略在真实环境中泛化能力越差。

与 EICPS 架构的对应

完整状态 (Grasp, (θ1,θ2), zvisual)Msem×T2×Mlat(\text{Grasp},\ (\theta_1, \theta_2),\ z_{visual}) \in \mathcal{M}_{sem} \times T^2 \times \mathcal{M}_{lat} 描述了系统的全部信息,足以支撑 Brain 层的 HTN 规划和 Spine 层的 CBF 安全控制同时运行,两者通过接口 A 交换信息而不共享计算层。这正是”具身空间”作为统一数学框架的价值:它给出了两个计算层之间形式化的状态共同语言

EST 理论概述 · 为什么三层架构? · 数学讲义·流形是什么 · 数学讲义·三种流形对比