什么是具身空间?如何建模?
“具身空间”是 EST(具身空间理论)提出的核心数学对象。理解它需要先看清楚传统机器人学的建模框架在哪里遭遇了边界。
传统框架的两个局限
经典机器人控制用两个空间描述系统状态:关节空间(joint space)和任务空间(task space)。关节空间记录每个关节的角度 q=(θ1,…,θn)∈Rn;任务空间记录末端执行器的位置和姿态 p∈SE(3);两者通过正运动学 f:q↦p 相连。
这个框架在经典工业机器人上是够用的——任务是确定性的,环境是固定的,控制器只需要在物理层面工作。
现在加入大模型和自然语言任务描述,问题就出现了。LLM 的输出是语义层面的——“换一下 3 号防振锤”——它不存在于 Rn 里,没有物理坐标。另一方面,物理控制器不理解语义,它只接受力矩/速度指令。两个系统之间没有共同的状态空间,也就无法建立形式化的接口。
第二个局限更隐蔽:关节空间 Rn 是平坦的,但关节角是周期性的,θ=0 和 θ=2π 是同一个物理状态。用欧氏距离衡量关节角之间的距离会产生系统性误差,这在控制精度要求高的场景里不可接受。
具身空间:三流形乘积
具身空间的定义是:
M=Msem×Mphy×Mlat
三个分量各自是一个黎曼流形,各自有自己的度量结构:
Mphy:物理流形。 系统的机械状态——关节角、角速度、接触力。对于 n 个旋转关节,Mphy=Tn(n 维环面),而非 Rn。环面的拓扑结构自然地体现了关节角的周期性,测地距离不会产生跨周期的误差。
Msem:语义流形。 任务的语义状态——当前处于哪个任务阶段、意图是什么、人员是否在场。结构上是一个有向图:节点是任务模态(接近、夹持、提升、放置……),边是合法的状态转换。HTN 规划器在这个流形上展开任务分解。
Mlat:数据流形(潜空间)。 传感器数据经过神经编码器后落在的潜空间。视觉、力觉、本体感觉信号在这里融合成一个结构化的表示。Sim2Real Gap 在这个流形上有精确定义:dGH(Mlatsim,Mlatreal),即仿真与真实数据流形之间的 Gromov-Hausdorff 距离。
系统在任意时刻的完整状态是三元组 (s,q,z)∈Msem×Mphy×Mlat。Brain 层在 Msem 上规划,Spine 层在 Mphy 上控制,潜空间 Mlat 是二者共享的感知表示。
简单例子:二自由度平面机械臂
取臂长 l1=1.0 m,l2=0.8 m,两个关节都是旋转关节。
图1:配置空间与任务可达集
左图:Mphy=T2 展开为正方形,每个点是一组关节角 (θ1,θ2),颜色代表末端到原点的距离。注意:左右两边(θ1=0 与 θ1=2π)在物理上是同一点——这是环面的拓扑结构,在平坦欧氏空间中无法正确体现。
右图:正运动学 f:T2→R2 将配置空间映射到末端执行器的可达集。同一个末端位置可由多组关节角到达(运动学冗余),需要在规划层额外选取最优配置。
正运动学公式:
f(θ1,θ2)=(l1cosθ1+l2cos(θ1+θ2)l1sinθ1+l2sin(θ1+θ2))
图2:欧氏距离 vs 测地距离
取 A=(θ1=0.15 rad, θ2=0.8 rad) 和 B=(θ1=2π−0.15 rad, θ2=0.8 rad) 两个配置:
左图:两个姿态的末端执行器(星号)几乎重合,说明两个配置在物理上极为相近。
右图:在展开的配置空间中,A 和 B 的欧氏距离约为 6.08 rad(紫色虚线),看似相距很远;但沿环面边界绕过去的测地距离仅约 0.2 rad(绿色路径),末端执行器的实际分离距离小于 0.001 m。
用欧氏距离设计的控制律会”绕远路”,在安全控制中这是不可接受的。Mphy=Tn 的黎曼测地距离才是正确的度量。
图3:黎曼度量的分布
Mphy 上的黎曼度量由正运动学的雅可比矩阵诱导:
G(q)=J(q)TJ(q),J=∂q∂f
热图显示 detG(q) 在配置空间上的分布。深色区域(高灵敏度):关节速度能有效传导到末端——这是控制的有效区间。浅色/奇异区域(青色边界内):detG≈0,末端速度趋零,机械臂失去可操控性。CBF 安全集设计需要在配置空间中回避这些奇异区域,而不只是在笛卡尔空间中检查碰撞。
雅可比矩阵的显式表达式(s1=sinθ1,c12=cos(θ1+θ2),以此类推):
J(θ1,θ2)=(−l1s1−l2s12l1c1+l2c12−l2s12l2c12)
图4:三流形乘积结构
这张图把三个分量并排展示,说明具身空间 M=Msem×Mphy×Mlat 在这个简单例子中的具体形态:
左:Msem 是一个有向图,四个节点对应任务阶段(Approach → Grasp → Lift → Place),当前状态是 Grasp。HTN 规划器在此图上搜索合法的任务序列。
中:Mphy 的环面结构(投影显示),红星是当前关节角配置。Spine 层的 CBF/STL 安全机制在此流形上定义安全集并实时验证约束。
右:Mlat 是神经编码器输出的潜空间。仿真数据(蓝色)与真实数据(红色)落在不同区域,两者之间的 Gromov-Hausdorff 距离 dGH(Mlatsim,Mlatreal) 是 Sim2Real Gap 的精确数学定义。Gap 越大,仿真训练的策略在真实环境中泛化能力越差。
与 EICPS 架构的对应
完整状态 (Grasp, (θ1,θ2), zvisual)∈Msem×T2×Mlat 描述了系统的全部信息,足以支撑 Brain 层的 HTN 规划和 Spine 层的 CBF 安全控制同时运行,两者通过接口 A 交换信息而不共享计算层。这正是”具身空间”作为统一数学框架的价值:它给出了两个计算层之间形式化的状态共同语言。
→ EST 理论概述 · 为什么三层架构? · 数学讲义·流形是什么 · 数学讲义·三种流形对比