Zhangzhe's Blog

The projection of my life.

0%

RT-1: Robotics Transformer for Real-World Control at Scale

URL

TL;DR

  • 本文提出了 RT-1 模型,本质是一个输入连续 6 帧图像 + 一句语言指令,输出是 11 维动作空间的 VLA 模型,控制一个有可移动底座和一个手臂的机器人,也就是说,RT-1 实际上是一个 小脑模型(执行控制模型,输入是相对简单的指令,输出是精细动作控制信号)
  • RT-1 首次证明大规模 Transformer 模型在机器人控制的可行性:通过​​任务无关训练​​、​​高效架构设计​​及​​异构数据融合​​,实现 700+任务的 97% 成功率及显著零样本泛化能力
  • 整个模型非常轻量,只有 35M 的参数

Algorithm

网络结构

rt1_2.png

  • 模型大概由四部分组成:
​​模块​​ ​​输入形状​​ ​​输出形状​​ ​​关键说明​​
Universal Sentence Encoder 文本字符串 512维向量 语言语义编码
FiLM EfficientNet-B3 6×300×300×3(图像) + 512 486×512 每帧生成81个视觉Token
TokenLearner 486×512 48×512 压缩至8 Token/帧
Transformer 48×512(+位置编码) 11×256 输出离散化动作分布

模型输出

  • 输出 11 维动作空间,每个动作空间都是离散的 256 个值
  • 11 个动作空间分别表示:
    • 1 个离散维度用于控制模式切换:
      • 控制底座
      • 控制手臂
      • 终止
    • 7 个维度控制机械臂:
      • 末端位置:x, y, z
      • 末端姿态:roll, pitch, yaw
      • 抓夹:开合度
    • 3 个维度控制底座:
      • 位置:x, y
      • 旋转角度:yaw

数据集

Thoughts

  • 模型很简单,数据很简单,训练范式也很简单,但泛化能力很强
  • RT-1 数据开源,推动具身智能社区发展