Skip to main content
QUICK REVIEW

[논문 리뷰] Structural Action Transformer for 3D Dexterous Manipulation

Xiaohan Lei, Min Wang|arXiv (Cornell University)|2026. 03. 04.
Robot Manipulation and Learning인용 수 0
한 줄 요약

이 논문은 Structural Action Transformer(SAT)를 소개한다. 이는 관절 궤적((Da, T))으로 액션을 토큰화하는 3D 섬세한 조작 정책으로, 시간 분할 벡터가 아닌 방식이다. 이는 크로스-임버디먼트 전이 및 데이터 효율을 더 좋게 가능하게 한다. 구조적 액션 코드북과 연속 시간 흐름 매칭(flow matching) 목표를 사용해 3D 포인트 클라우드와 언어 입력으로 액션 청크를 생성한다.

ABSTRACT

Achieving human-level dexterity in robots via imitation learning from heterogeneous datasets is hindered by the challenge of cross-embodiment skill transfer, particularly for high-DoF robotic hands. Existing methods, often relying on 2D observations and temporal-centric action representation, struggle to capture 3D spatial relations and fail to handle embodiment heterogeneity. This paper proposes the Structural Action Transformer (SAT), a new 3D dexterous manipulation policy that challenges this paradigm by introducing a structural-centric perspective. We reframe each action chunk not as a temporal sequence, but as a variable-length, unordered sequence of joint-wise trajectories. This structural formulation allows a Transformer to natively handle heterogeneous embodiments, treating the joint count as a variable sequence length. To encode structural priors and resolve ambiguity, we introduce an Embodied Joint Codebook that embeds each joint's functional role and kinematic properties. Our model learns to generate these trajectories from 3D point clouds via a continuous-time flow matching objective. We validate our approach by pre-training on large-scale heterogeneous datasets and fine-tuning on simulation and real-world dexterous manipulation tasks. Our method consistently outperforms all baselines, demonstrating superior sample efficiency and effective cross-embodiment skill transfer. This structural-centric representation offers a new path toward scaling policies for high-DoF, heterogeneous manipulators.

연구 동기 및 목표

  • 고차원 DoF 섬세한 손의 시연 학습에서 3D 포인트 클라우드와 언어 입력을 활용한 크로스-임버디먼트 모방 학습의 동기를 제시한다.
  • Embodiment 간 관절 수의 가변성을 가능하게 하는 구조 중심의 액션 표현(Da × T)을 제안한다.
  • 전이 학습을 위한 관절 기능과 운동학을 인코딩하는 Embodied Joint Codebook를 도입한다.
  • 샘플 효율성과 일반화를 평가하기 위해 이종 데이터셋에서 사전 학습하고 시뮬레이션 및 실제 과제에서 미세 조정한다.

제안 방법

  • 액션을 관절 궤적의 시퀀스로 표현한다: A_t in R^{Da × T}, 각 행은 관절의 미래 궤적이다.
  • 조건부 속도장 epsilon_theta를 이용해 p(A_t | o_t)를 모델링하는 연속 시간 정규화 흐름(CNF)을 사용하고 흐름 매칭 목표로 학습한다.
  • 다중 모드 입력에 조건을 걸기 위해 계층적 3D 포인트 클라우드 토크나이저와 T5 기반 언어 인코더로 관찰을 인코딩하고 DiT 트랜스포머를 조건화한다.
  • 각 관절을 Embodiment, Function, Rotation의 3부분 트리플렛에 매핑하는 Embodied Joint Codebook을 도입해 형태학 간 관절을 정렬한다.
  • 관찰된 액션 속도장을 Transformer 기반의 DiT로 예측하고, 인과 마스킹을 사용하며 ODE 해석기를 통해 최종 액션 청크를 얻는다.
  • 대형 이종 데이터셋(사람과 로봇 시연, 시뮬레이션)에서 사전 학습하고 다운스트림 과제에서 미세 조정하며, Adroit, DexArt, Bi-DexHands 및 실제 이중 손 과제에서 평가한다.
Figure 1 : Conceptual illustration of action chunk tokenization. (a) The conventional temporal-centric perspective, which structures actions as a sequence of $T$ timesteps (chunk length), with each token having dimension $D_{a}$ (action dim). (b) Our proposed structural-centric perspective, which re
Figure 1 : Conceptual illustration of action chunk tokenization. (a) The conventional temporal-centric perspective, which structures actions as a sequence of $T$ timesteps (chunk length), with each token having dimension $D_{a}$ (action dim). (b) Our proposed structural-centric perspective, which re

실험 결과

연구 질문

  • RQ1구조적(Da × T) 액션 표현이 전통적 시간적(T × Da) 표현에 비해 고-DoF 섬세 손의 크로스-임버디먼트 전이를 개선할 수 있는가?
  • RQ2Embodied Joint Codebook이 다양한 매니퓰레이터 간의 기능적 전이를 가능하게 하면서 샘플 효율을 유지하는가?
  • RQ33D 포인트 클라우드 관측과 언어 조건화가 시뮬레이션-현실 간 차이를 넘나들며 정교한 조작 정책 학습에 효과적인가?
  • RQ4사전 학습 데이터 구성의 변화가 다운스트림의 섬세한 조작 성능과 몇 샷 적응에 어떤 영향을 미치는가?

주요 결과

  • SAT는 Adroit, DexArt, Bi-DexHands 벤치마크의 11개 과제에서 2D 및 3D 기준선보다 일관되게 우수하다.
  • SAT는 19.36M 매개변수로 최종 평균 성공률 0.71을 달성했으며, 많은 기준선보다 현저히 작다.
  • 임베딩 차원 d_feat를 통한 시간적 압축은 강건하며, 매우 높은 압축(예: d_feat = 16)에서만 성능이 저하된다.
  • 혼합 인간/로봇/시뮬레이션 데이터로의 사전 학습은 강력한 성능을 내며, 태스크에 따라 인간 단독 학습은 시뮬레이션 단독 데이터에 비해 성능이 떨어질 수 있어 코드북을 통한 효과적인 크로스-임버디먼트 전이를 강조한다.
  • 제거 혹은 시간 중심 액션으로의 복귀는 성능에 심각한 악영향을 주며, 관절 임베딩이 학습에 중요하다.
  • 현실 세계 실험에서 SAT는 HPT 및 3DDP보다 더 높은 성공률을 달성했고, 원격 조작 기반 데이터 수집으로 6개의 이중 손 과제에서 우수한 성과를 보인다.
Figure 2 : Our proposed model architecture. The policy takes a history of $T_{o}$ raw 3D point clouds $\mathcal{P}_{t}=(\mathbf{P}_{t-T_{o}+1},\dots,\mathbf{P}_{t})$ and a language instruction $L$ as input. Observation Tokenizer : Each point cloud $\mathbf{P}_{k}$ in the history is processed via Far
Figure 2 : Our proposed model architecture. The policy takes a history of $T_{o}$ raw 3D point clouds $\mathcal{P}_{t}=(\mathbf{P}_{t-T_{o}+1},\dots,\mathbf{P}_{t})$ and a language instruction $L$ as input. Observation Tokenizer : Each point cloud $\mathbf{P}_{k}$ in the history is processed via Far

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.