Skip to main content
QUICK REVIEW

[논문 리뷰] Skill-Aware Diffusion for Generalizable Robotic Manipulation

Aoshen Huang, Jiaming Chen|arXiv (Cornell University)|2026. 01. 16.
Robot Manipulation and Learning인용 수 0
한 줄 요약

SADiff는 기술 인지 인코딩 및 기술 제약 확산 모델을 도입하여 작업 일반화 가능한 객체 중심의 움직임 흐름을 학습하고, 2D 흐름을 3D 동작으로 매핑하는 기술 검색 변환을 통해 IsaacSkill 데이터셋에서 시뮬레이션-실제transfer를 검증했다.

ABSTRACT

Robust generalization in robotic manipulation is crucial for robots to adapt flexibly to diverse environments. Existing methods usually improve generalization by scaling data and networks, but model tasks independently and overlook skill-level information. Observing that tasks within the same skill share similar motion patterns, we propose Skill-Aware Diffusion (SADiff), which explicitly incorporates skill-level information to improve generalization. SADiff learns skill-specific representations through a skill-aware encoding module with learnable skill tokens, and conditions a skill-constrained diffusion model to generate object-centric motion flow. A skill-retrieval transformation strategy further exploits skill-specific trajectory priors to refine the mapping from 2D motion flow to executable 3D actions. Furthermore, we introduce IsaacSkill, a high-fidelity dataset containing fundamental robotic skills for comprehensive evaluation and sim-to-real transfer. Experiments in simulation and real-world settings show that SADiff achieves good performance and generalization across various manipulation tasks. Code, data, and videos are available at https://sites.google.com/view/sa-diff.

연구 동기 및 목표

  • 다양한 물체와 환경에 걸친 로봇 조작의 견고한 일반화를 동기화한다.
  • 동일한 기술 도메인 내의 작업들 간에 공유되는 움직임 패턴을 발견하기 위해 기술 수준 정보를 활용한다.
  • 기술 토큰에 조건화된 물체 중심의 움직임 흐름을 생성하는 기술 인지 확산 프레임워크를 개발한다.
  • 스킬 검색 변환을 통해 2D 움직임 흐름을 실행 가능한 3D 동작으로 정제한다.
  • 스킬 중심 평가 및 시뮬레이션-실제Transfer를 위한 고충실도 데이터셋(IsaacSkill)을 제공한다.]
  • method_skeleton_placeholder_model
  • method_skeleton_placeholder_model

제안 방법

  • 다중 모달 입력으로부터 기술 특화 정보를 포착하는 학습 가능한 기술 토큰을 포함한 기술 인지 인코딩 모듈을 도입한다.
  • 스킬 토큰에 조건화된 2D 물체 중심의 움직임 흐름을 생성하는 스킬 제약 확산 모델을 학습하고, 디노이징 손실과 함께 기술 특이 손실(분류 및 대비)로 학습한다.
  • 실행 가능한 2D-3D 매핑을 정제하기 위해 기술 priors를 검색하는 스킬 검색 변환 전략을 적용한다.
  • VAE 기반 흐름 인코딩/디코딩과 UNet 기반 노이즈 예측기를 활용하는 2단계 학습 파이프라인을 사용하고, 다중 모달 융합을 위해 CLIP 특징을 활용한다.
  • Qwen-VL로 대상 물체를 탐지하고 TAPIR으로 핵심 포인트를 추적하여 시演에서 움직임 흐름을 추출한다.

실험 결과

연구 질문

  • RQ1스킬 인지 표현이 같은 스킬 범주 내의 보이지 않는 조작 작업에 대한 일반화를 향상시킬 수 있는가?
  • RQ2스킬 토큰에 기반한 확산 흐름 생성 조건화가 작업 비특이적 접근법보다 더 강인하고 정확한 움직임 흐름을 제공하는가?
  • RQ3스킬 검색 변환을 통한 기술 특화 궤적 priors를 도입하면 2D-3D 동작 매핑 및 노이즈에 대한 강건성이 향상되는가?
  • RQ4IsaacSkill 데이터셋을 사용한 시뮬레이션에서 현실 세계로의 전이(sim-to-real)가 proposed 프레임워크에서 얼마나 잘 이루어지는가?

주요 결과

  • SADiff는 시뮬레이션과 실제 환경에서 다양한 조작 작업과 환경에 대해 좋은 일반화를 보인다.
  • IsaacSkill은 기술 중심 평가를 가능하게 하고 시뮬레이션-실제 전이를 지원한다.
  • 스킬 검색 변환은 2D 모션 흐름을 3D 동작으로 매핑할 때 정밀도와 일관성을 향상시킨다.
  • 디노이징 손실, 기술 분류 손실, 기술 대비 손실의 결합은 의도된 기술과 일치하는 강인한 흐름 생성을 이끈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.