QUICK REVIEW

[논문 리뷰] Task-oriented grasping for dexterous robots using postural synergies and reinforcement learning

Dimitrios Dimou, José Santos-Victor|arXiv (Cornell University)|2026. 02. 24.

Robot Manipulation and Learning인용 수 0

한 줄 요약

이 논문은 인간의 파지에서 학습된 자세 시너지 모델을 통한 포지션 기반 강화 학습으로 태스크 지향 그리핑을 수행하는 방법을 제시한다. 이를 통해 단일 정책으로 포스트 그랩 의도에 따라 여러 물체를 파지하고 성공률을 향상시킨다.

ABSTRACT

In this paper, we address the problem of task-oriented grasping for humanoid robots, emphasizing the need to align with human social norms and task-specific objectives. Existing methods, employ a variety of open-loop and closed-loop approaches but lack an end-to-end solution that can grasp several objects while taking into account the downstream task's constraints. Our proposed approach employs reinforcement learning to enhance task-oriented grasping, prioritizing the post-grasp intention of the agent. We extract human grasp preferences from the ContactPose dataset, and train a hand synergy model based on the Variational Autoencoder (VAE) to imitate the participant's grasping actions. Based on this data, we train an agent able to grasp multiple objects while taking into account distinct post-grasp intentions that are task-specific. By combining data-driven insights from human grasping behavior with learning by exploration provided by reinforcement learning, we can develop humanoid robots capable of context-aware manipulation actions, facilitating collaboration in human-centered environments.

연구 동기 및 목표

인간 사회적 규범 및 하위 작업 제약과 일치하는 휴머노이드 그리핑을 동기화한다.
시너지 기반 표현을 통해 로봇 손 자세에 인간의 그립 데이터를 활용한다.
강화 학습을 사용하여 객체 및 포스트-그랩 의도에 일반화되는 단일 정책을 학습한다.
기초 방법 대비 향상된 그립 성공 및 인간과 유사한 그립 구성 비교를 보인다.

제안 방법

ContactPose 데이터셋의 인간 그립을 고정된 운동학 매핑을 통해 로봇 손으로 재타겟한다.
재타겟된 그립으로부터 저차원 손 시너지 공간을 학습하기 위해 Variational Autoencoder(VAE)를 학습한다.
포스트-그랩 의도에 조건화된 손 시너지 잠재 변수와 팔 말단 효과기를 출력하는 단일 정책을 PPO로 학습한다.
VAE를 통해 시너지 잠재 변수를 손가락 관절 값으로 디코딩하여 섬세한 그립을 구현한다.
목표 그립 위치에 대한 근접성, 성공적 리프팅, 회전 정렬을 결합하는 보상 함수를 사용하여 학습을 유도한다.
직접 관절 공간 행동을 사용하는 정책 및 PCA 기반 시너지 공간과의 비교를 평가한다.

Figure 3: Proposed agent structure for task-oriented grasping.

실험 결과

연구 질문

RQ1단일 정책이 서로 다른 포스트-그랩 의도에 따라 여러 물체를 그립하도록 학습할 수 있는가?
RQ2VAE 기반 시너지 공간이 직접 관절 공간 제어나 PCA 기반 시너지보다 더 인간적이고 작업에 적합한 그립을 도출하는가?
RQ3포스트-그랩 의도가 수행 중 그립 대상 선택 및 최종 손-물체 위치에 어떤 영향을 미치는가?

주요 결과

방법	평균 그립 성공률
관절 동작 공간	66%
PCA 동작 공간	71%
VAE 동작 공간(저희)	83%

VAE 기반 시너지 공간이 실험된 방법들 중 가장 높은 그립 성공률을 보인다(83%).
관절-동작 공간 정책은 학습이 더 빠르고 중간 보상이 더 높지만 최종 성공은 VAE 기반 정책보다 낮다.
PCA 기반 시너지 공간은 71%의 성공률로 VAE 접근법에 비해 저하를 보인다.
정성적으로 VAE 시너지 공간으로 생성된 그립은 직접 관절 공간 제어로부터의 그립과 달리 인간에 가까운 파워 그립과 유사하다.
객체 범주를 관찰로 사용하는 것은 평균 성공률을 감소시키지 않지만 포스트-그랩 의도에 맞춘 올바른 그립 대상 설정에 중요하다.
폐색 실험에서 잠재 차원을 두 개 이하로 축소하면 그립 성공률이 크게 악화되고, 2–5 차원은 비교적 비슷한 성능을 보인다.

Figure 4: Rewards for training policies with 1) full joint control, 2) PCA synergy space, and 3) VAE synergy space. The thick line is the average among the two seeds and the shaded part denotes the standard deviation.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.