QUICK REVIEW

[論文レビュー] How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

Toru Lin, Shuying Deng|arXiv (Cornell University)|Mar 3, 2026

Robot Manipulation and Learning被引用数 0

ひとこと要約

この論文は、まず Demonstrations から力覚を意識した剥がしポリシーを学習し、次に学習済みの人間嗜好報酬によってタスク品質に整合するように微調整する2段階のフレームワークを提案します。実機ロボットの包丁を用いた剥離 tasks で、複数の生産物に対して高い成功率とゼロショット一般化を実現します。

ABSTRACT

Many essential manipulation tasks - such as food preparation, surgery, and craftsmanship - remain intractable for autonomous robots. These tasks are characterized not only by contact-rich, force-sensitive dynamics, but also by their "implicit" success criteria: unlike pick-and-place, task quality in these domains is continuous and subjective (e.g. how well a potato is peeled), making quantitative evaluation and reward engineering difficult. We present a learning framework for such tasks, using peeling with a knife as a representative example. Our approach follows a two-stage pipeline: first, we learn a robust initial policy via force-aware data collection and imitation learning, enabling generalization across object variations; second, we refine the policy through preference-based finetuning using a learned reward model that combines quantitative task metrics with qualitative human feedback, aligning policy behavior with human notions of task quality. Using only 50-200 peeling trajectories, our system achieves over 90% average success rates on challenging produce including cucumbers, apples, and potatoes, with performance improving by up to 40% through preference-based finetuning. Remarkably, policies trained on a single produce category exhibit strong zero-shot generalization to unseen in-category instances and to out-of-distribution produce from different categories while maintaining over 90% success rates.

研究の動機と目的

データの不足がもたらす接触リッチな操作課題に対して、効率的なデータ収集と一般化可能なポリシー学習で対応する。
学習済み報酬モデルを通じてポリシーの動作を人間のタスク品質観に合わせるという品質課題に取り組む。
複数の生産物タイプに対してデータ効率の良い一般化と実世界での実現性を包丁ベースの剥離で示す。
定量的な人間のフィードバックと定性的なフィードバックを報酬へ統合し、細粒な操作を実現する。

提案手法

2段階のパイプライン：フォース意識型模倣学習で堅牢なポリシーを初期化し、学習済み報酬モデルによる嗜好ベース微調整を実施。
定量的な皮むき厚さ指標と定性的な人間の嗜好を組み合わせたハイブリッド報酬でポリシーを洗練。
報酬モデルを条件とする残差ポリシー：学習済み報酬予測子が frozen base policy の上に残差動作補正を通知。
エンドツーエンドの知覚スタック（視覚、自 proprioception、力）とインピーダンス制御ロボット構成を用いた拡散ポリシーでポリシー訓練。
データ収集はテレ操作（SpaceMouse）で、50–200のデモを収集し、RGB-D分割と力データで処理。

実験結果

リサーチクエスチョン

RQ1実機設定で人間の嗜好と一致するような微粒な力覚-sensitive 操作タスクを学習するにはどうすればよいか。
RQ22段階の学習フレームワーク（初期模倣学習＋嗜好ベース微調整）で高い成功率と未見物体・分布へのゼロショット一般化を実現できるか。
RQ3包丁を用いた皮むきのポリシー性能における定量的報酬と定性的報酬の組み合わせが与える影響は。
RQ4限られた実世界データから安定かつ一般化可能な剥離ポリシーを得るためのデータ効率とセンシング構成は何か。

主な発見

seen produce（きゅうり、りんご、じゃがいも）で50–200軌跡を用い、平均成功率90%超を達成。
嗜好ベースの微調整により性能が最大40%向上。
単一生産物カテゴリーで訓練したポリシーは、同一カテゴリ内の未見インスタンスおよび分布外生産物に対しても強力なゼロショット一般化を示し、90%超の成功を維持。
2カメの手首セットアップとグレースケール視覚と力データの組み合わせがポリシー性能を向上させ、グレースケールRGBと力トルクデータが一般化に重要。
SpaceMouseを用いたテレ操作で、プランナーや運動感覚に基づく方法と比較して軌跡の品質と効率が向上。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。