Skip to main content
QUICK REVIEW

[論文レビュー] OmniSapiens: A Foundation Model for Social Behavior Processing via Heterogeneity-Aware Relative Policy Optimization

Keane Ong, Sabri Boughorbel|arXiv (Cornell University)|Feb 11, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

HARPO は異種の行動タスク間で学習をバランスさせ、OmniSapiens-7B 2.0 を訓練します。10 の社会的行動タスクで最先端のマルチタスク性能を達成し、ゼロショット一般化も強力です。

ABSTRACT

To develop socially intelligent AI, existing approaches typically model human behavioral dimensions (e.g., affective, cognitive, or social attributes) in isolation. Although useful, task-specific modeling often increases training costs and limits generalization across behavioral settings. Recent reasoning RL methods facilitate training a single unified model across multiple behavioral tasks, but do not explicitly address learning across different heterogeneous behavioral data. To address this gap, we introduce Heterogeneity-Aware Relative Policy Optimization (HARPO), an RL method that balances leaning across heterogeneous tasks and samples. This is achieved by modulating advantages to ensure that no single task or sample carries disproportionate influence during policy optimization. Using HARPO, we develop and release Omnisapiens-7B 2.0, a foundation model for social behavior processing. Relative to existing behavioral foundation models, Omnisapiens-7B 2.0 achieves the strongest performance across behavioral tasks, with gains of up to +16.85% and +9.37% on multitask and held-out settings respectively, while producing more explicit and robust reasoning traces. We also validate HARPO against recent RL methods, where it achieves the most consistently strong performance across behavioral tasks.

研究の動機と目的

  • 統合された人間の行動次元のモデリングを、タスクごとのサイロを超えて促進する。
  • 異種の行動データを学習する際の不均衡な学習信号に対処する。
  • マルチタスクの更新を平衡化する学習寄与を制御する強化学習手法を開発する。

提案手法

  • HARPO を導入する:LLMs の RL における学習をタスクとサンプル間でバランスさせるオンポリシーのアドバantages modulation 機構。
  • サンプルレベルおよびタスクレベルのアドバantage の大きさから寄与信号を計算する(式 6–7)。
  • HARPO 処理済みアドバantages に構造化された、幾何学的に中心化した modulation 要因(式 8–10)を適用する。
  • トレーニングを安定化させるため、慣性的に滑らかな modulation 要因と寄与信号(式 11)を用いる。
  • HARPO を用いて base モデル Qwen2.5-Omni-7B で Human Behavior Atlas の 10 の行動タスクを OmniSapiens-7B 2.0 へ訓練する。
  • GRPO、RLOO、RE++、GPG、その他のベースラインと比較して、マルチタスクおよび保持設定で評価する。
Figure 1: Sample count versus token reasoning length. Green indicates correct predictions, red indicates incorrect. HARPO induces more varied reasoning lengths for the respective tasks of (Top: HUM, Bottom: SAR), compared to GRPO.
Figure 1: Sample count versus token reasoning length. Green indicates correct predictions, red indicates incorrect. HARPO induces more varied reasoning lengths for the respective tasks of (Top: HUM, Bottom: SAR), compared to GRPO.

実験結果

リサーチクエスチョン

  • RQ1HARPO は異種の行動タスク間の学習をバランスさせてマルチタスク性能を向上させるか?
  • RQ2HARPO は従来の推論RL手法と比較して保持されたデータセットやゼロショットの一般化を改善するか?
  • RQ3サンプルレベル vs. タスクレベルの modulation と慣性制御が学習の安定性と性能に与える影響は?

主な発見

ModelEMOHUMINTPTSDANXDEPSENSARSOCNVCAvg. Rank
Gemma-3-4B55.0359.7022.7049.9060.1046.2573.8352.9019.102.305.90
Qwen 2.5-Omni-7B58.2554.3025.4076.0079.3071.3567.2065.6025.406.904.20
Qwen 2.5-VL-7B54.0858.3024.9075.5063.1063.8050.5051.1023.109.805.60
Qwen 3-VL-8B-Instruct57.6666.7638.0092.7042.2951.6269.7063.6724.9413.954.00
OmniSapiens-7B RL57.2863.9048.6096.8091.9077.1539.6064.7030.4013.303.00
HumanOmniV2-7B59.7063.8026.3082.4052.7065.4074.2039.5028.209.304.00
OmniSapiens-7B 2.0 (ours)76.5569.8550.5298.3991.9878.8777.6170.6425.4014.541.20
RLOO (baseline)75.5867.8651.7398.3990.6877.5776.8662.5829.5416.282.50
RE++ (baseline)75.9260.265.0198.3993.1173.8756.5250.2112.644.073.90
GPG (baseline)77.7069.2854.2198.3990.4078.4075.7745.9627.9312.792.50
GRPO (baseline)76.4527.5649.9098.3990.4077.6477.5153.5823.3011.003.30
HARPO (ours)76.5569.8550.5298.3991.9878.8777.6170.6425.4014.541.70
  • OmniSapiens-7B 2.0 は 10 の行動タスク全体で最も強力な総合性能を発揮し、マルチタスク向上最大で +16.85%、保持データでの向上は +9.37%。
  • HARPO 訓練モデルは GRPO のような批評家なし手法よりもタスク間で一貫した性能を示し、マルチタスク学習のバランスを示唆する。
  • HARPO のゼロショット評価は AUT および SER で一般化が改善され、例として SER のゼロショット 72.11%(HumanOmniV2-7B の 62.74% に対して)。
  • HARPO の推論跡はより明確で多様性があり、HUM および SAR のような実践的タスクでの正当化が GRPO より豊富。
  • アブレーション研究は、構造化モジュレーションと慣性制御が性能と安定性にとって重要であることを確認した。
Figure 2: Example of reasoning traces on pragmatic tasks humour detection (HUM) (left) and sarcasm detection (SAR) (right). HARPO is observed to reflect more explicit and varied reasoning compared to GRPO, which defaults to minimal/ no reasoning.
Figure 2: Example of reasoning traces on pragmatic tasks humour detection (HUM) (left) and sarcasm detection (SAR) (right). HARPO is observed to reflect more explicit and varied reasoning compared to GRPO, which defaults to minimal/ no reasoning.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。