[論文レビュー] Social-R1: Towards Human-like Social Reasoning in LLMs
Social-R1はToMBench-Hardと軌跡ベースの強化学習フレームワークを導入し、LLMの推論を人間の社会認知と整合させ、8つの社会推論ベンチマークで小型モデルが大規模モデルと同等になることを可能にします。
While large language models demonstrate remarkable capabilities across numerous domains, social intelligence - the capacity to perceive social cues, infer mental states, and generate appropriate responses - remains a critical challenge, particularly for enabling effective human-AI collaboration and developing AI that truly serves human needs. Current models often rely on superficial patterns rather than genuine social reasoning. We argue that cultivating human-like social intelligence requires training with challenging cases that resist shortcut solutions. To this end, we introduce ToMBench-Hard, an adversarial benchmark designed to provide hard training examples for social reasoning. Building on this, we propose Social-R1, a reinforcement learning framework that aligns model reasoning with human cognition through multi-dimensional rewards. Unlike outcome-based RL, Social-R1 supervises the entire reasoning process, enforcing structural alignment, logical integrity, and information density. Results show that our approach enables a 4B parameter model to surpass much larger counterparts and generalize robustly across eight diverse benchmarks. These findings demonstrate that challenging training cases with trajectory-level alignment offer a path toward efficient and reliable social intelligence.
研究の動機と目的
- LLMsに現れやすい表面的パターンを超えた genuine social intelligence の必要性を動機付ける。
- ToMBench-Hardを敵対的ベンチマークとして導入し、社会推論におけるショートカット学習を露呈させる。
- Social-R1を提案し、人間の認知原理に導かれた軌跡レベルの強化学習フレームワークを提供する。
- 軸整列の推論軌跡がパラメータ効率的な社会知性を可能にすることを示す。
- 構造化された推論と内容の整合性の重要性を検証するアブレーションと分析を提供する。
提案手法
- ATOMSベースの六因子社会知性と敵対的摂動を用いてToMBench-Hardを作成する。
- Social Information Processing (SIP) に基づく多次元報酬:R_struct, R_content, R_len を開発する。
- R_fmt 報酬を用いて事前定義の推論形式と決定論的な軌跡抽出を強制する。
- バックボーン(Qwen3-4B, Qwen3-8B)上で Group Relative Policy Optimization による訓練を行う。
- R_content を訓練するため silver-standard ステージごとの推論を含む SocialPairs-20K を構築する。
- ToMBench, ToMBench-Hard, SocialIQA, EmoBench, MotiveBench, SimpleToM, Hi-ToM, TactfulToM を含む8つの社会ベンチマークで評価する。

実験結果
リサーチクエスチョン
- RQ1敵対的な ToMBench-Hard データは、LLMの genuine social reasoning と shortcut 学習を区別できるか?
- RQ2軌跡レベルの監督は結果ベースの報酬を超えて社会推論を改善できるか?
- RQ3構造化された進行、内容の整合性、効率報酬は推論の質と頑健性にどう影響するか?
- RQ4軌跡整合訓練により小型モデルが大規模モデルと同等の性能を達成できるか?
- RQ5各報酬成分がドメイン内外の社会推論ベンチマークに与える影響は?
主な発見
- ToMBench-Hardは人間の専門家と最先端モデルの間に大きな性能ギャップを示し、現在のLLMにショートカット学習を露呈する。
- Social-R1 は8つのベンチマークで社会推論を向上させ、いくつかのケースで小型モデルが大規模モデルと同等以上の性能を達成する。
- アブレーションにより R_len, R_struct, R_content のそれぞれが性能に寄与することが示され、これらを除くと精度と推論品質が低下する。
- Social-R1-4B はドメイン内指標で70B規模モデルを上回ることがあり、いくつかのドメイン外タスクでも大規模モデルに匹敵または超える。
- 分析は Social-R1 がオプションレベルのショートカットへの依存を低減し、ステージ一貫した SIP 軌跡を高い情報密度で生み出すことを示す。
- ノイズ要因を含む頑健性テストは、推論が簡潔で選択的であり、不要な処理によって単に長くなっているのではないことを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。