[論文レビュー] Do Reasoning Models Enhance Embedding Models?
RLVR-tuned reasoning model backbones do not consistently improve embedding model performance compared to base backbones when trained with identical contrastive recipes; HRSA reveals global geometry preservation with local geometry reorganization, leading to manifold realignment.
State-of-the-art embedding models are increasingly derived from decoder-only Large Language Model (LLM) backbones adapted via contrastive learning. Given the emergence of reasoning models trained via Reinforcement Learning with Verifiable Rewards (RLVR), a natural question arises: do enhanced reasoning translate to superior semantic representations when these models serve as embedding initializations? Contrary to expectation, our evaluation on MTEB and BRIGHT reveals a **null effect**: embedding models initialized from RLVR-tuned backbones yield no consistent performance advantage over their base counterparts when subjected to identical training recipes. To unpack this paradox, we introduce **H**ierarchical **R**epresentation **S**imilarity **A**nalysis (HRSA), a framework that decomposes similarity across representation, geometry, and function levels. HRSA reveals that while RLVR induces irreversible latent manifold's local geometry reorganization and reversible coordinate basis drift, it preserves the global manifold geometry and linear readout. Consequently, subsequent contrastive learning drives strong alignment between base- and reasoning-initialized models, a phenomenon we term **Manifold Realignment**. Empirically, our findings suggest that unlike Supervised Fine-Tuning (SFT), RLVR optimizes trajectories within an existing semantic landscape rather than fundamentally restructuring the landscape itself.
研究の動機と目的
- RLVR-optimized reasoning backbones が、同一のトレーニングレシピ下でベースのバックボーンと比較してテキスト埋め込み品質を改善するかを評価する。
- RLVR によって埋め込みバックボーンに生じる表現の変化を定量化・理解する。
- RLVR と supervised fine-tuning が表現に異なる影響を与える理由を解釈するためのフレームワークを提供する。
提案手法
- 同一の InfoNCE コントラスト学習目的を用いて、ベースと RLVR-tuned のバックボーンを埋め込みモデルとして対になるよう訓練する。
- 多様なベンチマークで評価する:MTEB Multilingual v2、MTEB Code v1、BRIGHT。
- 表現・幾何・機能のレベルで類似性を分解する Hierarchical Representation Similarity Analysis (HRSA) を開発する。
- 表現レベルを分析するために次元ごとの相関と Orthogonal Procrustes を使用する。幾何レベルには Linear CKA と k-NN のオーバーラップを、機能レベルには Cross-Model Linear Probes を使用する。
- SFT、RLVR、ポスト対比埋め込み空間を比較してマニフォールドのリアラインメントを特定する。

実験結果
リサーチクエスチョン
- RQ1RLVR-tuning が同一の学習設定下でベースのバックボーンより統計的に有意な埋め込み品質の改善をもたらすか。
- RQ2HRSA によって暴露される潜在的な表現・幾何・機能の違いを、RLVR と SFT がどのように異なる影響を与えるか。
- RQ3対比学習が RLVR によるドリフトを上書きして、ベース初期化と推論初期化の埋め込みモデルを整列させることができるか。
- RQ4理由づけが必要な埋め込み改善の欠如の背後にあるメカニズムは何か。
主な発見
- RLVR-tuned バックボーンで初期化された埋め込みモデルは、MTEB Multilingual v2、MTEB Code v1、BRIGHT の各指標でベースと同等の性能であり、優位性は見られない。
- HRSA は RLVR がグローバルなマニフォールド幾何学とリニアな読み出しを維持する一方、局所的な幾何を不可逆に再編成し、長時間の訓練で座標基底のドリフトを引き起こすことを示す。
- 対比学習はベース初期化と RLVR 初期化の埋め込みモデルを再配置させ、グローバル構造は保存されるが局所近傍が異なるマニフォールドリアラインメントを示す。
- RLVR は安定した意味ランドスケープ内での軌道最適化として機能し、監視付きファインチューニングがランドスケープを再構成するのとは異なる。
- クロスモデルのリニアプローブは SFT より RLVR の方が転移が高く、機能的方向性がモデル間で互換性を保つことを示唆する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。