Skip to main content
QUICK REVIEW

[論文レビュー] Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Ruchira Dhar, Qiwei Peng|arXiv (Cornell University)|Feb 14, 2026
Topic Modeling被引用数 0
ひとこと要約

要約: 本論文は、LLMにおける形容詞-名詞の構成性を、機能的タスクベースの評価と表現的分析とを対比させ、内部の構成信号は強い一方で、モデル変種間でタスク成功に翻訳される程度が一貫しないことを示す。

ABSTRACT

Compositionality is considered central to language abilities. As performant language systems, how do large language models (LLMs) do on compositional tasks? We evaluate adjective-noun compositionality in LLMs using two complementary setups: prompt-based functional assessment and a representational analysis of internal model states. Our results reveal a striking divergence between task performance and internal states. While LLMs reliably develop compositional representations, they fail to translate consistently into functional task success across model variants. Consequently, we highlight the importance of contrastive evaluation for obtaining a more complete understanding of model capabilities.

研究の動機と目的

  • 統一された機能的および表現的フレームワークを用いて、LLMにおける形容詞–名詞の構成性を調査する。
  • スケーリングとインストラクション・チューニングを横断して、モデルが学習した構成知識がタスク成功へ翻訳されるかを評価する。
  • 内部表現がモデル変種を超えて構成構造をどのようにエンコードしているかを評価する。
  • 対照的評価の必要性を強調し、モデル能力をより完全に理解するための検討を促す。

提案手法

  • 3つのANタスク(Substitutivity, Systematicity, Overgeneralization)に対するプロンプトベースの機能評価。
  • 内部状態の層別プロービングによる表現分析(AddOne/PLANEには線形分類器を、COMPCOMBにはコサイン類似度を使用)。
  • 4つのモデルファミリー(LLaMA-2, CodeLlama, Qwen2.5-Coder, Gemma2)を、ベース/インストラクションチューニング/大規模バリアントで評価。
  • 構成タスク性能に対するスケーリングとインストラクションチューニング効果の分析。
  • 機能的パフォーマンスの傾向と表現の中間層構成信号との比較。
Figure 1: The average performance across different model category (Base, Instruction Tuning, and Large model size) on three tasks. We report the weighted F1 score on AddOne and PLANE, and Accuracy on COMPCOMB.
Figure 1: The average performance across different model category (Base, Instruction Tuning, and Large model size) on three tasks. We report the weighted F1 score on AddOne and PLANE, and Accuracy on COMPCOMB.

実験結果

リサーチクエスチョン

  • RQ1機能的タスク評価と表現分析は、LLMにおける AN 構成性を評価する際に収束するか、あるいは乖離するか。
  • RQ2内部状態には構成表象が一貫してエンコードされているか。
  • RQ3モデルのスケーリングとインストラクション・チューニングは、構成タスクの性能と内部表現にどのように影響するか。
  • RQ4内部の構成信号と外部タスク結果との関係はどうか。

主な発見

  • AN構成性の表現信号は、モデルと層を超えて一貫して存在する。
  • AN構成性のタスク性能は異質で、スケーリングやインストラクション・チューニングによって一様に改善しない。
  • 表現パターンは中間層でピーク化し、モデル変種をまたいで安定している。
  • 機能的タスクの成功と内部表現信号との間には体系的な乖離があり、対照的評価の必要性を強調する。
  • 機能的および表現的分析を組み合わせた総合的な評価は、構成能力をよりニュアンスのある形で捉える。
Figure 2: Layer-wise results (weighted F1 score) on AddOne dataset.
Figure 2: Layer-wise results (weighted F1 score) on AddOne dataset.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。