Skip to main content
QUICK REVIEW

[論文レビュー] Blackbird Language Matrices: A Framework to Investigate the Linguistic Competence of Language Models

Paola Merlo, Chunyang Jiang|arXiv (Cornell University)|Feb 24, 2026
Explainable Artificial Intelligence (XAI)被引用数 0
ひとこと要約

tldr: Blackbird Language Matrices (BLMs) を紹介。言語モデルの言語能力と体系性を probing するための、言語学的に根拠づけられた多層の多肢選択課題の構造化された多言語セット。BLMs を用いて representations、generalisation、explainability を LLMs で検証する方法を示す。

ABSTRACT

This article describes a novel language task, the Blackbird Language Matrices (BLM) task, inspired by intelligence tests, and illustrates the BLM datasets, their construction and benchmarking, and targeted experiments on chunking and systematicity. BLMs are multiple-choice problems, structured at multiple levels: within each sentence, across the input sequence, within each candidate answer. Because of their rich structure, these curated, but naturalistic datasets are key to answer some core questions about current large language models abilities: do LLMs detect linguistic objects and their properties? Do they detect and use systematic patterns across sentences? Are they more prone to linguistic or reasoning errors, and how do these interact? We show that BLMs, while challenging, can be solved at good levels of performance, in more than one language, with simple baseline models or, at better performance levels, with more tailored models. We show that their representations contain the grammatical objects and attributes relevant to solve a linguistic task. We also show that these solutions are reached by detecting systematic patterns across sentences. The paper supports the point of view that curated, structured datasets support multi-faceted investigations of properties of language and large language models. Because they present a curated, articulated structure, because they comprise both learning contexts and expected answers, and because they are partly built by hand, BLMs fall in the category of datasets that can support explainability investigations, and be useful to ask why large language models behave the way they do.

研究の動機と目的

  • LLMs における流暢さや事実性だけでなく、言語的抽象化と一般化を probe する課題の必要性を動機づける。
  • BLMs を Raven’s Progressive Matrices に触発された厳選・構造化・多層の言語的パズルとして提示する。
  • BLMs が言語的対象、体系的パターン、内部表現にエンコードされる情報の分析をどのように支援するかを示す。
  • データ生成のワークフローと、BLMs の複数言語・現象への適用性を実証する。

提案手法

  • BLM タスクと形式的枠組みを、言語現象 LP、文脈 C、解答集合 A、拡張 Aug などの概念で定義する。
  • 複数の BLM テンプレート(Agr、CoS、OD、Spray/Load、Roll)と、それらの英語、フランス語、イタリア語、ルーマニア語、トルコ語、ヘブライ語への言語特有の適用を記述する。
  • 種文、手動検証、制御された拡張を用いた半自動データ構築により、文脈と誤答選択肢を生成する。
  • 目的を絞った実験とデコーダ由来の文埋め込みを通じて、対象の導出、構造依存、組み合わせ性を調査する。
  • LLMs が構成要素、意味役割、長距離依存をエンコードしているかを評価するために、内部表現と埋め込み空間を検討する。
Figure 1: Example of a Raven’s Progressive Matrix (RPM) from visual intelligence tests. This instance is generated with two generative rules: (i) the red dot moves one place clockwise when traversing the matrix left to right; (ii) the blue square moves one place anticlockwise when traversing the mat
Figure 1: Example of a Raven’s Progressive Matrix (RPM) from visual intelligence tests. This instance is generated with two generative rules: (i) the red dot moves one place clockwise when traversing the matrix left to right; (ii) the blue square moves one place anticlockwise when traversing the mat

実験結果

リサーチクエスチョン

  • RQ1LLMs は tokens を超えた言語的対象とその性質を検出できるか。
  • RQ2LLMs は文と言語間で体系的なパターンを検出・活用できるか。
  • RQ3BLM 解法における言語と推論の誤りはどのように相互作用するか。
  • RQ4LLMs の内部表現は chunk、構成要素、意味役割について何を示しているか。
  • RQ5体系性を支える抽象概念は言語と課題を跨いで成り立つか。

主な発見

  • BLMs は、良好な性能レベルのモデルでも、単純なベースラインやより特化したモデルを用いて、複数言語で解くことができる。
  • BLM の表現には、課題解決に関連する文法的対象と属性が含まれている。
  • 解決策は表面的な手掛かりだけでなく、文全体を横断する体系的パターンを検出することから生じる。
  • BLMs は学習環境、期待解答、手作り刺激を構造化することで explainability の調査を支援する。
  • このフレームワークは、対象の導出、構造依存、組み合わせ一般化を含む多面的な言語モデルの探査を可能にする。
Figure 13: Data flow for the automatic creation of the BLM structured datasets.
Figure 13: Data flow for the automatic creation of the BLM structured datasets.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。