QUICK REVIEW

[論文レビュー] Comparing Natural and Synthetic Structured Data: A Study of the Passive Verb Alternation in French and Italian

Giuseppe Samo, Paola Merlo|arXiv (Cornell University)|Mar 26, 2026

Natural Language Processing Techniques被引用数 0

ひとこと要約

本論文は、ブラックバード言語マトリックス（BLMs）を用いたフランス語・イタリア語の受動態動詞交替の評価において、自然データと合成データを比較し、自然データの方がテストセット間での一般化性能が高いことを示す。

ABSTRACT

This study compares the impact of natural and synthetic data on training and evaluating large language models (LLMs), using the case of passive verb alternation in French and Italian. We use Blackbird Language Matrices (BLMs), structured datasets designed to probe linguistic knowledge of underlying patterns across sentence sets. We compare structured templates instantiated with natural sentences extracted from Universal Dependencies to structured templates of synthetic sentences. Experiments show that while models achieve ceiling performance when trained and tested on synthetic datasets, they do not reliably generalize to natural sentences. In contrast, models trained on natural data exhibit robust performance across both natural and synthetic test suites, demonstrating their superior ability to capture abstract linguistic patterns. These results corroborate the value of natural data and of structured set ups in linguistic evaluation for probing LLMs' syntactic and semantic knowledge.

研究の動機と目的

LLMsにおける言語知識を評価する際の自然データと合成データの議論を動機づける。
BLM枠組みにおいて自然データと合成データを系統的に比較する。
ロマンス語の受動交替における跨言語一般化とモデル表現を評価する。

提案手法

Universal Dependencies (UD)からの自然文で実装されたBLMデータセットを構築し、会話型AIによって生成された合成文と組み合わせる。
単言語・多言語ELECTRAモデルの埋め込み上でFFNNプローブをSynSyn、NatNat、SynNat、NatSynの設定で訓練・評価する。
最大マージン損失とコサイン類似度ベースの回答選択を用いて抽象的な言語知識を探る。
学習条件の違いが声・引数数・文タイプのどれを主要な誤りとして現れるかを分析する。

実験結果

リサーチクエスチョン

RQ1BLMフレームワークで自然データと合成データの訓練が自然データと合成データのテストセットへの一般化能力に影響するか？
RQ2フランス語とイタリア語の受動交替規則の抽象化が、合成データに比べて自然データでより良くサポートされるか？
RQ3単言語埋め込みと多言語埋め込みは受動交替の学習と一般化においてどう比較されるか？
RQ4異なる訓練条件下でどの誤り（声、引数の数、文タイプ）が優勢か？
RQ5LLMsの統語・意味知識を探る際にUDベースの構造化データが果たす役割は何か？

主な発見

全合成データは自分のテストセット内ではほぼ天井に近い性能を達成するが、自然データには一般化できない。
自然データで訓練したモデルは条件を跨いだ一般化がより堅牢で、自然データと合成データの両方のテストスイートで良好な性能を示す。
多言語埋め込みはNatSynにおいてフランス語で天井性能を達成でき、強い跨言語一般化を示す。
誤り分析では訓練条件に応じて主要な誤りタイプが異なり、合成データから学習すると受動構造が誤りとして現れやすい設定もある。
自然データは表面的なパターンを超えた核心タスク要素の抽象化を促進する多様性を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。