[论文解读] Comparing Natural and Synthetic Structured Data: A Study of the Passive Verb Alternation in French and Italian
该论文比较自然数据与合成数据在使用 Blackbird Language Matrices (BLMs) 评估法语和意大利语中的被动语态变换的语言模型在被动动词变形上的表现,显示自然数据在跨测试集的泛化能力更好。
This study compares the impact of natural and synthetic data on training and evaluating large language models (LLMs), using the case of passive verb alternation in French and Italian. We use Blackbird Language Matrices (BLMs), structured datasets designed to probe linguistic knowledge of underlying patterns across sentence sets. We compare structured templates instantiated with natural sentences extracted from Universal Dependencies to structured templates of synthetic sentences. Experiments show that while models achieve ceiling performance when trained and tested on synthetic datasets, they do not reliably generalize to natural sentences. In contrast, models trained on natural data exhibit robust performance across both natural and synthetic test suites, demonstrating their superior ability to capture abstract linguistic patterns. These results corroborate the value of natural data and of structured set ups in linguistic evaluation for probing LLMs' syntactic and semantic knowledge.
研究动机与目标
- 为在大型语言模型(LLMs)中评估语言知识的自然数据与合成数据之争提供动机。
- 在一个结构化的 BLM 框架内系统性比较自然数据与合成数据。
- 评估法语与罗曼语族语言中的被动变换的跨语言泛化与模型表示。
提出的方法
- 使用来自通用依存关系(UD)的自然句子构建以 BLM 为实例的数据集,以及通过对话式 AI 生成的合成句子。
- 在单语言与多语言 ELECTRA 模型的嵌入上,跨 SynSyn、NatNat、SynNat、NatSyn 设置训练并评估 FFNN 探针。
- 使用最大边际损失和基于余弦相似度的答案选择来探测抽象语言知识。
- 分析错误类型以理解模型是在学习语态、论元数目还是句子类型。
实验结果
研究问题
- RQ1在 BLM 框架中,使用自然数据与合成数据训练是否会影响模型对自然测试集和合成测试集的泛化能力?
- RQ2与合成数据相比,自然数据是否更能促进法语和意大利语被动变换规则的抽象?
- RQ3单语言与多语言嵌入在学习与泛化被动变换方面有何差异?
- RQ4在不同训练条件下,哪类错误(语态、论元数量、句子类型)更占主导?
- RQ5UD 基于结构化数据在探究 LLM 的句法与语义知识中扮演何种角色?
主要发现
- 完全合成数据在其自身测试集内几乎达到天花板水平,但难以泛化到自然数据。
- 在自然数据上训练的模型在跨条件泛化方面表现更健壮,在自然与合成测试套件上都表现良好。
- 多语言嵌入在法语的 NatSyn 设置中可达到天花板水平,显示出强的跨语言泛化能力。
- 错误分析表明在不同训练条件下占主导的错误类型不同,在某些设置中学习自合成数据时被动结构成为常见错误。
- 自然数据带来的变异性似乎促使对核心任务要素的抽象,而不仅仅是表层模式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。