QUICK REVIEW

[论文解读] On the Evaluation of Contextual Embeddings for Zero-Shot Cross-Lingual Transfer Learning.

Phillip Keung, Yichao Lu|arXiv (Cornell University)|Apr 30, 2020

Domain Adaptation and Few-Shot Learning被引用 7

一句话总结

本文识别出在使用多语言 BERT（mBERT）进行零样本跨语言迁移学习时存在不稳定性，即基于英语开发集准确率选择模型会导致目标语言性能不一致且不可靠。作者提出使用‘最优分数’（oracle scores）——在微调过程中基于目标语言开发集选择最佳检查点——以在 MLDoc 和 XNLI 基准上实现更可复现且一致的零样本结果。

ABSTRACT

Pre-trained multilingual contextual embeddings have demonstrated state-of-the-art performance in zero-shot cross-lingual transfer learning, where multilingual BERT is fine-tuned on some source language (typically English) and evaluated on a different target language. However, published results for baseline mBERT zero-shot accuracy vary as much as 17 points on the MLDoc classification task across four papers. We show that the standard practice of using English dev accuracy for model selection in the zero-shot setting makes it difficult to obtain reproducible results on the MLDoc and XNLI tasks. English dev accuracy is often uncorrelated (or even anti-correlated) with target language accuracy, and zero-shot cross-lingual performance varies greatly within the same fine-tuning run and between different fine-tuning runs. We recommend providing oracle scores alongside the zero-shot results: still fine-tune using English, but choose a checkpoint with the target dev set. Reporting this upper bound makes results more consistent by avoiding the variation from bad checkpoints.

研究动机与目标

调查在 mBERT 微调过程中，基于英语开发集准确率进行模型选择时，零样本跨语言迁移性能的不稳定性。
识别为何在 MLDoc 和 XNLI 上，不同研究报告的 mBERT 零样本准确率存在显著差异。
提出一种更可靠的评估策略，通过在目标语言开发集上选择检查点，提升可复现性。
证明英语开发集准确率与目标语言性能之间往往无相关性甚至呈负相关，从而破坏标准评估实践。

提出的方法

在源语言（如英语）上使用标准流程微调 mBERT，但同时监控英语开发集和目标语言开发集上的性能。
不基于英语开发集准确率，而是基于目标语言开发集上的表现选择最佳模型检查点，形成‘最优’分数。
在 MLDoc 和 XNLI 基准上，将基于英语开发集准确率选择的标准零样本结果与基于目标开发集准确率选择的最优结果进行比较。
分析在多个微调运行和超参数设置下，英语开发集准确率与目标语言准确率之间的相关性。
报告标准零样本结果和最优上界结果，以实现跨研究更公平、更一致的比较。

实验结果

研究问题

RQ1为何在 MLDoc 基准上，不同研究报告的 mBERT 零样本准确率差异如此之大？
RQ2英语开发集准确率在多大程度上能预测跨语言迁移中目标语言的零样本性能？
RQ3基于目标语言开发集准确率进行模型选择，与基于英语开发集准确率相比，在零样本性能一致性方面有何差异？
RQ4使用最优分数（即在目标开发集上选择最佳检查点）是否能提升零样本跨语言结果的可靠性和可复现性？
RQ5与标准模型选择相比，使用最优分数在零样本跨语言迁移中能带来多大的性能提升？

主要发现

英语开发集准确率往往与目标语言零样本性能无相关性，甚至呈负相关，因此作为模型选择的代理指标效果极差。
在相同微调运行内以及不同运行之间，零样本跨语言性能存在显著波动，表明模型选择本身存在固有不稳定性。
使用最优分数（即在目标语言开发集上选择最佳检查点）可使零样本结果在不同实验中更加一致和可靠。
所提出的最优分数可作为零样本性能的上界，提升可复现性，且无需重新训练。
依赖英语开发集准确率进行模型选择的标准做法引入了显著的变异性，导致在 MLDoc 上报告的 mBERT 零样本准确率在不同研究之间差异高达 17 个百分点。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。