Skip to main content
QUICK REVIEW

[論文レビュー] Language Variety Identification with True Labels

Marcos Zampieri, Kai North|arXiv (Cornell University)|Mar 2, 2023
Authorship Attribution and Profiling被引用数 8
ひとこと要約

DSL-TLは、ヨーロッパ/ブラジル Portugese、カスティーリャ/アルゼンチンスペイン語、英国/米国英語をカバーする、言語多様性識別のための初の人間注 annot付き多言語データセットで、伝統的なモデルとトランスフォーマーモデルのベンチマーク結果を提供します。

ABSTRACT

Language identification is an important first step in many IR and NLP applications. Most publicly available language identification datasets, however, are compiled under the assumption that the gold label of each instance is determined by where texts are retrieved from. Research has shown that this is a problematic assumption, particularly in the case of very similar languages (e.g., Croatian and Serbian) and national language varieties (e.g., Brazilian and European Portuguese), where texts may contain no distinctive marker of the particular language or variety. To overcome this important limitation, this paper presents DSL True Labels (DSL-TL), the first human-annotated multilingual dataset for language variety identification. DSL-TL contains a total of 12,900 instances in Portuguese, split between European Portuguese and Brazilian Portuguese; Spanish, split between Argentine Spanish and Castilian Spanish; and English, split between American English and British English. We trained multiple models to discriminate between these language varieties, and we present the results in detail. The data and models presented in this paper provide a reliable benchmark toward the development of robust and fairer language variety identification systems. We make DSL-TL freely available to the research community.

研究の動機と目的

  • 公開情報源に依存する金標籤の限界を解決するため、ヒューマンジャッジメントから得られた真のラベルを導入することを動機づけ、対応する課題を提起する。
  • 三言語および複数の方言にまたがる大規模で多言語の人間注釈付きデータセット(DSL-TL)を作成する。
  • DSL-TLに対する伝統的およびディープラーニングモデルのベースライン評価を提供し、言語の変異タスクに対する公正で堅牢なベンチマークを可能にする。
  • 研究コミュニティへDSL-TLを公開し、言語多様性識別システムの公正な評価と開発を促進する。

提案手法

  • Portuguese、Spanish、EnglishのDSLCCおよびTrue Newsから12,900件を収集する。
  • Amazon Mechanical Turkを介してインスタンスごとに複数の人間判断をクラウドソーシングし、真のラベルとマーカーを決定する。
  • 従来のNaive Bayes、Adaptive Naive Bayes、トランスフォーマーモデル(mBERT、XLM-R、XLM-R-LD)を2つのトラックで評価し、言語方言を分離するものと「両方/いずれでもない」を含む結合セットを比較する。
  • アノテーターが特定した言語的マーカーを分析し、難易度の高い「both or neither」クラスを含むクラス別性能を報告する。
  • 70/20/10の比率でデータを訓練/開発/テストに分割し、公正な比較のためのベースライン結果を提供する。

実験結果

リサーチクエスチョン

  • RQ1金標ラベルの注釈は、ソースに基づくラベリングと比較して、言語多様性識別ベンチマークの公正性と信頼性を向上させるか。
  • RQ2従来のNBベース手法は、多言語で密接に関連する言語設定においてトランスフォーマーモデルと比較してどうか。
  • RQ3「両方/いずれでもない」クラスを含めることが、モデルの性能と評価の公正性にどのような影響を与えるか。
  • RQ4ポルトガル語、スペイン語、英語の間で、どの言語的マーカーが人間の判断とモデルの決定に影響を与えるか。

主な発見

  • DSL-TLはpt-BR/pt-PT、es-AR/es-ES、en-GB/en-USの12,900件を含み、方言間で均等に分割されている。
  • トラック1(「both/neither」を含む9ラベル)では、mBERTとXLM-RがマクロF1約0.54で最高を記録し、言語ごとにはen-USが最大0.829のF1に達する。
  • トラック2(6ラベル、「both/neither」を除く)では、ナイーブベイズ系がディープモデル全体を上回り、マクロF1が最大0.803に達し、いくつかのトランスフォーマーモデルを上回る。
  • 「両方またはどちらでもない」クラスはモデル間で依然として難しく、マクロ平均に大きく影響を与え、改善の余地を示している。
  • ナイーブベイズアプローチは、このデータセットで言語多様性識別のディープラーニングモデルと互角、あるいは上回ることがあり、先行研究で見られた傾向を再確認している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。