QUICK REVIEW

[論文レビュー] XLM-T: Multilingual Language Models in Twitter for Sentiment Analysis and Beyond

Francesco Barbieri, Luis Espinosa-Anke|arXiv (Cornell University)|Apr 25, 2021

Sentiment Analysis and Opinion Mining被引用数 134

ひとこと要約

XLM-TはXLM-Rを基盤とするTwitter専用の多言語言語モデルで、30言語以上・198Mツイートで訓練され、統一された多言語感情分析ベンチマークとクロスリンガル転送タスクで評価され、分析とファインチューニングのスターター用ツールを提供する。

ABSTRACT

Language models are ubiquitous in current NLP, and their multilingual capacity has recently attracted considerable attention. However, current analyses have almost exclusively focused on (multilingual variants of) standard benchmarks, and have relied on clean pre-training and task-specific corpora as multilingual signals. In this paper, we introduce XLM-T, a model to train and evaluate multilingual language models in Twitter. In this paper we provide: (1) a new strong multilingual baseline consisting of an XLM-R (Conneau et al. 2020) model pre-trained on millions of tweets in over thirty languages, alongside starter code to subsequently fine-tune on a target task; and (2) a set of unified sentiment analysis Twitter datasets in eight different languages and a XLM-T model fine-tuned on them.

研究の動機と目的

絵文字、スラングなどのドメイン固有の言語信号に対応するため、Twitterデータに特化した多言語LMの作成を促進する。
Twitterに適応したXLM-Rに基づく大規模事前学習ベースライン（XLM-Twitter）を提供し、ファインチューニングと評価のコードを公開する。
8言語にまたがる統一多言語感情分析ベンチマーク（UMSAB）を作成し、公平なクロスリンガル評価を可能にする。
ゼロショットおよびデータ拡張を用いたクロスリンガル転送を調査し、多言語データが単言語データより有利になる状況を理解する。

提案手法

URLフィルタリングを行わず、198Mツイート（12Bトークン）上でXLM-Rの事前学習を継続してTwitter専用の多言語LMを事前学習し、検証収束までマスクドLM目的関数を用いる（8 GPUで約14日）。
アダプターを用いてLMをファインチューニングする（ベースLMを凍結し、追加の分類器層を訓練）ことで、効率的な多言語感情分類を実現。
HuggingFaceエコシステム内で、ツイート埋め込み抽出、ファインチューニング、推論、評価のスターターPythonコードを提供。
8言語にまたがる統一多言語感情分析ベンチマーク（UMSAB）を統一・整備し、各言語で3,033の訓練データ・870のテストデータという均等な固定サイズの分割を設定。
モノリンガル、ゼロショットクロスリンガル、そして多言語転送設定で評価し、さまざまなタスクと言語でXLM-RとXLM-Twitterを比較。

実験結果

リサーチクエスチョン

RQ1Twitterに焦点を当てた多言語LMは、複数言語にまたがる感情分析タスクにおいて標準的な多言語LMとどのように比較されるか？
RQ2ドメイン特化型事前学習（Twitter）の多言語感情分析性能への影響は、ゼロショットおよび多言語転送設定でどう現れるか？
RQ3均衡のとれた統一多言語感情ベンチマーク（UMSAB）は、Twitterデータに対して一貫したクロスリンガル転送パターンを明らかにするか？
RQ4アダプターは、完全なモデル更新なしでTwitter特有のタスクに対する大規模多言語LMの効率的なファインチューニングを可能にするか？
RQ5訓練データ戦略（モノリンガル、バイリンガル、マルチリンガル）のうち、クロスリンガル感情分析性能を最も支援するのはどれか？

主な発見

XLM-Twitterは一般にTwitter以外の多言語ベースラインより多言語感情ベンチマークで優れており、ゼロショットのクロスリンガル設定で頑健性を示す。
ゼロショット実験では、XLM-Twitterはほとんどの言語で強い結果を達成し、XLM-Rに対して著しい向上を示す（例：ヒンディー語）。
ターゲット言語データを用いたクロスリンガル転送（モノリンガル、バイリンガル、マルチリンガル）は、多言語データの含有がしばしば有益であることを示し、単一の多言語モデルは実用性を提供する一方で、時には最高のモノリンガル性能を犠牲にすることもある。
ドメイン特化型のTwitter事前学習シグナルは、ソーシャルメディアの下流タスクにおいて一般ドメインの多言語モデルより利点をもたらす。
絵文字などのTwitter特有のシグナルは、ツイート埋め込みの意味表現に大きく寄与する。
提供されたフレームワークとデータ（UMSAB、XLM-Twitter）は、再現性の高い多言語Twitter NLP研究と比較を促進する。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。