Skip to main content
QUICK REVIEW

[論文レビュー] X-Stance: A Multilingual Multi-Target Dataset for Stance Detection

Jannis Vamvas, Rico Sennrich|arXiv (Cornell University)|Mar 18, 2020
Topic Modeling参考文献 14被引用数 46
ひとこと要約

この論文は、ドイツ語・フランス語・イタリア語のスイス選挙コメントから構築された大規模多言語 stance データセット x-stance を導入し、質問と回答の形式を用いて横断言語・横断ターゲット stance 検出を可能にする。Multilingual BERT を用いたベースラインは部分的なゼロショット転送と強い言語内性能を示す。

ABSTRACT

We extract a large-scale stance detection dataset from comments written by candidates of elections in Switzerland. The dataset consists of German, French and Italian text, allowing for a cross-lingual evaluation of stance detection. It contains 67 000 comments on more than 150 political issues (targets). Unlike stance detection models that have specific target issues, we use the dataset to train a single model on all the issues. To make learning across targets possible, we prepend to each instance a natural question that represents the target (e.g. "Do you support X?"). Baseline results from multilingual BERT show that zero-shot cross-lingual and cross-target transfer of stance detection is moderately successful with this approach.

研究の動機と目的

  • 多くのターゲットとトピックを網羅した大規模な多言語stance検出データセットを作成し、言語間およびターゲット間の評価を可能にする。
  • 政治問題に関する質問をターゲットの自然言語表現として使用し、質問をターゲットとして変換する。
  • ゼロショットの横断言語・横断ターゲット転送を評価する標準化された訓練/検証/テスト分割を提供する。
  • stance 分類のために、各テキストセグメント(質問とコメント)の重要性を分析し、強いベースラインを確立する。

提案手法

  • Swiss political questions を Smartvote の候補コメントとペアリングして x-stance を構築し、多ラベルのはい/いいえ反応を二値 stance ラベル(賛成/反対)へ変換する。
  • 品質の事前フィルタリングと言語検出器による言語注釈でコメントを言語ごとに整え、英語を除去し、短いコメントやURLを含むコメントを除外する。
  • 質問をセグメントA、コメントをセグメントBとする系列対分類器として多言語 BERT を stance 検出のためにファインチューニングし、訓練中にクラスをバランスさせる。
  • グローバル/ターゲット別多数決ベースラインや fastText BoW 分類器を含むベースラインを比較し、監視付きおよび横断言語/横断ターゲット設定の両方を評価する。
  • 水平 vs 垂直言語整合性、単一セグメントアブレーション(コメントのみ/質問のみ)、ターゲット埋め込み vs 自然言語ターゲットを含む変 variations を探る。

実験結果

リサーチクエスチョン

  • RQ1単一モデルが多数のターゲットと複数言語を横断する stance 検出を質問-回答形式でどれだけ学習できるか?
  • RQ2ドイツ語とフランス語で訓練した場合のイタリア語へのゼロショット横断転送性能はどの程度か?
  • RQ3横断ターゲット転送(同一トピック内および未知トピック間)と監視下の言語内性能を比較するとどうか?
  • RQ4質問とコメントの両方を使用することと単一セグメントのみの場合の stance 検出精度への影響は?
  • RQ5自然言語の質問を表現として使うことは、ターゲット埋め込みを用いるより性能にとって重要か?

主な発見

ModeldefrMean
Maj. global (Table 3)33.134.833.9
Maj. target-wise (Table 3)60.865.162.9
fastText (Table 3)69.971.270.5
M-Bert (Table 3)76.876.676.6
Intra-target (Table 4) - de36.437.937.1
Intra-target (Table 4) - fr62.065.663.7
Intra-target (Table 4) - mean63.7
Cross-topic (Table 4) - de68.970.969.9
Cross-topic (Table 4) - fr68.970.969.9
  • Multilingual BERT はベースラインより高い精度を達成し、イタリア語への横断ゼロショット転送はターゲット別ベースラインを上回る。
  • 横断言語・横断ターゲットの性能は監視付き言語内性能と比べて低下するが、MBERT はどの設定でも最も強力なベースラインのままである。
  • 質問とコメントの両方を使用することが重要で、いずれかのセグメントを除くと性能が低下する、特に質問が欠如している場合には顕著。
  • 自然言語の質問でターゲットを表現することは、ターゲット埋め込みよりも監視付きおよび横断的設定で優れており、質問中の言語的手掛かりが stance 検出を助けることを示している。
  • イタリア語における横断言語ゼロショットスコアは、ターゲット別ベースラインより大幅に良く、データセットにとって横断言語転送が実現可能であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。