Skip to main content
QUICK REVIEW

[論文レビュー] DimStance: Multilingual Datasets for Dimensional Stance Analysis

Jonas Becker, Liang-Chih Yu|arXiv (Cornell University)|Jan 29, 2026
Sentiment Analysis and Opinion Mining被引用数 0
ひとこと要約

DimStanceはスタンス分析の感情価値ベクトル注釈の初の多言語データセットを提供し、次元的スタンス回帰タスクを導入、5言語・2ドメインにわたるPLMとLLMをベンチマークする。研究はクロスリンガルVAパターンを分析し、低資源言語での性能ギャップとトークンベースのVA予測の限界を強調する。

ABSTRACT

Stance detection is an established task that classifies an author's attitude toward a specific target into categories such as Favor, Neutral, and Against. Beyond categorical stance labels, we leverage a long-established affective science framework to model stance along real-valued dimensions of valence (negative-positive) and arousal (calm-active). This dimensional approach captures nuanced affective states underlying stance expressions, enabling fine-grained stance analysis. To this end, we introduce DimStance, the first dimensional stance resource with valence-arousal (VA) annotations. This resource comprises 11,746 target aspects in 7,365 texts across five languages (English, German, Chinese, Nigerian Pidgin, and Swahili) and two domains (politics and environmental protection). To facilitate the evaluation of stance VA prediction, we formulate the dimensional stance regression task, analyze cross-lingual VA patterns, and benchmark pretrained and large language models under regression and prompting settings. Results show competitive performance of fine-tuned LLM regressors, persistent challenges in low-resource languages, and limitations of token-based generation. DimStance provides a foundation for multilingual, emotion-aware, stance analysis and benchmarking.

研究の動機と目的

  • DimStanceを紹介する,感情価・覚醒値注釈付きの初の次元的スタンスリソースとして5言語・2ドメインで提供する。
  • dimensional stance regressionを可能にするために,7,365テキスト中の11,746ターゲットアスペクトのデータセットを提供する。
  • VAスコアを用いた次元的スタンス回帰タスクを定義・評価する。
  • 回帰設定とプロンプティング設定の下で事前学習済み言語モデルと大規模言語モデルをベンチマークし、ベースラインを確立する。

提案手法

  • 英語・ドイツ語・中国語・ナイジェリア・Pidgin・スワヒリ語を対象とした政治・環境保護分野のVA注釈付きDimStanceデータセットを作成する。
  • 各言語の5名のネイティブ annotator によるターゲットアスペクトのVAスコア注釈を行い,過半数投票で妥当性を確保する。
  • sentence表現の回帰ヘッドを用いてPLM回帰器(XLM-R, RemBERT, LaBSE)を訓練・評価する。
  • プロンプティング(few-shot)による閉包・開放LLMと,LoRAベースの4-bit量子化を用いたファインチューニング回帰設定を評価する。
  • 評価指標としてVA(valence-arousal)に対するRMSEを用い、クロス言語の性能とモデルファミリを比較する。
(a) English (env. protection)
(a) English (env. protection)

実験結果

リサーチクエスチョン

  • RQ1複数言語・複数ドメインにわたり、連続的なvalence-arousal次元に沿ってスタンスをモデル化するにはどうすればよいか。
  • RQ2スタンス表現のVAにおける言語横断パターンは何であり、言語間での次元的スタンス回帰のモデル性能はどうか。
  • RQ3ファインチューニング済みLLM回帰器はプロンプティングベースのLLMやPLM回帰器よりも優れているのか、どの条件下でそうなるのか。
  • RQ4低資源言語への次元的スタンス分析の適用にはどのような課題・限界があるのか。
  • RQ5トークンベースVA予測と回帰ベースVA予測は分布の整合性・精度の点でどう異なるか。

主な発見

  • DimStanceはスタンスの手動VA注釈を含む初のデータセットであり,5言語・2ドメインをカバーし,7,365テキスト・11,746ターゲットアスペクトを含む。
  • ファインチューニング済みLLM回帰器は、特に70Bクラスの大規模モデルにおいて、平均的にプロンプト型LLMおよびPLM回帰器より優れている。
  • プロンプティングベースのLLMはデータ効率の良いベースラインを提供するが、VA出力が格子状・離散化され、連続的なVA分布と齟齬を生むことがある。
  • クロス言語のVAパターンは言語・ドメイン固有の情動プロファイルを示し、中国語はコンパクトなVA分布、英語・ドイツ語はより変動を示す。
  • 低資源言語(スワヒリ語、ナイジェリアPIDGIN)は課題がより強く、RMSEのギャップが大きく、データ不足の影響を強調する。
  • プロンプトベースのトークンベースVA予測は、特にVA分布がコンパクトな場合、連続的回帰ベースの方法より劣る傾向にある。
(b) German (politics)
(b) German (politics)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。