Skip to main content
QUICK REVIEW

[논문 리뷰] DimStance: Multilingual Datasets for Dimensional Stance Analysis

Jonas Becker, Liang-Chih Yu|arXiv (Cornell University)|2026. 01. 29.
Sentiment Analysis and Opinion Mining인용 수 0
한 줄 요약

DimStance는 입 stance 분석을 위한 발렌스-각도 주석의 최초 다국어 데이터셋을 제공하고, 차원적 stance 회귀 태스크를 도입하며, 다섯 언어와 두 도메인에 걸쳐 PLMs와 LLMs를 벤치마크합니다. 연구는 교차 언어 VA 패턴을 분석하고 자원이 부족한 언어에서의 성능 격차와 토큰 기반 VA 예측의 한계를 강조합니다.

ABSTRACT

Stance detection is an established task that classifies an author's attitude toward a specific target into categories such as Favor, Neutral, and Against. Beyond categorical stance labels, we leverage a long-established affective science framework to model stance along real-valued dimensions of valence (negative-positive) and arousal (calm-active). This dimensional approach captures nuanced affective states underlying stance expressions, enabling fine-grained stance analysis. To this end, we introduce DimStance, the first dimensional stance resource with valence-arousal (VA) annotations. This resource comprises 11,746 target aspects in 7,365 texts across five languages (English, German, Chinese, Nigerian Pidgin, and Swahili) and two domains (politics and environmental protection). To facilitate the evaluation of stance VA prediction, we formulate the dimensional stance regression task, analyze cross-lingual VA patterns, and benchmark pretrained and large language models under regression and prompting settings. Results show competitive performance of fine-tuned LLM regressors, persistent challenges in low-resource languages, and limitations of token-based generation. DimStance provides a foundation for multilingual, emotion-aware, stance analysis and benchmarking.

연구 동기 및 목표

  • DimStance를 소개합니다, 다섯 언어와 두 도메인에 걸친 발렌스–각도 주석이 포함된 최초의 차원적 stance 자원입니다.
  • 차원적 stance 회귀를 가능하게 하는 11,746개의 대상 측면이 포함된 7,365개의 텍스트 데이터셋을 제공합니다.
  • VA 점수를 사용한 차원적 stance 회귀 태스크를 정의하고 평가합니다.
  • UA 프리트레인된 언어 모델과 대형 언어 모델을 회귀 및 프로그래밍 설정에서 벤치마크하여 기준선을 확립합니다.

제안 방법

  • 영어, 독일어, 중국어, 나이지리아 피진어, 스와힐리어의 정치 및 환경 보호 분야에서 VA 주석이 포함된 DimStance 데이터셋을 큐레이션합니다.
  • 언어별 다섯 명의 네이티브 주석가를 통해 대상 측면에 VA 점수를 주석하고 다수결 투표로 타당성을 확보합니다.
  • 문장 표현에서 회귀 헤드를 갖춘 PLM 회귀기(XLM-R, RemBERT, LaBSE)를 학습하고 평가합니다.
  • 프롬프트 기반의 닫힌/오픈 LLM과 LoRA 기반 4비트 양자화의 미세조정 회귀 설정에서 평가합니다.
  • VA(발렌스-각도)에 대한 RMSE를 평가 지표로 사용하고 교차 언어 성능 및 모델 계를 비교합니다.
(a) English (env. protection)
(a) English (env. protection)

실험 결과

연구 질문

  • RQ1여러 언어와 도메인에 걸쳐 연속적인 발렌스-각도 차원에서 stance를 어떻게 모델링할 수 있는가?
  • RQ2stance 표현의 발렌스-각도에서 교차 언어 패턴은 무엇이며, 모델은 언어 간 차원적 stance 회귀에서 어떻게 수행하는가?
  • RQ3미세조정된 LLM 회귀기가 프롬프트 기반 LLM 및 PLM 회귀기에 비해 차원적 stance 예측에서 더 좋은가, 어떤 조건에서 그런가?
  • RQ4저리소스 언어에 차원적 stance 분석을 적용할 때의 도전과 한계는 무엇인가?
  • RQ5토큰 기반 VA 예측이 회귀 기반 VA 예측에 비해 분포 정렬 및 정확성 측면에서 어떤 차이가 있는가?

주요 결과

  • DimStance는 stance에 대한 수동 VA 주석이 있는 최초의 데이터셋으로, 다섯 언어와 두 도메인을 포함하고 7,365개의 텍스트와 11,746개의 대상 측면을 다룹니다.
  • 미세조정된 LLM 회귀기가 대체로 프롬프트 기반 LLM 및 PLM 회귀기보다 평균적으로 더 우수하며, 특히 더 큰 70B 모델에서 두드러집니다.
  • 프롬프트 기반 LLM은 데이터 효율적 기반을 제공하지만 0재 미세 조정된 VA 배치가 그리드처럼 이산화된 출력으로 이어져 연속적 VA 분포와 어긋날 수 있습니다.
  • 교차 언어 VA 패턴은 언어 및 도메인 특유의 정서적 특성을 드러내며 중국어는 compact한 VA 분포를, 영어/독일어는 더 큰 변동성을 보입니다.
  • 저자원 언어(스와힐리어, 나이지리아 피진어)는 데이터 부족 효과를 강조하며 더 큰 RMSE 격차를 보이는 등 도전이 더 큽니다.
  • 프롬프트 방식의 토큰 기반 VA 예측은 연속 회귀 기반 방법보다 성능이 떨어지는 경향이 있으며, 특히 VA 분포가 компакт할 때 그렇습니다.
(b) German (politics)
(b) German (politics)

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.