QUICK REVIEW

[논문 리뷰] The Touché23-ValueEval Dataset for Identifying Human Values behind Arguments

Nailia Mirzakhmedova, Johannes Kiesel|arXiv (Cornell University)|2023. 01. 31.

Hate Speech and Cyberbullying Detection인용 수 22

한 줄 요약

본 논문은 Touché23-ValueEval을 소개한다. 이는 9,324개의 주장(인자)으로 구성되고 54개의 가치가 20개 가치 범주에 걸쳐 주석되었으며, 다양한 소스와 언어를 포함하도록 Webis-ArgValues-22를 확장한다. 또한 더 큰 데이터셋으로부터 BERT의 이점을 보여주는 베이스라인 결과를 보고하고, 릴리스 정보와 윤리적 고려사항을 제공한다.

ABSTRACT

We present the Touché23-ValueEval Dataset for Identifying Human Values behind Arguments. To investigate approaches for the automated detection of human values behind arguments, we collected 9324 arguments from 6 diverse sources, covering religious texts, political discussions, free-text arguments, newspaper editorials, and online democracy platforms. Each argument was annotated by 3 crowdworkers for 54 values. The Touché23-ValueEval dataset extends the Webis-ArgValues-22. In comparison to the previous dataset, the effectiveness of a 1-Baseline decreases, but that of an out-of-the-box BERT model increases. Therefore, though the classification difficulty increased as per the label distribution, the larger dataset allows for training better models.

연구 동기 및 목표

주장의 뒤에 있는 인간 가치를 식별하는 동기를 부여하여 NLP에서 가치 기반 분석, 비교 및 생성을 가능하게 한다.
USA 중심의 Webis-ArgValues-22를 넘어 주장 소스와 장르를 확장하여 교차 문화적 가치 탐지의 격차를 줄인다.
SemEval-2023 Task 4 ValueEval을 위한 공개 데이터셋을 제공하고 데이터셋 규모가 모델 성능에 미치는 영향을 평가한다.

제안 방법

종교 텍스트, 정치적 담론, 사설, 온라인 플랫폼 등 여섯 개의 다양한 소스에서 9,324개의 주장 수집.
크라우드워커를 활용해 54개의 가치와 20개의 레벨-2 가치 범주에 걸쳐 주장을 주석하고, MACE를 이용해 주석을 융합한다.
동일한 결론을 가진 주장을 같은 분할에 배치하여 학습/검증/테스트 분리에서 학습-테스트 누출이 없도록 한다.
鲁robustness 테스트를 위한 독특한 문체와 도덕적 추론을 포함한 보충 데이터셋을 제공한다.
일관성을 위해 Webis-ArgValues-22 연구의 주석 프레임워크를 재목적으로 확장한다.
기반 모델(특히 BERT 기반 접근 포함)을 평가하여 이전 Webis-ArgValues-22 결과와의 성능 차이를 비교한다.

Figure 1: The employed value taxonomy of 20 value categories and their associated 54 values (shown as black dots), the levels 2 and 1 from Kiesel et al. ( 2022 ) . Categories that tend to conflict are placed on opposite sites. Illustration adapted from Schwartz ( 1994 )

실험 결과

연구 질문

RQ1더 크고 더 다양한 데이터셋이 주장 뒤의 인간 가치를 자동으로 탐지하는 데 도움이 되는가?
RQ2가치 분포가 소스와 장르에 따라 어떻게 달라지며, 교차 문화적 가치 탐지에 어떤 영향을 미치는가?
RQ3Webis-ArgValues-22에서 Touché23-ValueEval로 확장할 때 어떤 기준 모델 성능 차이가 나타나는가?

주요 결과

Touché23-ValueEval 데이터셋은 9,324개의 전제-결론 쌍에 대해 54개의 가치 및 20개의 가치 범주로 주석되어 있습니다.
주장의 94%가 최소 2개의 가치를 가지고 있으며, 89%는 2개 이상의 가치 범주를 포함합니다.
1-기반 분류기는 더 큰 데이터셋에서 성능이 떨어지는 반면, 시중에 나와 있는 BERT 모델은 성능이 향상됩니다.
가치 분포는 주요 출처 간에 대체로 비슷하며, 보편주의(Universalism): 관심(Concern) 및 정의로서의 공정성(Be just)이 비교적 자주 나타납니다.
보충 데이터셋은 출처별로 가치 범주 분포에 차이를 보입니다.
기본 실험은 데이터셋 확장이 더 나은 모델 학습을 가능하게 하며, 특히 BERT 기반 접근 방식에 이익이 있음을 시사합니다.

Figure 2: Fraction of arguments in the complete dataset having a specific number of assigned values (out of 54) or value categories (out of 10) or more.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.