QUICK REVIEW

[論文レビュー] The Touché23-ValueEval Dataset for Identifying Human Values behind Arguments

Nailia Mirzakhmedova, Johannes Kiesel|arXiv (Cornell University)|Jan 31, 2023

Hate Speech and Cyberbullying Detection被引用数 22

ひとこと要約

論文は Touché23-ValueEval を紹介する。9,324 引数のデータセットで、54 の価値を20の価値カテゴリに跨って注釈付けされており、多様なソースと言語を用いて Webis-ArgValues-22 を拡張した。ベースライン結果を報告し、より大きなデータセットから BERT の利得を示し、リリースの詳細と倫理的配慮を提供する。

ABSTRACT

We present the Touché23-ValueEval Dataset for Identifying Human Values behind Arguments. To investigate approaches for the automated detection of human values behind arguments, we collected 9324 arguments from 6 diverse sources, covering religious texts, political discussions, free-text arguments, newspaper editorials, and online democracy platforms. Each argument was annotated by 3 crowdworkers for 54 values. The Touché23-ValueEval dataset extends the Webis-ArgValues-22. In comparison to the previous dataset, the effectiveness of a 1-Baseline decreases, but that of an out-of-the-box BERT model increases. Therefore, though the classification difficulty increased as per the label distribution, the larger dataset allows for training better models.

研究の動機と目的

議論の背後にある人間の価値を特定する動機付けを行い、NLP における価値ベースの分析・比較・生成を可能にする。
米国中心の Webis-ArgValues-22 を超えて、議論のソースとジャンルを拡張し、異文化間の価値検出のギャップを埋める。
SemEval-2023 Task 4 ValueEval の公開データセットを提供し、データセットサイズがモデル性能に与える影響を評価する。

提案手法

宗教文献、政治的語彙、社説、オンラインプラットフォームなど、6つの多様なソースから9,324 の引数を収集する。
クラウドワーカーを用いて各引数を20のレベル2価値カテゴリにまたがる54の価値で注釈付けし、MACE で注釈を統合する。
同じ結論を含む引数を同じ分割にグルーピングして、訓練・検証・テストの分離が訓練データとテストデータの漏洩を避けるようにする。
堅牢性検証のため、異なる文体と道徳的推論を含む補足データセットを提供する。
一貫性を保つため、Webis-ArgValues-22 研究の注釈フレームワークを再利用・拡張する。
前回の Webis-ArgValues-22 の結果と比較するため、BERT ベースのアプローチを含むベースラインモデルを評価する。

Figure 1: The employed value taxonomy of 20 value categories and their associated 54 values (shown as black dots), the levels 2 and 1 from Kiesel et al. ( 2022 ) . Categories that tend to conflict are placed on opposite sites. Illustration adapted from Schwartz ( 1994 )

実験結果

リサーチクエスチョン

RQ1より大きく、より多様なデータセットは、議論の背後にある人間の価値を自動的に検出する能力を改善するか？
RQ2さまざまなソースとジャンルにおいて価値分布はどのように異なり、異文化間の価値検出にどのような影響を与えるか？
RQ3Webis-ArgValues-22 から Touché23-ValueEval へ拡張した場合、ベースラインモデルの性能差はどう現れるか？

主な発見

Touché23-ValueEval データセットは、54 の価値および20の価値カテゴリに注釈付けされた9,324 の前提–結論ペアを含む。
引数の94%は少なくとも2つの価値を、89%は2つ以上の価値カテゴリを有する。
ベースラインの1-ベースライン分類器はより大きなデータセットで性能が低下する一方、既製の BERT モデルは性能が向上する。
価値分布は主なソース間で概ね類似しており、普遍主義：関心、正義であることが比較的頻繁なカテゴリ。
補足データセットはソース特有の価値カテゴリ分布の差異を示す。
ベースライン実験はデータセットの拡張がより良いモデルの訓練を可能にすることを示し、特に BERT ベースの手法に利益をもたらす。

Figure 2: Fraction of arguments in the complete dataset having a specific number of assigned values (out of 54) or value categories (out of 10) or more.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。