Skip to main content
QUICK REVIEW

[論文レビュー] You Only Prompt Once: On the Capabilities of Prompt Learning on Large Language Models to Tackle Toxic Content

Xinlei He, Savvas Zannettou|arXiv (Cornell University)|Aug 10, 2023
Adversarial Robustness in Machine Learning被引用数 8
ひとこと要約

要約: 本論文は毒性内容タスク(毒性分類、毒性スパン検出、解毒)に対するプロンプト学習を、5つのモデルアーキテクチャと8データセットを用いて体系的に評価し、プロンプト学習がベースラインと同等またはそれを上回る性能を示し、より速い適応とデータ量の削減を実現することを示している。

ABSTRACT

The spread of toxic content online is an important problem that has adverse effects on user experience online and in our society at large. Motivated by the importance and impact of the problem, research focuses on developing solutions to detect toxic content, usually leveraging machine learning (ML) models trained on human-annotated datasets. While these efforts are important, these models usually do not generalize well and they can not cope with new trends (e.g., the emergence of new toxic terms). Currently, we are witnessing a shift in the approach to tackling societal issues online, particularly leveraging large language models (LLMs) like GPT-3 or T5 that are trained on vast corpora and have strong generalizability. In this work, we investigate how we can use LLMs and prompt learning to tackle the problem of toxic content, particularly focusing on three tasks; 1) Toxicity Classification, 2) Toxic Span Detection, and 3) Detoxification. We perform an extensive evaluation over five model architectures and eight datasets demonstrating that LLMs with prompt learning can achieve similar or even better performance compared to models trained on these specific tasks. We find that prompt learning achieves around 10\% improvement in the toxicity classification task compared to the baselines, while for the toxic span detection task we find better performance to the best baseline (0.643 vs. 0.640 in terms of $F_1$-score). Finally, for the detoxification task, we find that prompt learning can successfully reduce the average toxicity score (from 0.775 to 0.213) while preserving semantic meaning.

研究の動機と目的

  • 迅速に適応可能な毒性コンテンツ検出・緩和ソリューションとして、フルモデルファインチューニングを伴わずにプロンプト学習を提案・評価する。
  • 3つのタスク(毒性分類、毒性スパン検出、解毒)に対するプロンプト学習性能を評価する。
  • タスク別ベースラインと比較し、データ効率性、転移性、頑健性を分析する。
  • オンラインプラットフォームにおける性能、コスト、グリーンAI観点での実務的利点を示す。

提案手法

  • 凍結済みLLMと学習可能なプロンプト(プレフィックスチューニング風)を用いて毒性タスクをプロンプト学習問題としてフレーミングする。
  • 5つのモデルファミリ(GPT2-M、GPT2-L、T5-S、T5-B、T5-L)と8データセットで、2つのプロンプト学習バリエーションを評価する。
  • Task 1は分類プロンプトを用いてラベルをYes/Noに写像し、二値損失を最適化する。
  • Task 2はスパン検出を生成タスクとして扱い、モデルに非毒性テキストを生成させた後、スパンを特定するために差を取る。
  • Task 3は解毒を生成タスクとして扱い、意味を保持しつつ非毒性の言い換えを生成させ、デトックス出力へ最適化する。
  • 比較ベースライン(Perspective API、ToxicBERT、UnRoBERTa)とF1スコアなどの指標を報告する。
(a) HateXplain
(a) HateXplain

実験結果

リサーチクエスチョン

  • RQ1凍結済みLLMを用いたプロンプト学習は、毒性関連タスクにおいてタスク特化型ベースラインと同等またはそれを上回る性能を達成できるか。
  • RQ2多様な毒性データセットとタスクに対して、プロンプト学習のデータ効率と転移性はどの程度か。
  • RQ3毒性コンテンツタスクにおけるプロンプト学習と完全ファインチューニングの実務的トレードオフ(速度、学習ステップ、データ要件)はどうか。
  • RQ4プロンプト学習は毒性コンテンツに対する綴り間違いや対戦的な摂動に対してどれだけ頑健か。
  • RQ5実世界のオンラインプラットフォームでのスケーラビリティと安全性に対するプロンプト学習の示唆は何か。

主な発見

  • LLMを用いたプロンプト学習は、毒性分類のいくつかのデータセットでベースラインと同等またはそれを上回るF1スコアを達成(例:HateXplainでGPT2-Lは0.731、ベースライン0.703)。
  • 毒性スパン検出では、プロンプト学習は0.643のF1に到達し、SPAN-BERTの0.640をわずかに上回り、学習時間を短縮。
  • 解毒では、意味を保持しつつ非毒性の表現へと出力を変換することで平均毒性スコアを大幅に低減(ParaDetoxで0.775から0.213へなど)。
  • プロンプト学習はデータ効率性を示し、500サンプル程度でも高い性能を達成する例がある(SBIC: T5-Bで500サンプル0.782)。
  • プロンプト転移性はデータセット依存性があり、MHSで訓練されたプロンプトは他データセットへより良く一般化するのに対し、HateXplainのプロンプトは一般化が劣る傾向。多様な訓練データは一般化を改善。
  • ファインチューニングと比較して、プロンプト先頭部を用いたプロンプト学習は同等の精度をより速く達成可能(例:USElectionHate20でファインチューニング0.619分に対してプロンプト学習0.712の精度を6分で達成)。
  • プロンプト学習は綴り間違いおよび対戦的摂動に対して頑健性を示し、テスト条件で高い精度を維持。
(b) USElectionHate20
(b) USElectionHate20

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。