Skip to main content
QUICK REVIEW

[논문 리뷰] You Only Prompt Once: On the Capabilities of Prompt Learning on Large Language Models to Tackle Toxic Content

Xinlei He, Savvas Zannettou|arXiv (Cornell University)|2023. 08. 10.
Adversarial Robustness in Machine Learning인용 수 8
한 줄 요약

논문은 다섯 가지 모델 아키텍처와 여덟 개 데이터셋을 사용하여 독성 콘텐츠 작업(독성 분류, 독성 구간 탐지, 디톡스)을 위한 프롬프트 학습을 체계적으로 평가하고, 프롬프트 학습이 베이스라인과 대등하거나 이를 능가하면서 더 빠른 적응과 적은 데이터로 가능함을 보여준다.

ABSTRACT

The spread of toxic content online is an important problem that has adverse effects on user experience online and in our society at large. Motivated by the importance and impact of the problem, research focuses on developing solutions to detect toxic content, usually leveraging machine learning (ML) models trained on human-annotated datasets. While these efforts are important, these models usually do not generalize well and they can not cope with new trends (e.g., the emergence of new toxic terms). Currently, we are witnessing a shift in the approach to tackling societal issues online, particularly leveraging large language models (LLMs) like GPT-3 or T5 that are trained on vast corpora and have strong generalizability. In this work, we investigate how we can use LLMs and prompt learning to tackle the problem of toxic content, particularly focusing on three tasks; 1) Toxicity Classification, 2) Toxic Span Detection, and 3) Detoxification. We perform an extensive evaluation over five model architectures and eight datasets demonstrating that LLMs with prompt learning can achieve similar or even better performance compared to models trained on these specific tasks. We find that prompt learning achieves around 10\% improvement in the toxicity classification task compared to the baselines, while for the toxic span detection task we find better performance to the best baseline (0.643 vs. 0.640 in terms of $F_1$-score). Finally, for the detoxification task, we find that prompt learning can successfully reduce the average toxicity score (from 0.775 to 0.213) while preserving semantic meaning.

연구 동기 및 목표

  • 전체 모델 미세조정 없이 독성 콘텐츠 탐지 및 완화에 신속하게 적응하기 위한 해결책으로 프롬프트 학습의 동기를 부여하고 평가한다.
  • 세 가지 작업(독성 분류, 독성 구간 탐지, 디톡스) 전반에 걸친 프롬프트 튜닝 성능을 평가한다.
  • 특정 작업 베이스라인과 프롬프트 튜닝을 비교하고 데이터 효율성, 전이성, 견고성을 분석한다.
  • 성과, 비용, 친환경 AI 고려 측면에서 온라인 플랫폼에 대한 실용적 이점을 시사한다.

제안 방법

  • 독성 작업을 고정된 LLM과 학습 가능한 프롬프트(프리픽스-튜닝 스타일)로 프롬프트-튜닝 문제로 설정한다.
  • 다섯 가지 모델 패밀리(GPT2-M, GPT2-L, T5-S, T5-B, T5-L)와 여덟 개 데이터셋에서 두 가지 프롬프트 튜닝 변형을 평가한다.
  • 작업 1은 분류 프롬프트를 사용하여 레이블을 Yes/No로 매핑하고 이진 손실을 최적화한다.
  • 작업 2는 구간 탐지를 비독성 텍스트를 생성하도록 모델에 프롬프트를 주는 생성 작업으로 처리한 뒤, 구간을 식별하기 위해 차감한다.
  • 작업 3은 의미를 보존하면서 비독성 의역을 생성하는 생성 작업으로 디톡스를 처리하고 디톡스화된 출력으로 최적화한다.
  • 베이스라인(Perspective API, ToxicBERT, UnRoBERTa)과 비교하고 F1-점수 및 기타 지표를 보고한다.
(a) HateXplain
(a) HateXplain

실험 결과

연구 질문

  • RQ1고정된 LLM을 활용한 프롬프트 학습이 독성 관련 작업에서 task-specific 베이스라인과 비슷하거나 더 우수한 성능을 달성할 수 있는가?
  • RQ2다양한 독성 데이터셋과 작업에서 프롬프트 튜닝 방식의 데이터 효율성과 전이성은 어떠한가?
  • RQ3독성 콘텐츠 작업에서 프롬프트 튜닝과 전체 미세조정 간의 실용적 트레이드오프(속도, 학습 단계, 데이터 요구사항)는 무엇인가?
  • RQ4독성 콘텐츠에서 맞춤법 오류와 적대적 텍스트 교란에 대한 프롬프트 튜닝의 견고성은 어떠한가?
  • RQ5실세계 온라인 플랫폼에서 확장성과 안전성 측면에서 프롬프트 튜닝 방법이 갖는 함의는 무엇인가?

주요 결과

  • LLMs를 이용한 프롬프트 튜닝은 독성 분류에 대해 여러 데이터셋에서 베이스라인과 동등하거나 더 나은 F1 점수를 달성한다(예: HateXplain: 0.731 with GPT2-L vs. 0.703 baseline).
  • 독성 구간 탐지에서 프롬프트 튜닝은 0.643 F1에 도달하여 SPAN-BERT의 0.640을 약간 상회하며 훈련 시간도 감소한다.
  • 디톡스에서 프롬프트 튜닝은 의미를 보존하면서 평균 독성 점수를 크게 감소시킨다(예: ParaDetox에서 0.775에서 0.213으로).
  • 프롬프트 튜닝은 데이터 효율성을 보여주며 몇몇 경우에 500개의 학습 샘플로도 강력한 성과를 낸다(예: SBIC: 0.782 with 500 samples on T5-B).
  • 프롬프트 전이성은 데이터세트 의존적이며, MHS에서 학습한 프롬프트가 HateXplain의 프롬프트보다 다른 데이터셋에 더 잘 일반화한다는 것을 시사한다. 이는 학습 데이터의 다양성이 일반화를 향상시킴을 나타낸다.
  • 미세조정과 비교할 때, 소형 프롬프트 접두사를 사용하는 프롬프트 튜닝은 더 빠르게 경쟁력 있는 정확도에 도달할 수 있다(예: USElectionHate20에서 미세조정 100분 vs 프롬프트 튜닝 6분에 0.712 정확도).
  • 프롬프트 튜닝은 오타 및 적대적 교란에 대한 견고성을 보이며, 테스트된 시나리오에서 높은 정확도를 유지한다.
(b) USElectionHate20
(b) USElectionHate20

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.