Skip to main content
QUICK REVIEW

[논문 리뷰] Interpretable Unified Language Checking

Tianhua Zhang, Hongyin Luo|arXiv (Cornell University)|2023. 04. 07.
Hate Speech and Cyberbullying Detection인용 수 8
한 줄 요약

UniLC는 GPT-3.5-turbo의 few-shot prompting을 활용하여 사실성, 공정성(고정관념), 혐오 발언을 인간이 작성한 텍스트와 기계가 생성한 텍스트 모두에서 공동으로 점검하고, 사실 grounding 및 함의(entailment)를 통해 태스크 전용 검색기나 모델 없이도 경쟁력 있는 성능을 달성한다.

ABSTRACT

Despite recent concerns about undesirable behaviors generated by large language models (LLMs), including non-factual, biased, and hateful language, we find LLMs are inherent multi-task language checkers based on their latent representations of natural and social knowledge. We present an interpretable, unified, language checking (UniLC) method for both human and machine-generated language that aims to check if language input is factual and fair. While fairness and fact-checking tasks have been handled separately with dedicated models, we find that LLMs can achieve high performance on a combination of fact-checking, stereotype detection, and hate speech detection tasks with a simple, few-shot, unified set of prompts. With the ``1/2-shot'' multi-task language checking method proposed in this work, the GPT3.5-turbo model outperforms fully supervised baselines on several language tasks. The simple approach and results suggest that based on strong latent knowledge representations, an LLM can be an adaptive and explainable tool for detecting misinformation, stereotypes, and hate speech.

연구 동기 및 목표

  • 단일 파이프라인에서 잘못된 정보, 고정관념, 혐오 발언을 감지하기 위한 통합 프레임워크를 제시한다.
  • LLM의 잠재 세계 지식을 활용하여 주장을 자연적 또는 사회적 사실에 grounding하여 윤리적 평가를 위한 근거를 마련한다.
  • 작업 특화된 미세조정이나 별도의 모델 없이 태스크에 구애받지 않는 프롬프팅 전략을 촉진한다.

제안 방법

  • LLM이 잠재적 이슈를 먼저 감지하고 grounding 정보를 생성하는 grounding-entailment 프레임워크를 제안한다.
  • 사실성 및 공정성을 결정하기 위해 zero-shot, few-shot 사실 생성 및 few-shot 기반의 grounded 윤리 분류 프롬프트를 사용한다.
  • 윤리적 분류를 위한 LLM 기반 grounding과 함의 모델 접근법을 비교한다.
  • 기후, 건강, 혐오 발언, 사회 편향, 기계 생성 텍스트 데이터셋을 결합한 공동 윤리 벤치마크를 평가한다.
  • 예측에 대한 grounding 영향력을 이해하기 위해 작업 인식 및 grounding 범주 효과를 검토한다.
Figure 1: The goal of this work is to build a system that adaptively checks misinformation, stereotypes, and hate speech with natural-language explanations. LLM stands for large language model and entailment stands for entailment-based stance detection. The grounding information generated by LLM con
Figure 1: The goal of this work is to build a system that adaptively checks misinformation, stereotypes, and hate speech with natural-language explanations. LLM stands for large language model and entailment stands for entailment-based stance detection. The grounding information generated by LLM con

실험 결과

연구 질문

  • RQ1단일하고 태스크에 구애받지 않는 프롬프팅 전략이 사람과 기계가 생성한 텍스트 모두에 대해 정확한 사실 검사와 공정성 검사를 가능하게 할 수 있는가?
  • RQ2grounding 정보(자연적 사실 또는 사회적 사실)가 통합된 언어 체크 파이프라인에서 함의 기반 윤리적 분류를 향상시키는가?
  • RQ3제로샷과 few-shot 프롬프팅 체계가 사실 확인과 공정성 확인 작업 모두에서 어떻게 비교되는가?
  • RQ4통합 프레임워크에서 윤리적 예측 단계에 대해 함의 모델을 사용하는 것과 LLM을 사용하는 것의 상대적 영향은 무엇인가?
  • RQ5클라이밋, 건강, 혐오 발언, 사회 편향, 기계 생성 콘텐츠와 같은 다양한 도메인에서 UniLC가 얼마나 잘 일반화되는가?

주요 결과

  • few-shot 프롬프트를 갖춘 통합 grounding-entailment 접근법은 다수의 사실 확인 및 공정성 검사 작업에서 작업 특화 기준선과 동등하거나 그 이상을 달성한다.
  • few-shot 사실 생성과 zero-shot 윤리 분류는 zero-shot 프롬프트 대비 사실성 및 공정성 판단을 향상시킨다.
  • 생성된 사실로 grounding된 함의 모델은 일반적으로 윤리적 예측을 향상시키며, 특히 공정성 작업에서 그렇다.
  • Grounding 정보 범주가 작업 성능에 영향을 주며, 사회적 사실이 공정성 판단을 자주 돕는다.
  • 이 접근법은 인간이 생성한 텍스트와 기계가 생성한 텍스트 모두에서 효과적이며, LLM이 적응 가능하고 설명 가능한 언어 검사기로 작용할 수 있음을 시사한다.
Figure 2: Based on the mix-task prompt, the language model automatically detects the stereotype problem and generates the corresponding grounding information. The generated texts are fed into the language model again with the claim for the final language check. The diagram illustrates three strategi
Figure 2: Based on the mix-task prompt, the language model automatically detects the stereotype problem and generates the corresponding grounding information. The generated texts are fed into the language model again with the claim for the final language check. The diagram illustrates three strategi

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.