QUICK REVIEW

[論文レビュー] A Survey on Fairness in Large Language Models

Yingji Li, Mengnan Du|arXiv (Cornell University)|Aug 20, 2023

Ethics and Social Impacts of AI被引用数 21

ひとこと要約

本調査は、中規模LLM（事前学習/ファインチューニング）および大規模LLM（プロンプト活用）の公正性を概説し、評価指標、デバイアス方法、バイアスの原因、今後の方向性を網羅する。

ABSTRACT

Large Language Models (LLMs) have shown powerful performance and development prospects and are widely deployed in the real world. However, LLMs can capture social biases from unprocessed training data and propagate the biases to downstream tasks. Unfair LLM systems have undesirable social impacts and potential harms. In this paper, we provide a comprehensive review of related research on fairness in LLMs. Considering the influence of parameter magnitude and training paradigm on research strategy, we divide existing fairness research into oriented to medium-sized LLMs under pre-training and fine-tuning paradigms and oriented to large-sized LLMs under prompting paradigms. First, for medium-sized LLMs, we introduce evaluation metrics and debiasing methods from the perspectives of intrinsic bias and extrinsic bias, respectively. Then, for large-sized LLMs, we introduce recent fairness research, including fairness evaluation, reasons for bias, and debiasing methods. Finally, we discuss and provide insight on the challenges and future directions for the development of fairness in LLMs.

研究の動機と目的

中規模LLMおよび大規模LLMにおいて、公正性がどのように定義され、評価されるかを説明する。
中規模LLMの内部偏り除去（intrinsic）および外部偏り除去（extrinsic）手法を要約する。
プロンプト活用における大規模LLMの公正性評価、バイアスの原因、およびデバイアス手法を調査する。

提案手法

中規模LLMの公正性指標を、内部（埋め込み表現）と外部（下流タスク）に分類する。
内部偏り除去手法：前処理、処理中、後処理をレビューする。
外部偏り除去手法：データ中心アプローチとモデル中心アプローチをレビューする。
プロンプト下の大規模LLMの公正性評価手法、バイアスの原因、およびデバイアス戦略を論じる。
LLM公正性に関する課題と今後の方向性を統合する。

実験結果

リサーチクエスチョン

RQ1中規模LLMにおいて、内部と外部の公正性を捉える評価指標は何か？
RQ2中規模LLMで前処理、処理中、後処理の各段階に存在するデバイアス除去手法は何か？
RQ3プロンプト想定の大規模LLMで公正性はどのように評価・除去されるか？
RQ4LLMの公正性の主要な課題と今後の方向性は何か？
RQ5大規模LLMのバイアスの既知の原因は何で、どのように緩和できるか？

主な発見

内部指標は埋め込みのバイアスを定量化する（例：SEAT、CEAT、DisCo、LPBS、STS-B）一方、外部指標は下流タスクの公正性を評価する（共参照、意味的類似性、グループ公正性）。
中規模のデバイアス除去は、前処理、処理中、後処理を横断するデータレベル、モデルレベル、出力レベルの手法を含む。
大規模LLMの公正性は、プロンプト、対話、バイアスベンチマーク（例：BBQ、BiasAsker）によって評価され、いくつかの設定での改善にもかかわらず持続的なバイアスの証拠がある。
大規模LLMのバイアスは、トレーニングデータのバイアス、モデルの頻度効果、世界知識表現から生じ、能力の相転移がバイアスのパターンに影響を与える。
大規模LLMのデバイアス除去は依然課題がある。手法にはRLHFを用いた指示調整、プロンプト工学、セキュリティ重視の改善などが含まれる。
本調査は内部と外部のバイアス間の信頼できない相関を指摘し、多様なベンチマークとクロス指標評価を求めている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。