Skip to main content
QUICK REVIEW

[論文レビュー] Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback

Hannah Rose Kirk, Bertie Vidgen|arXiv (Cornell University)|Mar 9, 2023
Open Source Software Innovations被引用数 23
ひとこと要約

本論文はパーソナライズされた大規模言語モデル(LLMs)の利点とリスクの分類と、社会的制約の中でパーソナライズされた調整を統治する三層の政策フレームワークを提案し、個人への影響と社会的影響を区別する。

ABSTRACT

Large language models (LLMs) are used to generate content for a wide range of tasks, and are set to reach a growing audience in coming years due to integration in product interfaces like ChatGPT or search engines like Bing. This intensifies the need to ensure that models are aligned with human preferences and do not produce unsafe, inaccurate or toxic outputs. While alignment techniques like reinforcement learning with human feedback (RLHF) and red-teaming can mitigate some safety concerns and improve model capabilities, it is unlikely that an aggregate fine-tuning process can adequately represent the full range of users' preferences and values. Different people may legitimately disagree on their preferences for language and conversational norms, as well as on values or ideologies which guide their communication. Personalising LLMs through micro-level preference learning processes may result in models that are better aligned with each user. However, there are several normative challenges in defining the bounds of a societally-acceptable and safe degree of personalisation. In this paper, we ask how, and in what ways, LLMs should be personalised. First, we review literature on current paradigms for aligning LLMs with human feedback, and identify issues including (i) a lack of clarity regarding what alignment means; (ii) a tendency of technology providers to prescribe definitions of inherently subjective preferences and values; and (iii) a 'tyranny of the crowdworker', exacerbated by a lack of documentation in who we are really aligning to. Second, we present a taxonomy of benefits and risks associated with personalised LLMs, for individuals and society at large. Finally, we propose a three-tiered policy framework that allows users to experience the benefits of personalised alignment, while restraining unsafe and undesirable LLM-behaviours within (supra-)national and organisational bounds.

研究の動機と目的

  • 集約的な整合性を超えて、LLMs の明示的な個人化がなぜ必要かを動機づける。
  • 個人レベルと社会レベルでのパーソナライズされたLLMsの利益とリスクを特徴付ける。
  • 安全で有界な個人化を可能にする三層のガバナンス枠組みを開発する。
  • 整合性と個人化を定義する際の規範的・実務的な課題を指摘する。

提案手法

  • 既存の整合性文献、RLHF、クラウドワーカーの課題をレビューして、現行アプローチのギャップを特定する。
  • AI、LLMs、レコメンダーシステム、関連するインターネット技術から派生した利益とリスクの分類法を構築する。
  • 三層の政策フレームワークを提案する(国レベル/超国家的境界、提供者主導、エンドユーザー個別要件)。
  • タクソノミーを精練するための利害関係者インタビューを含む今後の研究を概説する。

実験結果

リサーチクエスチョン

  • RQ1個人レベルと社会レベルでのパーソナライズされたLLMsの潜在的な利益とリスクは何か?
  • RQ2利益を保ちながら、個人化を安全で受け入れられる範囲に制約するにはどうすればよいか?
  • RQ3有害の拡大を招くことなく、明示的な個人化を最もよく支えるガバナンス構造は何か?
  • RQ4パーソナライズされたLLMsにおける整合性、価値観、エンドユーザーの表現を定義する際の規範的な課題は何か?

主な発見

  • パーソナライズされたLLMsは、効率性、有用性、自律性、共感を高める可能性がある一方、労力負担、依存、バイアスの強化、プライバシーの懸念、人間化(anthropomorphism)などのリスクを高める。
  • リスクは個々の相互作用から社会的な結果へ集約され、分極化、不平等なアクセス、労働の置換などが生じる。
  • 三層のガバナンス枠組みは、不可変の国家的境界、提供者が課す制約、エンドユーザーの適応を組み合わせることで、利益と安全性のバランスを取れる。
  • 暗黙的なクラウドワーカーベースの整合性から、個々のエンドユーザーの文脈に合わせた明示的な個人化へ移行する必要がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。