[論文レビュー] Assessing Language Model Deployment with Risk Cards
本論文は RiskCards を提案する。リスク中心の、開放的で参加型の、言語モデルのデプロイにおけるリスクの構造化された評価と文書化のためのフレームワークであり、スターターセットと使用および進化のガイドラインを備える。
This paper introduces RiskCards, a framework for structured assessment and documentation of risks associated with an application of language models. As with all language, text generated by language models can be harmful, or used to bring about harm. Automating language generation adds both an element of scale and also more subtle or emergent undesirable tendencies to the generated text. Prior work establishes a wide variety of language model harms to many different actors: existing taxonomies identify categories of harms posed by language models; benchmarks establish automated tests of these harms; and documentation standards for models, tasks and datasets encourage transparent reporting. However, there is no risk-centric framework for documenting the complexity of a landscape in which some risks are shared across models and contexts, while others are specific, and where certain conditions may be required for risks to manifest as harms. RiskCards address this methodological gap by providing a generic framework for assessing the use of a given language model in a given scenario. Each RiskCard makes clear the routes for the risk to manifest harm, their placement in harm taxonomies, and example prompt-output pairs. While RiskCards are designed to be open-source, dynamic and participatory, we present a "starter set" of RiskCards taken from a broad literature survey, each of which details a concrete risk presentation. Language model RiskCards initiate a community knowledge base which permits the mapping of risks and harms to a specific model or its application scenario, ultimately contributing to a better, safer and shared understanding of the risk landscape.
研究の動機と目的
- RiskCards を、文脈における LM デプロイメントのリスクを文書化するリスク中心のフレームワークとして紹介する。
- リスクを有害性分類に対応づけ、具体的な prompt・output の例を含む構造化されたカード形式を提供する。
- 監査およびデプロイメントのワークフローで RiskCards を構築・適用・進化させるためのガイドラインを提供する。
- 自動化されたベンチマークを補完する、参加型で動的な定性的リスク評価を促進する。
提案手法
- リスク名、説明、分類の配置、被害タイプ、影響を受ける主体、害の条件、例となる prompt/outputs のフィールドを含む標準化された RiskCard 構造を定義する。
- リスクを既存の有害性分類(Weidinger et al., 2022; Shelby et al., 2022)に対応づけ、法的有害性カテゴリを導入する。
- 実例としての RiskCards(例:hate speech、prompt extraction)を示し、その構成要素を論じる。
- RiskCard の作成、適用、そして動的なオープンソース知識ベースへの貢献のためのワークフローを概説する。
- 定性的で人間主導の評価を提唱し、自動化されたリスクベンチマークやレッドチーミングを補完する。
実験結果
リサーチクエスチョン
- RQ1リスク中心の文書化は、モデルやアプリケーション全体での LM の有害性の理解と緩和をどのように改善できるか。
- RQ2再利用可能で文脈に応じたリスク評価を可能にする、RiskCards の最適な構造と内容とは。
- RQ3RiskCards は監査、モデルデプロイ、方針ガイダンスにどのように適用して LM のリスクを管理できるか。
- RQ4LM デプロイのための動的で参加型のリスク知識ベースを維持するために、どのような指針が必要か。
主な発見
- RiskCards は、リスクを有害性分類とデプロイメントシナリオに結びつけた、再利用可能で文脈感度の高いフレームワークを提供する。
- 有害性がどのように顕在化するかを示す例として、サンプルの prompt と outputs を含む構造化された文書化を可能にする。
- スターターセットは、リスク間の適用性を示し、反復的でコミュニティ主導の進化を支える。
- RiskCards は、定性的で人間を介したリスク評価を重視することで、ベンチマークやレッドチーミングを補完する。
- このフレームワークは、監査、モデル・カード作成、研究、レッドチーミング、政策立案、公開検証など、多様な用途をサポートする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。