[論文レビュー] Red Teaming LLMs as Socio-Technical Practice: From Exploration and Data Creation to Evaluation
この論文は、22 の半構造化インタビューを通じて、LLM のレッドチーミングの社会技術的実践を実証的に検討し、データセットがどのように作成・再利用・評価されるかを明らかにする。
Recently, red teaming, with roots in security, has become a key evaluative approach to ensure the safety and reliability of Generative Artificial Intelligence. However, most existing work emphasizes technical benchmarks and attack success rates, leaving the socio-technical practices of how red teaming datasets are defined, created, and evaluated under-examined. Drawing on 22 interviews with practitioners who design and evaluate red teaming datasets, we examine the data practices and standards that underpin this work. Because adversarial datasets determine the scope and accuracy of model evaluations, they are critical artifacts for assessing potential harms from large language models. Our contributions are first, empirical evidence of practitioners conceptualizing red teaming and developing and evaluating red teaming datasets. Second, we reflect on how practitioners' conceptualization of risk leads to overlooking the context, interaction type, and user specificity. We conclude with three opportunities for HCI researchers to expand the conceptualization and data practices for red-teaming.
研究の動機と目的
- AI 実務家が LLM のレッドチーミングデータセットをどのように作成・開発・評価しているか、そしてなぜそのように行うのかを理解する。
- レッドチーミングデータセットを開発する際に必要なツール・サポート・ワークフローを特定する。
- レッドチーミング実践における害の定義とリスクの framing がどのように行われているかを明らかにする。
提案手法
- LLM のレッドチーミングデータセットを設計・構築・再利用する AI 実務家21名を対象に、22 の半構造化インタビューを実施した。
- 参加者は Hugging Face および Papers with Code を介して公的レッドチーミングデータセットと関連文献から募集した。
- インタビュー記録からコードとテーマを導くために主題分析を用いた(21 件の親コード下に 47 件のサブコード)。
- 質問の文脈づけのため、インタビューは参加者が公表したデータセットと公開物を基に行われた。
実験結果
リサーチクエスチョン
- RQ1AI 実務家はどのようにレッドチーミングデータセットを作成・開発・評価し、なぜそのように行うのか?
- RQ2レッドチーミングデータセットを開発する際に実務家が必要とするツールとサポートは何か?
- RQ3実務家はレッドチーミング LLMs における害とリスクをどのように定義し、 framing しているのか?
主な発見
- レッドチーミングデータセットは中立ではなく、設計選択が利害関係者の価値観とリスク定義を埋め込む。
- 実務家はデータセットを三つの方法で構築する:ゼロから作成、既存データセットの再利用、または人間の相互作用から派生させる。
- レッドチーミングデータの評価には機械駆動と人間の介在の両方が関与し、文脈・多様性・指標が成果に影響を及ぼす。
- 学際的背景はレッドチーミングの枠組みを探索または分類として形作り、どの害を優先するかに影響する。
- 利害関係者の視点と包括的な安全性の考慮は実務ではしばしば過小評価され、表面化する害に影響を与える。
- HCI 研究者には、評価を使用状況・領域専門知識・相互作用レベルのリスクを含むよう拡張することが求められている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。