Skip to main content
QUICK REVIEW

[論文レビュー] Scalable Delphi: Large Language Models for Structured Risk Estimation

Tobias Lorenz, Mario Fritz|arXiv (Cornell University)|Feb 9, 2026
Artificial Intelligence in Healthcare and Education被引用数 0
ひとこと要約

要約: 本論文は Scalable Delphi を提案し、多様な LLM パーソナを用いて反復的で合理的根拠を共有する構造化手法 elicitation を行い、サイバーセキュリティのベンチマーク全体で人間専門家との校正と整合性を強く示しつつ elicitation 時間を大幅に削減する。

ABSTRACT

Quantitative risk assessment in high-stakes domains relies on structured expert elicitation to estimate unobservable properties. The gold standard - the Delphi method - produces calibrated, auditable judgments but requires months of coordination and specialist time, placing rigorous risk assessment out of reach for most applications. We investigate whether Large Language Models (LLMs) can serve as scalable proxies for structured expert elicitation. We propose Scalable Delphi, adapting the classical protocol for LLMs with diverse expert personas, iterative refinement, and rationale sharing. Because target quantities are typically unobservable, we develop an evaluation framework based on necessary conditions: calibration against verifiable proxies, sensitivity to evidence, and alignment with human expert judgment. We evaluate in the domain of AI-augmented cybersecurity risk, using three capability benchmarks and independent human elicitation studies. LLM panels achieve strong correlations with benchmark ground truth (Pearson r=0.87-0.95), improve systematically as evidence is added, and align with human expert panels - in one comparison, closer to a human panel than the two human panels are to each other. This demonstrates that LLM-based elicitation can extend structured expert judgment to settings where traditional methods are infeasible, reducing elicitation time from months to minutes.

研究の動機と目的

  • スケーラブルで構造化されたリスク推定の必要性を動機づける—従来の Delphi が遅すぎる場合。
  • 多様なペルソナを持つ LLM エージェントへ Delphi プロトコルを適応させ、独立したラウンドとフィードバックを実現。
  • 潜在量の校正、証拠感度、人間との整合性に焦点を当てた評価フレームワークを開発。
  • AI 拡張サイバーセキュリティのベンチマーク付きの真値プロキシと人間ベースラインを用いて手法を実証。

提案手法

  • 異なるペルソナを持つ k 個の LLM 専門家エージェントのパネルを設定。
  • 証拠と前回のフィードバックに条件づけられた推定値をエージェントが提供する多ラウンドの elicitation を実施。
  • 最終ラウンド後、パネルリストの平均で最終推定を集約。
  • 再利用を可能にするため、システム(ペルソナ、プロセス)とユーザー(タスク、証拠)を別個のプロンプトで分離。
  • 検証可能な代理指標に対する Leave-One-Out 予測で校正を評価し、証拠感度を評価。
  • LLM の推定と独立した人間専門家パネルを比較し、推論の質を分析。

実験結果

リサーチクエスチョン

  • RQ1LLM ベースのパネルは潜在リスク量の校正された確率推定を提供できるか?
  • RQ2付加または除去された証拠に対して推定は sensibly(意味的に)反応し、人間専門家の判断と整合するか?
  • RQ3LLM ベースの elicitation は、サイバーセキュリティリスクにおける真のベンチマークや人間専門家パネルとどのように比較されるか?
  • RQ4複数ペルソナの LLM アンサンブルは、人間専門家と同様の現実的な不確実性とばらつきを提供できるか?

主な発見

  • LLM パネルは真のベンチマークとの強い相関を達成(ピアソン r=0.87〜0.95)。
  • 証拠が追加されると推定値は体系的に改善する(高い証拠感度)。
  • LLM の推定は人間の専門家パネルと整合し、あるケースでは二つの人間パネルよりも人間パネルに近い(MAD 5.0pp 対 16.6pp)。
  • フロンティアモデルの二つ(GPT-5.1 と Claude Opus 4.1)はベンチマーク全体で単純なヒューリスティックを上回る。
  • elicitation は月単位から分単位へと時間を短縮し、拡張可能で監査可能な構造化判断を提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。