[論文レビュー] Measuring What AI Systems Might Do: Towards A Measurement Science in AI
AIの能力と傾向は反事実的文脈–行動関係によって定義される dispositional properties であり、現在のベンチマークと誘発測定を不十分と批判し、AI評価のための理論 grounded な disposition フレームワークを提案する。
Scientists, policy-makers, business leaders, and members of the public care about what modern artificial intelligence systems are disposed to do. Yet terms such as capabilities, propensities, skills, values, and abilities are routinely used interchangeably and conflated with observable performance, with AI evaluation practices rarely specifying what quantity they purport to measure. We argue that capabilities and propensities are dispositional properties - stable features of systems characterised by counterfactual relationships between contextual conditions and behavioural outputs. Measuring a disposition requires (i) hypothesising which contextual properties are causally relevant, (ii) independently operationalising and measuring those properties, and (iii) empirically mapping how variation in those properties affects the probability of the behaviour. Dominant approaches to AI evaluation, from benchmark averages to data-driven latent-variable models such as Item Response Theory, bypass these steps entirely. Building on ideas from philosophy of science, measurement theory, and cognitive science, we develop a principled account of AI capabilities and propensities as dispositions, show why prevailing evaluation practices fail to measure them, and outline what disposition-respecting, scientifically defensible AI evaluation would require.
研究の動機と目的
- Counterfactual な文脈条件に依存する dispositional properties としての能力と傾向を定義する。
- 標準のベンチマークと誘発測定が AI システムの disposition を測定するのに失敗する理由を説明する。
- 因果構造と独立した文脈的運用化に基づく disposition を尊重する測定フレームワークを概説する。
提案手法
- dispositions を因果的・階層的・比較可能な特性として概念的に展開する。
- タスク要請(abilities)と報酬関連(propensities)文脈成分の区別を行う。
- 標準ベンチマークやレッドチーミングのようなデータ駆動の理論非依存測定アプローチを批判する。
- 潜在変数モデル(IRT)などが独立した文脈理論なしには真の dispositions を捉えきれないことの限界を論じる。
実験結果
リサーチクエスチョン
- RQ1AI の能力と傾向とは正確に何であり、それらを dispositional properties としてどのように定義できるのか?
- RQ2なぜ現在の評価実践はこれらの dispositions を科学的に測定できないのか?
- RQ3AI システムの disposition を尊重する測定フレームワークはどのようなものになるのか?
- RQ4パフォーマンス指標を超えて因果的文脈–行動関係を推測するにはどうすればよいのか?
- RQ5測定が安全性が求められる領域や倫理的に禁止された領域へ外挿できるのか?
主な発見
- AI の能力と傾向は反事実的文脈–行動関係によって定義される dispositional properties。
- ベンチマークと誘発測定はパフォーマンスと dispositions を混同し、原理的な因果根拠を欠く。
- IRT のような潜在変数モデルはパフォーマンスを要約するが、基礎となる因果的文脈的特性を同定しない。
- 科学的測定アプローチには、因果構造を仮説化し、文脈変数を独立に運用化し、文脈–行動関係をマッピングすることが必要。
- 現行の評価は理論駆動のフレームワークなしには超人間や安全性が懸念される領域へ一般化できない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。