QUICK REVIEW

[論文レビュー] Uncertainty Toolbox: an Open-Source Library for Assessing, Visualizing, and Improving Uncertainty Quantification

Youngseog Chung, Ian Char|arXiv (Cornell University)|Sep 21, 2021

Explainable Artificial Intelligence (XAI)参考文献 27被引用数 40

ひとこと要約

論文は、回帰における不確実性定量化（UQ）を評価・可視化・再調整するためのオープンソースPythonライブラリである Uncertainty Toolbox を紹介し、確率的ニューラルネットワークのさまざまな損失オブジェクトを比較するための一連の指標と可視化を提供する。

ABSTRACT

With increasing deployment of machine learning systems in various real-world tasks, there is a greater need for accurate quantification of predictive uncertainty. While the common goal in uncertainty quantification (UQ) in machine learning is to approximate the true distribution of the target data, many works in UQ tend to be disjoint in the evaluation metrics utilized, and disparate implementations for each metric lead to numerical results that are not directly comparable across different works. To address this, we introduce Uncertainty Toolbox, an open-source python library that helps to assess, visualize, and improve UQ. Uncertainty Toolbox additionally provides pedagogical resources, such as a glossary of key terms and an organized collection of key paper references. We hope that this toolbox is useful for accelerating and uniting research efforts in uncertainty in machine learning.

研究の動機と目的

回帰設定における予測不確実性の頑健な評価を動機付け、UQ手法間の公平な比較を可能にする。
校正された指標、再校正ユーティリティ、分布予測の可視化ツールを備えた統一ツールボックスを提供する。
複数の評価指標が全体的な UQ 評価には不可欠であり、再校正がキャリブレーションを改善しうることを示す。
新規参入者と研究者が UQ ツールを効果的に利用できるよう、用語集や論文推奨などの教育リソースを提供する。

提案手法

Uncertainty Toolbox の4つの主要機能（評価指標、等渋回帰による再校正、可視化、 pedagogy resources）を説明する。
校正、グループ校正、シャープネス、適切なスコアリング規則を含む予測 UQ の評価指標を要約・形式化する。
さまざまな損失関数で確率的ニューラルネットワークを訓練し、複数の指標で評価するケーススタディを通じてツールボックスの使用法を示す。
分布予測の平均キャリブレーションを改善するための再校正手順を実装する。
合成データセット、複数の損失関数（NLL，CRPS，Check，Interval）および一連の UQ 診断を用いたケーススタディのワークフローを提供する。
指標のスイートを用いて方法を比較し、指標間の潜在的な矛盾点と補完情報を示す。

実験結果

リサーチクエスチョン

RQ1統一されたツールボックスは回帰タスクにおける不確実性定量化の比較可能性をどう改善できるか。
RQ2異なる損失目的に対する一般的な UQ 評価指標の強みと限界は何か。
RQ3再校正（例：等渋回帰）は確率的ニューラルネットワークの分布予測の平均キャリブレーションを改善できるか。
RQ4複数の指標は単一スコア評価を超えて UQ の質に関する補完的な洞察を提供するか。

主な発見

指標	NLL	CRPS	Check	Interval	真の値
RMSE	1.689	1.023	1.045	1.169	0.962±0.064
MAE	0.852	0.661	0.672	0.745	0.618±0.042
ECE	0.057	0.056	0.092	0.039	0.019±0.002
Sharpness	1.451	0.729	0.720	0.722	0.925±0.052
NLL	2.214	1.266	4.264	0.780	-0.083
CRPS	0.604	0.427	0.434	0.447	0.370
Check	0.305	0.215	0.219	0.226	0.187
Interval	2.990	2.323	2.434	2.309	1.758

校正、シャープネス、および適切な得点規則の指標群は、単一指標よりも UQ の質をよりニュアンスのある見方で捉える。
異なる損失目的（NLL、CRPS、Check、Interval）は、それぞれキャリブレーションとシャープネスの振る舞いが異なり、すべての指標で一つの手法が支配的とはならない。
敵対的なグループ校正や他の校正診断は、ある手法が入力ドメインのサブセットに対してより良くキャリブレーションされていることを示し、平均だけではわからないことを露呈する。
等渋回帰による再校正は分布予測の平均キャリブレーションを改善できる。
適切なスコアリング規則はキャリブレーションとシャープネスのトレードオフを捉え、用いられる指標によって手法のランキングが異なる可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。