Skip to main content
QUICK REVIEW

[論文レビュー] Shifts: A Dataset of Real Distributional Shift Across Multiple Large-Scale Tasks

Andrey Malinin, Neil Band|arXiv (Cornell University)|Jul 15, 2021
Anomaly Detection Techniques and Applications被引用数 45
ひとこと要約

大規模なマルチモーダルデータセット(表形式の天気予報、機械翻訳、車両モーション)を現実世界の分布シフトでベンチマークし、不確実性推定とロバスト性を評価する。ベースラインのアンサンブルはタスク全体でロバスト性と不確実性を向上させる。

ABSTRACT

There has been significant research done on developing methods for improving robustness to distributional shift and uncertainty estimation. In contrast, only limited work has examined developing standard datasets and benchmarks for assessing these approaches. Additionally, most work on uncertainty estimation and robustness has developed new techniques based on small-scale regression or image classification tasks. However, many tasks of practical interest have different modalities, such as tabular data, audio, text, or sensor data, which offer significant challenges involving regression and discrete or continuous structured prediction. Thus, given the current state of the field, a standardized large-scale dataset of tasks across a range of modalities affected by distributional shifts is necessary. This will enable researchers to meaningfully evaluate the plethora of recently developed uncertainty quantification methods, as well as assessment criteria and state-of-the-art baselines. In this work, we propose the Shifts Dataset for evaluation of uncertainty estimates and robustness to distributional shift. The dataset, which has been collected from industrial sources and services, is composed of three tasks, with each corresponding to a particular data modality: tabular weather prediction, machine translation, and self-driving car (SDC) vehicle motion prediction. All of these data modalities and tasks are affected by real, "in-the-wild" distributional shifts and pose interesting challenges with respect to uncertainty estimation. In this work we provide a description of the dataset and baseline results for all tasks.

研究の動機と目的

  • 分布シフトと予測不確実性に対するロバスト性を研究するために、複数のデータモダリティを跨ぐ標準化された現実世界ベンチマーク(Shifts)を導入する。
  • インドメイン分割とシフト分割を含む標準的データ Partition を提供して、デプロイ時の分布変化を模擬する。
  • アンサンブル法を用いたベースライン結果を提供して、タスク全体の性能と不確実性のベンチマークを確立する。
  • 保持曲線(エラー保持と F1 保持)および関連する AUC 指標を用いて、ロバスト性と不確実性を同時に評価する評価指標を提案する。

提案手法

  • 産業界の情報源から三つの大規模タスク(表形式の天気予報、機械翻訳、自己運転車のモーション予測)を構築する。
  • ロバストな不確実性推定と競争力のある予測性能を得るために、アンサンブルベースのベースラインを採用する。
  • エラー保持曲線と F1 保持曲線を用いて、シフトに対するロバスト性と不確実性の質(R-AUC、F1-AUC、F1@95%)を同時に評価する。
  • 現実的な分布シフトを反映するように、データをインドメインとシフト済みセットに Canonical partitioning する。
  • タスクに適した指標(回帰なら RMSE/MAE、分類なら accuracy/Macro-F1、MT なら BLEU/eGLEU/maxGLEU、モーションなら cNLL/minADE/minFDE)を用いて不確実性を評価する。

実験結果

リサーチクエスチョン

  • RQ1現実世界のマルチモーダルタスク全体で、分布シフトに対するモデルのロバスト性はどのように低下するか?
  • RQ2アンサンブルベースの不確実性推定は、シフト下で実際の誤差とどの程度相関するか?
  • RQ3どの不確実性指標が、モーダリティ横断でOOD(Out-Of-Distribution)入力を最もよく検出するか?
  • RQ4天気、翻訳、車両モーションのタスクにおいて、アンサンブルと単一モデルの性能と不確実性のトレードオフはどうなるか?
  • RQ5保持ベースの評価は、分布シフト下のハイブリッドな人間-AI の意思決定を信頼性をもって特徴づけることができるか?

主な発見

  • アンサンブルは Weather Prediction と Machine Translation のベースラインで一貫して単一モデルを上回り、Weather では RMSE/MAE、MT では BLEU/eGLEU などの指標を改善する。
  • Weather Prediction では、アンサンブルの RMSE 改善は dev-in、dev-out、eval-in、eval-out、eval partition で示され、単一モデルより不確実性ベースの保持指標(R-AUC および F1-AUC)で顕著な利得を示す。
  • 知識不確実性を捉える不確実性指標(例:EPKL、MI、RMI)は、回帰と分類タスクの OOD 検出で ROC-AUC が高くなる傾向があり、総不確実性指標(例:tvar、Conf、Entropy)は F1-AUC および F1@95% で優れる。
  • MT では、アンサンブルは単一モデルより高い R-AUC および F1-AUC を達成し、BLEU/eGLEU の相関はロバスト性の向上を示す。インドメインとシフト済みデータに対する ROC-AUC もアンサンブルを支持する。
  • Vehicle Motion Prediction タスクは、600k シーンで多部門の不確実性評価(cNLL、minADE、minFDE、重み付けバリアント)を導入し、BC および DIM RIP ベースラインを比較し、さまざまなアンサンブルサイズと不確実性手法を用いて、連続的な多軌道予測におけるアンサンブルベース不確実性の役割を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。