Skip to main content
QUICK REVIEW

[論文レビュー] Understanding metric-related pitfalls in image analysis validation

Annika Reinke, Minu D. Tizabi|arXiv (Cornell University)|Feb 3, 2023
Radiomics and Machine Learning in Medical Imaging被引用数 20
ひとこと要約

クラウドソーシングと分類学ベースのリソースで、画像解析の検証における指標の落とし穴を文書化し、研究者が指標を正しく選択・適用するのを支援するドメイン非依存のフレームワーク。

ABSTRACT

Validation metrics are key for the reliable tracking of scientific progress and for bridging the current chasm between artificial intelligence (AI) research and its translation into practice. However, increasing evidence shows that particularly in image analysis, metrics are often chosen inadequately in relation to the underlying research problem. This could be attributed to a lack of accessibility of metric-related knowledge: While taking into account the individual strengths, weaknesses, and limitations of validation metrics is a critical prerequisite to making educated choices, the relevant knowledge is currently scattered and poorly accessible to individual researchers. Based on a multi-stage Delphi process conducted by a multidisciplinary expert consortium as well as extensive community feedback, the present work provides the first reliable and comprehensive common point of access to information on pitfalls related to validation metrics in image analysis. Focusing on biomedical image analysis but with the potential of transfer to other fields, the addressed pitfalls generalize across application domains and are categorized according to a newly created, domain-agnostic taxonomy. To facilitate comprehension, illustrations and specific examples accompany each pitfall. As a structured body of information accessible to researchers of all levels of expertise, this work enhances global comprehension of a key topic in image analysis validation.

研究の動機と目的

  • 画像解析を進歩させ、実践への適用につなぐ上で検証指標がなぜ重要かを要約する。
  • 分類、セグメンテーション、検出といった問題カテゴリ全体で一般的な落とし穴を整理・分類し、指標選択を助ける。
  • ドメイン非依存の分類法と実用的な例を提供し、指標の限界を明らかにする。
  • 研究者が指標の性質、限界、落とし穴を理解するための統一的なアクセス先を提供する。

提案手法

  • 62名の国際専門家を対象とした多段階Delphiプロセスによるクラウドソーシング。
  • 検証指標に関連する37の落とし穴ソースを特定するための文献レビュー。
  • 主要な3つのカテゴリー(P1、P2、P3)とサブカテゴリーに落と穴を分類するドメイン非依存の分類法を開発。
  • 事例を用いて落とし穴を示す指標別プロファイルとExtended Data資料を作成。
  • 研究者向けに個別の落とし穴と例を詳述する補足資料(Suppl. Note 2)。
Figure 1 . Examples of metric-related pitfalls in image analysis validation. (A) Medical image analysis example: Voxel-based metrics are not appropriate for detection problems. Measuring the voxel-level performance of a prediction yields a near-perfect Sensitivity. However, the Sensitivity at the in
Figure 1 . Examples of metric-related pitfalls in image analysis validation. (A) Medical image analysis example: Voxel-based metrics are not appropriate for detection problems. Measuring the voxel-level performance of a prediction yields a near-perfect Sensitivity. However, the Sensitivity at the in

実験結果

リサーチクエスチョン

  • RQ1生物医療分野の応用全体で、画像解析の検証指標における一般的な落とし穴は何か。
  • RQ2これらの落とし穴を指標選択と適用を支援するドメイン非依存の分類に整理できるか。
  • RQ3指標の定義、性質、限界に関する情報は研究者にどれだけアクセス可能か。
  • RQ4さまざまな状況下で指標選択を推奨する関連研究でどのような指針が存在するか。

主な発見

  • 検証指標に関する情報は研究者にほとんどアクセスできず、適切な指標選択を妨げている。
  • 学際的なDelphiプロセスにより、画像解析検証における指標の使用に関連する37の異なる落とし穴ソースが特定された。
  • 落とし穴を3つの主要なグループ(不適切な問題カテゴリ、指標選択の不適切さ、指標適用の不適切さ)に分類するドメイン非依存の分類法が作成された。
  • 一般的な慣行が指標選択を導くことが多いが、この慣行はしばしば正当化が不十分で、欠陥のある方法論を広める可能性がある。
  • この研究は、指標プロファイルやビジュアルを含む集中型リソースを提供し、研究者が特定の指標の潜在的な落とし穴を迅速に評価できるようにする。
Figure 2 . Overview of the taxonomy for metric-related pitfalls. Pitfalls can be grouped into three main categories: [P1] Pitfalls related to the inadequate choice of the problem category, [P2] pitfalls related to poor metric selection, and [P3] pitfalls related to poor metric application. [P2] and
Figure 2 . Overview of the taxonomy for metric-related pitfalls. Pitfalls can be grouped into three main categories: [P1] Pitfalls related to the inadequate choice of the problem category, [P2] pitfalls related to poor metric selection, and [P3] pitfalls related to poor metric application. [P2] and

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。