QUICK REVIEW

[論文レビュー] The Cells Out of Sample (COOS) dataset and benchmarks for measuring out-of-sample generalization of image classifiers

Alex X. Lu, Amy X. Lu|arXiv (Cornell University)|Jan 1, 2019

Cell Image Analysis Techniques被引用数 7

ひとこと要約

COOS-7 データセットは、7つのクラスに分けられた132,209枚のマウス細胞画像を含み、画像分類器におけるサンプル外一般化の体系的評価を可能にする。時間、機器、条件の異なる画像を含む4つのテストセット（分布内から分布外まで連続的に変化する共変量シフトを含む）を用い、転移学習、教師あり深層畳み込みニューラルネットワーク（CNN）、自己教師あり表現の性能をベンチマーク化した。その結果、分布シフトが大きくなるにつれて一貫した性能低下が観察された。

ABSTRACT

Understanding if classifiers generalize to out-of-sample datasets is a central problem in machine learning. Microscopy images provide a standardized way to measure the generalization capacity of image classifiers, as we can image the same classes of objects under increasingly divergent, but controlled factors of variation. We created a public dataset of 132,209 images of mouse cells, COOS-7 (Cells Out Of Sample 7-Class). COOS-7 provides a classification setting where four test datasets have increasing degrees of covariate shift: some images are random subsets of the training data, while others are from experiments reproduced months later and imaged by different instruments. We benchmarked a range of classification models using different representations, including transferred neural network features, end-to-end classification with a supervised deep CNN, and features from a self-supervised CNN. While most classifiers perform well on test datasets similar to the training dataset, all classifiers failed to generalize their performance to datasets with greater covariate shifts. These baselines highlight the challenges of covariate shifts in image data, and establish metrics for improving the generalization capacity of image classifiers.

研究の動機と目的

顕微鏡データを用いて、サンプル外一般化の標準化されたベンチマークを構築すること。
異なる表現学習手法が共変量シフトが増加する条件下でどのように性能を発揮するかを調査すること。
時間、機器、画像条件の観点から、現実的で制御された変動を捉えた公開データセットを整備すること。
分布シフトの下で、転移学習、教師あり深層学習、自己教師あり表現の頑健性を評価すること。

提案手法

COOS-7 データセットは、制御された異なる実験条件下で収集されたマウス細胞画像から構築された。
共変量シフトの度合いを段階的に増加させた4つのテストデータセットを構成した：分布内サブセット、同じ実験を数か月後に再実行したデータ、異なる機器で取得したデータ、異なる生物学的調製物。
多様なモデルを評価した：事前学習済みCNN特徴を用いた転移学習、エンドツーエンドの教師あり深層CNN、自己教師ありCNN表現。
分類精度を4つのテストセットで測定し、分布シフトが大きくなるに従っての一般化性能を定量化した。
データセットにより、時間的要因、機器、生物学的変動の各要因におけるモデルの頑健性の比較を制御可能にした。
共変量シフトの増加に伴う性能低下を測定することで、一般化能力をベンチマーク評価した。

実験結果

リサーチクエスチョン

RQ1異なる表現学習手法は、共変量シフトが増加するサンプル外データに対してどのように一般化するか？
RQ2転移学習、教師あり深層学習、自己教師あり表現は、現実的な画像条件の変動に対してどの程度性能を維持できるか？
RQ3テストデータがトレーニングデータから時間的要因、機器、生物学的条件の点でどれだけ離れるようになるかに伴い、性能はどのように低下するか？
RQ4サンプル外一般化を定量化するのに最も効果的な指標とベンチマークは何か？

主な発見

すべての分類器は分布内テストセットでは優れた性能を示したが、共変量シフトが大きいデータセットには一般化できなかった。
すべてのモデルタイプで一貫した性能低下が観察されたことから、分布シフトへの対処における根本的な課題が示された。
中程度のシフト下では、転移学習と自己教師あり表現がエンドツーエンドの教師ありCNNよりわずかに頑健性に優れていたが、高シフト下では依然として失敗した。
COOS-7ベンチマークにより、現在のモデルが時間的ズレのある実験や機器差による画像条件の変動に対して極めて感受性を示すことが明らかになった。
データセットとベンチマークにより、画像分類器における一般化性能の評価と向上を再現可能に可能にするフレームワークが確立された。
結果から、顕微鏡法やその他の画像応用分野における現実世界の分布シフトに対処するための、より優れた不変性学習の必要性が浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。