QUICK REVIEW

[論文レビュー] Unknown Examples & Machine Learning Model Generalization.

Yeounoh Chung, Peter J. Haas|arXiv (Cornell University)|Aug 24, 2018

Machine Learning and Data Classification参考文献 34被引用数 24

ひとこと要約

本論文では、共変量シフトやサンプリングバイアスによって欠落する未知の未知（unknown unknowns）—すなわち、訓練データに存在しないが実際には存在する可能性のある訓練例—を推定・合成することで、機械学習モデルの一般化性能を向上させる手法を提案する。多様なソースからの訓練データを用い、種の推定とデータ駆動型特徴モデリングを用いる。本手法は、テストデータを訓練時において利用しないまま、モデルの頑健性を向上させ、一般化誤差を低減する。

ABSTRACT

Over the past decades, researchers and ML practitioners have come up with better and better ways to build, understand and improve the quality of ML models, but mostly under the key assumption that the training data is distributed identically to the testing data. In many real-world applications, however, some potential training examples are unknown to the modeler, due to sample selection bias or, more generally, covariate shift, i.e., a distribution shift between the training and deployment stage. The resulting discrepancy between training and testing distributions leads to poor generalization performance of the ML model and hence biased predictions. We provide novel algorithms that estimate the number and properties of these unknown training examples---unknown unknowns. This information can then be used to correct the training set, prior to seeing any test data. The key idea is to combine species-estimation techniques with data-driven methods for estimating the feature values for the unknown unknowns. Experiments on a variety of ML models and datasets indicate that taking the unknown examples into account can yield a more robust ML model that generalizes better.

研究の動機と目的

訓練データとテストデータの分布が異なることによるモデル一般化性能の低下を是正すること。
データ収集バイアスによって系統的に欠落している訓練例（未知の未知）を検出・モデリングすること。
訓練時におけるテストデータの入手不可を前提に、モデルの頑健性および一般化性能を向上させる手法を開発すること。
重複するデータソースを用いた実用的でデータ駆動型のアプローチにより、訓練データ分布の是正を実現すること。

提案手法

訓練データにおけるレアまたは欠落しているデータタイプ（種）の数を推定するために、種の推定技術を用いる。
観測されたデータパターンに基づき、未知の未知の特徴値を妥当に推定するためのデータ駆動型手法を適用する。
カーネル密度推定（KDE）およびSMOTEベースの手法を用いて、欠落しているデータタイプのための現実的な訓練例を合成する。
モデル訓練の前に、これらの合成された未知の未知の例を訓練セットに組み込むことで、訓練セットを是正する。
訓練データとテストデータの間で条件付きクラス分布 p(y|x) が一貫しているという仮定に基づく。
訓練時におけるラベルなしテストデータや真のテスト分布の知識を必要としない。

実験結果

リサーチクエスチョン

RQ1テストデータが訓練時において入手不可である状況下で、どのようにして共変量シフトに対してモデルの頑健性を高められるか？
RQ2テストデータが入手不可である状況下で、欠落している訓練例（未知の未知）の特徴値を効果的に推定するにはどのような手法が有効か？
RQ3未知の未知のための合成データ生成によって、モデルの一般化性能を向上させられるか？
RQ4共変量シフトに対処する際、KDEとSMOTEの異なる合成データ生成手法は、どのように比較されるか？
RQ5未知の未知の学習が、モデル性能を顕著に向上させるのはどのような条件下か？

主な発見

NBA選手の身長・体重回帰タスクにおいて、SynUnk (KDE) がすべての手法の中で一般化誤差（Ge）を最小に抑えた。
提案手法は、MovieLensデータセットにおいても、ベースラインを上回る一般化性能を示した。
テストデータが訓練時において入手不可であった場合でも、合成された未知の未知の例は性能を低下させず、むしろ向上させる傾向にあった。
過剰な推定に対しても本手法は頑健であり、未知の未知が極めて集中していない場合でも、性能低下は最小限に抑えられた。
結果から、共変量シフト下では、良好に訓練されたモデルですら失敗する可能性があることが示され、事前の未知の未知の検出の重要性が浮き彫りになった。
本手法は、ターゲット分布の知識がなくても、特定のデータタイプの系統的かつ不十分な代表化によるバイアスを効果的に是正できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。