Skip to main content
QUICK REVIEW

[論文レビュー] Data Augmentation Using GANs

Fabio Henrique Kiyoiti dos Santos Tanaka, Claus Aranha|arXiv (Cornell University)|Apr 19, 2019
Digital Media Forensic Detection参考文献 12被引用数 143
ひとこと要約

論文は生成対抗ネットワークを用いて分類器の訓練用の合成数値データを生成し、不均衡データセットのバランスを取る;結果は一部のケースで元データと競合する精度/リコール、ベースラインより改善だが、SMOTE/ADASYNは高度に不均衡なタスクでGANベースのオーバーサンプリングを上回ることもある。

ABSTRACT

In this paper we propose the use of Generative Adversarial Networks (GAN) to generate artificial training data for machine learning tasks. The generation of artificial training data can be extremely useful in situations such as imbalanced data sets, performing a role similar to SMOTE or ADASYN. It is also useful when the data contains sensitive information, and it is desirable to avoid using the original data set as much as possible (example: medical data). We test our proposal on benchmark data sets using different network architectures, and show that a Decision Tree (DT) classifier trained using the training data generated by the GAN reached the same, (and surprisingly sometimes better), accuracy and recall than a DT trained on the original data set.

研究の動機と目的

  • 不均衡データセットとプライバシー問題に対処するためのデータ拡張を動機づける。
  • 分類器の訓練データとしてGAN生成合成データを評価する。
  • GANベースのオーバーサンプリングをSMOTEおよびADASYNと比較する。
  • 数値の表形式データに対して効果的な合成データを生み出すGANアーキテクチャを特定する。

提案手法

  • GANを利用して元データ分布を模倣する合成数値データを生成する。
  • 合成データで決定木分類器を訓練し、元データでの訓練と比較する。
  • ネットワークの深さと幅を変化させて6つのGAN構成を実験する。
  • GAN生成データを用いてマイノリティクラスをオーバーサンプリングし、不均衡データをバランス化し、SMOTE/ADASYNと比較する。
  • GAN訓練前にmin-maxスケーリングを[0,1]に前処理する。
  • 合成データと元データ点との平均ユークリッド距離で類似性を評価する。

実験結果

リサーチクエスチョン

  • RQ1GAN生成合成データは元データで訓練するのと同等かそれ以上の性能を持つ分類器を訓練できるか?
  • RQ2GANはSMOTEおよびADASYNと比較して不均衡データを効果的にバランスさせることができるか?
  • RQ3数値・非画像データセットに対して最高の性能を発揮するGANアーキテクチャ(深さ/幅)は何か?
  • RQ4合成データは元データ属性の直接漏洩を減らすことによりプライバシーを向上させるか?

主な発見

  • 256/512層のGANアーキテクチャは一般的にデータセット全体で最良の総合結果をもたらし、精度について統計的有意性を示す(p<0.05)。
  • 一部のケースでは、GAN合成データで訓練した分類器は元データで訓練したものと同等またはそれを上回る精度と適合率を達成した。
  • GANベースのオーバーサンプリングは元の不均衡データに対して改善をもたらしたが、高度に不均衡なタスク(クレジットカード不正など)ではSMOTEやADASYNを一貫して上回ることはなく、特にリコールに敏感な設定でそうなる。
  • 完全に合成データで訓練すると、GAN訓練中に明示的なクラス分離はなくても、クラス分布と属性を保持できることがある。
  • ユークリッド距離分析は、合成データが元データと十分に異なりプライバシー上の利点を提供し得ることを示唆しており、特に癌データセットでそうである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。