Skip to main content
QUICK REVIEW

[論文レビュー] Improved Fine-Tuning by Better Leveraging Pre-Training Data

Ziquan Liu, Yi Xu|arXiv (Cornell University)|Nov 24, 2021
Machine Learning and Data Classification被引用数 24
ひとこと要約

本研究は、ファインチューニング時に再学習データを再利用することでターゲットタスクの一般化を改善できることを分析し、ターゲットタスクに最も適合する事前学習データを選ぶ新規の不均衡最適輸送(UOT)ベースのデータ選択を提案する。

ABSTRACT

As a dominant paradigm, fine-tuning a pre-trained model on the target data is widely used in many deep learning applications, especially for small data sets. However, recent studies have empirically shown that training from scratch has the final performance that is no worse than this pre-training strategy once the number of training samples is increased in some vision tasks. In this work, we revisit this phenomenon from the perspective of generalization analysis by using excess risk bound which is popular in learning theory. The result reveals that the excess risk bound may have a weak dependency on the pre-trained model. The observation inspires us to leverage pre-training data for fine-tuning, since this data is also available for fine-tuning. The generalization result of using pre-training data shows that the excess risk bound on a target task can be improved when the appropriate pre-training data is included in fine-tuning. With the theoretical motivation, we propose a novel selection strategy to select a subset from pre-training data to help improve the generalization on the target task. Extensive experimental results for image classification tasks on 8 benchmark data sets verify the effectiveness of the proposed data selection based fine-tuning pipeline.

研究の動機と目的

  • 限られたデータを持つターゲットタスクのファインチューニングにおいて、事前学習がいつ、なぜ有効になるかを理解する。
  • 特定条件下で事前学習モデルへの依存が弱いことを示す一般化理論的見解を導出する。
  • ファインチューニング時に事前学習データを活用するデータ再利用戦略を提案する。
  • ターゲットタスクに最も類似した事前学習データを選択するための不均衡OTベースのデータ選択法を開発する。
  • 監督ありおよび自己教師ありの事前学習を用いて、8つの画像分類ベンチマークで提案手法を経験的に検証する。

提案手法

  • SGDベースの最適化を用いてターゲットと事前学習の目的F(θ)とG(θ)を形式化する。
  • ターゲットデータが十分に大きい場合に事前学習モデルへの依存が弱いことを示す過剰リスク境界を導出する。
  • ファインチューニング時に事前学習データを組み込む共同目的αF_n(θ)+(1−α)H_m(θ)を提案する。
  • ラベル付き、ランダム、類似性ベース(UOT)選択の3つのデータ選択戦略を導入する。
  • 事前学習データとターゲットデータ間の類似性を輸送計画によって計算するUOT目的関数を定義し、一般化Sinkhorn反復法で解く。
  • 共同最適化の過程でラベル付きおよびラベルなしの事前学習データの勾配計算を記述する。
  • 監督ありおよび自己教師ありの事前学習シナリオの実装上の詳細を提供する。

実験結果

リサーチクエスチョン

  • RQ1ファインチューニング時に事前学習データを再利用することで、標準的なファインチューニングを超えるターゲットタスクの一般化が改善されるか?
  • RQ2事前学習データとターゲットデータ間の類似性はファインチューニング性能にどう影響するか?
  • RQ3事前学習とターゲットタスク間のドメインギャップを最も効果的に低減するデータ選択戦略はどれか?
  • RQ4監督あり・自己監督ありの両方の事前学習に対して、不均衡OTベースの選択はロバストか?
  • RQ5限られたデータ条件下で、提案手法は多様なベンチマークデータセットでどのように性能を示すか?

主な発見

CUBペットSUN AircraftDTDCaltechAvg
81.0290.8678.4890.5563.6589.1677.5093.0983.04
81.4790.9178.9690.3963.6889.5977.0793.2783.17
83.??????????????????
  • ファインチューニング時に事前学習データを再利用することは、8つのデータセットを通じて素のファインチューニングより一貫して精度を向上させる。
  • 類似性ベースの(UOT)データ選択は、ほとんどのケースでランダムおよび貪欲的なOT選択を上回る。
  • UOTベースの選択は自己教師あり事前学習シナリオおよび低データ条件下でより大きな利得を生む。
  • ファインチューニングデータが希少なとき、データ再利用はより大きな利得を提供し、低データ領域での頑健性を示す。
  • 監督ありの事前学習では、UOTが比較手法の中で最良の平均性能を達成している(表1参照)。
  • 本アプローチはラベルあり・ラベルなしのデータの両方で柔軟に機能し、Co-Tuningなどの強力なベースラインよりもいくつかのデータセットで優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。