Skip to main content
QUICK REVIEW

[论文解读] Factors of Transferability for a Generic ConvNet Representation

Hossein Azizpour, Ali Sharif Razavian|arXiv (Cornell University)|Jun 22, 2014
Domain Adaptation and Few-Shot Learning参考文献 49被引用 23
一句话总结

本文識別並優化了影響通用卷積神經網絡表示在多種視覺識別任務間遷移性能的關鍵因素。透過系統性地調節來源網絡架構、訓練數據分佈、特徵提取層及後處理技術,作者在17項基準任務上實現了最高50%的相對錯誤率降低,且性能與來源任務(ImageNet)的任務距離強烈相關。

ABSTRACT

Evidence is mounting that Convolutional Networks (ConvNets) are the most effective representation learning method for visual recognition tasks. In the common scenario, a ConvNet is trained on a large labeled dataset (source) and the feed-forward units activation of the trained network, at a certain layer of the network, is used as a generic representation of an input image for a task with relatively smaller training set (target). Recent studies have shown this form of representation transfer to be suitable for a wide range of target visual recognition tasks. This paper introduces and investigates several factors affecting the transferability of such representations. It includes parameters for training of the source ConvNet such as its architecture, distribution of the training data, etc. and also the parameters of feature extraction such as layer of the trained ConvNet, dimensionality reduction, etc. Then, by optimizing these factors, we show that significant improvements can be achieved on various (17) visual recognition tasks. We further show that these visual recognition tasks can be categorically ordered based on their distance from the source task such that a correlation between the performance of tasks and their distance from the source task w.r.t. the proposed factors is observed.

研究动机与目标

  • 識別並評估影響通用卷積神經網絡表示遷移到新視覺識別任務的各項因素。
  • 確定網絡架構選擇、訓練數據分佈及特徵提取參數如何影響遷移性能。
  • 根據與ImageNet源任務的距離,建立視覺識別任務的分類排序。
  • 實證驗證遷移最佳超參數設定與此任務距離排序系統性相關。
  • 指導實務工作者在不從頭訓練的情況下選擇最佳遷移學習配置。

提出的方法

  • 系統性地評估多項影響遷移能力的因素:來源網絡架構、深度、寬度、訓練數據分佈、優化超參數及訓練目標。
  • 從預訓練卷積神經網絡的不同層(例如,fc6、fc7、fc8)提取特徵,並應用空間池化與基於主成分分析(PCA)的降維。
  • 分類任務使用線性SVM(一對多或一對一策略),檢索任務使用L2歸一化與子圖塊匹配方法。
  • 在目標任務數據上進行微調,以評估其對遷移性能的影響。
  • 根據語義與結構相似性,基於ImageNet源任務定義任務的分類分組。
  • 使用實證相關性分析,將最佳因素設定與任務距離ImageNet的遠近關聯起來。

实验结果

研究问题

  • RQ1來源卷積神經網絡的哪些架構與訓練因素最顯著地影響其學習表示在下游任務中的遷移能力?
  • RQ2遷移表示的性能與目標任務在語義與結構上距離ImageNet源任務的遠近之間有何關聯?
  • RQ3能否基於任務距離建立一致的視覺識別任務排序,以預測遷移學習的最佳超參數設定?
  • RQ4微調、層選擇或降維在多樣化任務中對遷移性能的提升程度如何?
  • RQ5是否存在系統性的最佳配置選擇模式,可指導實務工作者在不進行全面搜索的情況下選擇遷移學習設定?

主要发现

  • 優化遷移能力因素使17項多樣化視覺識別任務的相對錯誤率最高降低50%,相較於標準的現成卷積神經網絡特徵。
  • 性能提升在與ImageNet具有高語義與結構距離的任務上最為顯著,例如細粒度分類與場景識別。
  • 最佳特徵提取層選擇(如fc6與fc7)與降維方法(如PCA)隨任務類別系統性變化,遵循任務距離排序。
  • 在目標任務數據上微調網絡能持續提升性能,但其效益在距離源任務較遠的任務上最為顯著。
  • 基於與ImageNet距離的任務分類分組具有強烈的實證有效性,因為最佳超參數在各組內保持一致,且在排序中可預測性地變化。
  • 雖有例外情況,但可透過特定任務特徵(如物體尺度或空間佈局)加以解釋,顯示出基礎框架的穩健性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。