QUICK REVIEW

[論文レビュー] Sharing Residual Units Through Collective Tensor Factorization in Deep Neural Networks

Yunpeng Chen, Xiaojie Jin|arXiv (Cornell University)|Mar 7, 2017

Tensor decomposition and applications参考文献 28被引用数 29

ひとこと要約

本論文では、一般化ブロック項分解を用いて残留関数を統一し、集団的テンソル因子分解により残留ユニット間の知識共有を可能にする、パラメータ効率性を向上させる新しい深層学習アーキテクチャ「コロケイティブ・リジダアル・ユニット（CRU）」を提案する。CRUは、ResNet-50と同等のモデルサイズでImageNet-1kおよびPlaces365-Standardで最先端の精度を達成し、パラメータ数を著しく削減しながらResNet-200を上回る性能を発揮する。

ABSTRACT

Residual units are wildly used for alleviating optimization difficulties when building deep neural networks. However, the performance gain does not well compensate the model size increase, indicating low parameter efficiency in these residual units. In this work, we first revisit the residual function in several variations of residual units and demonstrate that these residual functions can actually be explained with a unified framework based on generalized block term decomposition. Then, based on the new explanation, we propose a new architecture, Collective Residual Unit (CRU), which enhances the parameter efficiency of deep neural networks through collective tensor factorization. CRU enables knowledge sharing across different residual units using shared factors. Experimental results show that our proposed CRU Network demonstrates outstanding parameter efficiency, achieving comparable classification performance to ResNet-200 with the model size of ResNet-50. By building a deeper network using CRU, we can achieve state-of-the-art single model classification accuracy on ImageNet-1k and Places365-Standard benchmark datasets. (Code and trained models are available on GitHub)

研究の動機と目的

標準の残留ユニットが性能向上をもたらす一方でパラメータ効率性が低いという問題に対処すること。
テンソル分解に基づく一様な数学的枠組みを用いて、多様な残留関数設計（例：ResNet、Wide ResNet、ResNeXt）を統一すること。
残留ユニット間での知識共有を可能にする新しいアーキテクチャを開発し、パフォーマンスを損なわずパラメータ効率性を向上させること。
顕著に小型なモデルを用いて大規模なベンチマークで最先端の分類精度を達成すること。

提案手法

一般化ブロック項分解（GBT）に基づく統一フレームワークを提案し、さまざまな残留関数を低ランクのトッカーオペレータの和として表現する。
共有要因行列を複数の残留ユニットに使用することで、知識移転を可能にし、パラメータ数を削減する「コロケイティブ・リジダアル・ユニット（CRU）」を導入する。
残留ユニット全体にわたる畳み込みカーネルを、集団的テンソル因子分解により分解し、共有表現を維持しながらモジュラリティを保つ。
トッカーオペレータをブロック項分解の特別なケースとして用い、高次元畳み込みカーネルを低ランク成分で近似する。
残留ユニットが層をまたいで要因行列を共有するモジュラーなアーキテクチャを設計し、冗長性を低減しパラメータ効率性を向上させる。
標準的な最適化手法を用いてCRU-Netアーキテクチャをエンドツーエンドで訓練し、ランクおよび要因共有に関するアブレーションスタディを実施。

実験結果

リサーチクエスチョン

RQ1深層残留ネットワークにおける多様な残留関数設計を、一様なテンソル分解フレームワークで統一できるか？
RQ2集団的テンソル因子分解を活用して残留ユニット間での知識共有を実現し、パラメータ効率性を向上させられるか？
RQ3深層ネットワークにおいて、モデル精度を損なわず、どの程度までパラメータ効率性を向上させられるか？
RQ4統一的かつ要因共有型アーキテクチャは、大規模画像分類ベンチマークで最先端の性能を達成できるか？

主な発見

CRU-Netは、168 MBのモデルサイズでImageNet-1kでトップ-1誤差率20.6%を達成し、パフォーマンスはResNet-200（247 MB）と同等ながら、32%少ないパラメータ数を用いている。
CRU-Net-116モデルは、318 MBのモデルサイズでImageNet-1kでトップ-1誤差率20.3%を達成し、ResNeXt-101（64x4d）およびWRNを上回っている。
Places365-Standardでは、CRU-Net-116がトップ-1精度56.60%を達成し、モデルサイズ163 MB（226 MB）でResNet-152（54.74%）を上回っている。
136x1d設定のモデルは、ImageNet-1kでトップ-1誤差率22.1%を達成し、因子分解ランクの違いに関わらず一貫した性能を示している。
実験の結果、CRU-Net-116を上回るモデルサイズに拡大しても過学習が生じることが判明し、ImageNet-1kに対してはアーキテクチャの容量がすでに十分であることが示された。
提案されたCRUアーキテクチャは、集団的テンソル因子分解が残留ユニット間での効果的な知識共有を可能にし、顕著にパラメータ効率性を向上させることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。