QUICK REVIEW

[論文レビュー] Deep Learning as a Mixed Convex-Combinatorial Optimization Problem

Abram L. Friesen, Pedro Domingos|arXiv (Cornell University)|Oct 31, 2017

Machine Learning and Algorithms被引用数 2

ひとこと要約

この論文は、ハードスティープ・アクティベーションを用いたディープラーニングを、混合凸・組合せ最適化問題として定式化し、ネットワークを線形分離可能なパーセプトロンに分解する再帰的ミニバッチ最適化により、体系的かつ原理的なトレーニングを可能にする。ImageNetにおけるAlexNetおよびResNet-18の分類精度を、ストレートスルー推定器を上回る。

ABSTRACT

As neural networks grow deeper and wider, learning networks with hard-threshold activations is becoming increasingly important, both for network quantization, which can drastically reduce time and energy requirements, and for creating large integrated systems of deep networks, which may have non-differentiable components and must avoid vanishing and exploding gradients for effective learning. However, since gradient descent is not applicable to hard-threshold functions, it is not clear how to learn networks of them in a principled way. We address this problem by observing that setting targets for hard-threshold hidden units in order to minimize loss is a discrete optimization problem, and can be solved as such. The discrete optimization goal is to find a set of targets such that each unit, including the output, has a linearly separable problem to solve. Given these targets, the network decomposes into individual perceptrons, which can then be learned with standard convex approaches. Based on this, we develop a recursive mini-batch algorithm for learning deep hard-threshold networks that includes the popular but poorly justified straight-through estimator as a special case. Empirically, we show that our algorithm improves classification accuracy in a number of settings, including for AlexNet and ResNet-18 on ImageNet, when compared to the straight-through estimator.

研究の動機と目的

ハードスティープ・アクティベーションを有するディープニューラルネットワークのトレーニングという課題に取り組む。これらの活性化関数は非微分可能であり、標準的な勾配降下法とは互換性がない。
ストレートスルー推定器の限界を克服する。この手法には原理的根拠がなく、しばしば最適でない性能に終わることがある。
非微分可能なコンponentsを有する大規模ディープネットワークにおける有効な学習を可能にするために、問題を離散最適化として再定式化し、凸部分問題を含む形で定式化する。
勾配の流れと安定性を保証するため、ハードスティープ・ユニットの最適なターゲットを体系的に求解する再帰的ミニバッチアルゴリズムを開発する。

提案手法

ハードスティープ・ネットワークの学習を、隠れユニットのターゲットを選び、線形分離性を保証する離散最適化問題として再定式化する。
各ユニットが凸的かつ線形に分離可能な最適化問題を解けるように、ターゲットを設定することでネットワークを個々のパーセプトロンに分解する。
再帰的ミニバッチアルゴリズムを用い、ターゲットと重みを繰り返し更新する。各パーセプトロンに対して凸最適化技術を活用する。
ターゲットを有効な値に最も近いものに設定する場合、ストレートスルー推定器がこのアルゴリズムの特別なケースとして統合される。
ImageNetのような大規模データセットにおけるトレーニング効率とスケーラビリティを維持するため、ミニバッチ設定でアルゴリズムを適用する。
バックプロパゲーション中にネットワークの機能的挙動を保持するため、一貫したターゲット割り当てを維持することで勾配伝搬を保証する。

実験結果

リサーチクエスチョン

RQ1ハードスティープ・ニューラルネットワークは、活性化関数の非微分性にもかかわらず、効果的にトレーニング可能だろうか？
RQ2ストレートスルー推定器は、原理的根拠を持つ最適化フレームワークによって正当化されたり改善されたりできるだろうか？
RQ3ハードスティープ・学習を混合凸・組合せ問題として定式化することで、従来のヒューリスティック手法よりも優れた性能が得られるだろうか？
RQ4ターゲット割り当てを伴う再帰的ミニバッチ最適化は、ImageNetのような標準ベンチマークで一般化性能と精度を向上させられるだろうか？

主な発見

提案されたアルゴリズムは、ImageNetでトレーニングされたAlexNetおよびResNet-18において、ストレートスルー推定器を上回る分類精度を達成する。
この手法は、問題を凸最適化の連鎖に変換することで、ハードスティープ・ネットワークのトレーニングに原理的フレームワークを提供する。
ストレートスルー推定器は、提案されたアルゴリズムの特別なケースとして形式的に統合され、その使用に理論的根拠が与えられる。
最適なターゲット割り当てにより線形分離性を保証することで、深層アーキテクチャにおける勾配消失および勾配爆発を回避する。
実験的結果により、複数のネットワークアーキテクチャにわたり一貫した性能向上が確認され、混合凸・組合せアプローチの有効性が裏付けられる。
再帰的ミニバッチアルゴリズムにより、性能向上を維持しながら、ディープハードスティープ・ネットワークのスケーラブルなトレーニングが可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。