QUICK REVIEW

[論文レビュー] RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition

Xiaohan Ding, Chunlong Xia|arXiv (Cornell University)|May 5, 2021

Advanced Neural Network Applications参考文献 31被引用数 65

ひとこと要約

RepMLP は、推論時に 3 つの全結合層へ統合可能なグローバル・パーセプトロン、パーティション・パーセプトロン、ローカル・パーセプトロンを備えた訓練時ブロックを導入し、ImageNet および関連タスクで従来の CNN よりも FLOPs を抑え、速度を向上させつつ競争力のある精度を実現します。

ABSTRACT

We propose RepMLP, a multi-layer-perceptron-style neural network building block for image recognition, which is composed of a series of fully-connected (FC) layers. Compared to convolutional layers, FC layers are more efficient, better at modeling the long-range dependencies and positional patterns, but worse at capturing the local structures, hence usually less favored for image recognition. We propose a structural re-parameterization technique that adds local prior into an FC to make it powerful for image recognition. Specifically, we construct convolutional layers inside a RepMLP during training and merge them into the FC for inference. On CIFAR, a simple pure-MLP model shows performance very close to CNN. By inserting RepMLP in traditional CNN, we improve ResNets by 1.8% accuracy on ImageNet, 2.9% for face recognition, and 2.3% mIoU on Cityscapes with lower FLOPs. Our intriguing findings highlight that combining the global representational capacity and positional perception of FC with the local prior of convolution can improve the performance of neural network with faster speed on both the tasks with translation invariance (e.g., semantic segmentation) and those with aligned images and positional patterns (e.g., face recognition). The code and models are available at https://github.com/DingXiaoH/RepMLP.

研究の動機と目的

Fully-connected 層のグローバルな容量と位置情報を、畳込みの局所プリオリを組み合わせて画像認識に活かすことを動機づける。
訓練時の RepMLP ブロック（Global Perceptron、Partition Perceptron、Local Perceptron）と、推論時に畳み込みを FC にマージする単純でプラットフォーム非依存の方法を開発する。
従来の CNN に対する ImageNet 分類・顔認識・セマンティックセグメンテーションなどのタスクでの性能向上を、FLOPs を抑えつつ実証する。
RepMLP を ResNet 風のアーキテクチャ内にデプロイする実用的なガイドラインを提供し、分割、グルーピング、カーネルサイズといった設計選択の影響を示す。

提案手法

Global Perceptron を導入し、特徴マップのパーティション間のグローバル相関を注入する。
Partition Perceptron を導入し、パーティション化されたマップ上で動作する FC と BN により、パラメータをパーティション間で共有する。
Local Perceptron を導入し、複数の畳み込みブランチ（K = 1, 3, 5, 7）と BN を用意し、その出力を Partition 出力と和として結合する。
長距離依存をスケーラブルにモデル化するため、パラメータ数を削減するグループ化 FC（gFC）を導入し、 grouped 1x1 conv によって実装可能とする。
訓練時の計算と同等であることを保ちながら、畳み込みと BN を単一の FC ベースの推論ブロックへマージする、微分可能な手順を提案する（W^(F,p)、BN フュージョン方程式）
RepMLP ブロック全体を効率的な推論のために 3 つの FC 層へ変換することを説明する。

実験結果

リサーチクエスチョン

RQ1FC ベースのブロックが、局所プリオリを備えつつ、グローバルな依存関係と位置情報の両方を画像タスクで捉えられるか。
RQ2畳み込み/ BN ブランチを訓練して、推論時コストなしに FC にマージできるか、精度と速度を向上させつつ実証できるか。
RQ3分割、グルーピング、カーネル選択が画像分類、顔、セグメンテーションの性能に与える影響はどのようか。
RQ4RepMLP は標準的なベンチマークで、自己注意機構や他のグローバル容量モジュールと比べて、速度と精度の点でどうなるか。

主な発見

CIFAR-10 上の純 MLP で RepMLP は 91.11% の精度を達成し、52.8M FLOPs で、特定の設定下では CNN の性能に迫る。
ImageNet（224x224）で ResNet-50 の畳み込みを RepMLP に置換すると、FLOPs が抑えられ、通常の ResNet-50 よりもスループットが速い競争力のある精度になる（例：224 入力で RepMLP-Res50 は top-1 78.55%、速度 636 例/秒、パラメータ 40.87M、対して ResNet-50 は 77.19% の精度、689 例/秒、パラメータ 25.53M）。
320x320 入力で、RepMLP-Res50 バリアントは ResNet-50/ResNet-101 ベースラインより高い精度とスループットを達成する。例として g8/16 の RepMLP-Res50 は top-1 79.76%、312 例/秒を達成する一方、同等の ResNet-50/101 セットはより低いスループットを示す。
表の比較は、RepMLP バリアントが標準的な CNN に対して同等または向上する精度を保ちながら FLOPs を大幅に削減できることを示唆している（例：224 入力の ResNet-50 対 RepMLP-Res50）。
グルーピングとチャネル削減パラメータ（r, g）を増やすことで、精度、速度、パラメータ数の間でトレードオフを取りつつ、特定の構成でより高速かつ競争力のある精度を実現可能。
このアーキテクチャは、FC のグローバル容量と位置認識、そして畳み込みブランチからの局所プリオリを組み合わせることで、非局所/自己注意モジュールよりも単純さと効率性の点で利点を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。