Skip to main content
QUICK REVIEW

[論文レビュー] Head-Free Lightweight Semantic Segmentation with Linear Transformer

Bo Dong, Pichao Wang|arXiv (Cornell University)|Jan 11, 2023
Advanced Neural Network Applications被引用数 9
ひとこと要約

AFFormerはヘッドフリーの軽量なセマンティックセグメンテーションアーキテクチャで、プロトタイプ学習と適応周波数フィルタを備えた平行された異種設計を採用し、ADE20KとCityscapesにおいて超低FLOPsで最先端の精度を達成する。

ABSTRACT

Existing semantic segmentation works have been mainly focused on designing effective decoders; however, the computational load introduced by the overall structure has long been ignored, which hinders their applications on resource-constrained hardwares. In this paper, we propose a head-free lightweight architecture specifically for semantic segmentation, named Adaptive Frequency Transformer. It adopts a parallel architecture to leverage prototype representations as specific learnable local descriptions which replaces the decoder and preserves the rich image semantics on high-resolution features. Although removing the decoder compresses most of the computation, the accuracy of the parallel structure is still limited by low computational resources. Therefore, we employ heterogeneous operators (CNN and Vision Transformer) for pixel embedding and prototype representations to further save computational costs. Moreover, it is very difficult to linearize the complexity of the vision Transformer from the perspective of spatial domain. Due to the fact that semantic segmentation is very sensitive to frequency information, we construct a lightweight prototype learning block with adaptive frequency filter of complexity $O(n)$ to replace standard self attention with $O(n^{2})$. Extensive experiments on widely adopted datasets demonstrate that our model achieves superior accuracy while retaining only 3M parameters. On the ADE20K dataset, our model achieves 41.8 mIoU and 4.6 GFLOPs, which is 4.4 mIoU higher than Segformer, with 45% less GFLOPs. On the Cityscapes dataset, our model achieves 78.7 mIoU and 34.4 GFLOPs, which is 2.5 mIoU higher than Segformer with 72.5% less GFLOPs. Code is available at https://github.com/dongbo811/AFFormer.

研究の動機と目的

  • セマンティックセグメンテーションにおける計算コストの削減を、重いデコーダーヘッドの除去によって動機づける。
  • デンシーな自己注意を必要とせずに高解像度の意味情報を維持する並列の異種アーキテクチャを提案する。
  • 標準の自己注意を置換するプロトタイプベースの局所記述と適応周波数フィルタを導入する。
  • 線形複雑度のアプローチが標準ベンチマークで軽量デコーダよりも優れていることを示す。

提案手法

  • デコーダをプロトタイプベースの特徴と高解像度の意味情報を復元するピクセル記述子で置換する並列アーキテクチャを持つAdaptive Frequency Transformer (AFFormer)を導入する。
  • Transformerベースのプロトタイプ学習(PL)を用いてクラスタ化されたプロトタイプ中心G′を更新し、CNNベースのピクセル記述子(PD)で特徴量F′を復元して高解像度の詳細を保持する。
  • 標準の自己注意を、周波数類似性カーネル(FSK)、動的ローパスフィルタ(DLF)、動的ハイパスフィルタ(DHF)からなる適応周波数フィルター(AFF)に置換し、入力解像度に対して線形の複雑さを実現する。
  • コストを低減するために周波数抽出/強化モジュール間で重みを共有し、FFNに深さ方向畳み込みを組み合わせて特徴を効率的に融合する。
  • 単一の畳み込み分類層(CLS)を単一スケールの特徴に適用し、セマンティックセグメンテーションを画像分類と同じく単純に近づける。

実験結果

リサーチクエスチョン

  • RQ1超低計算コストで高精度を維持しながらヘッドフリーの軽量トランスフォーマーアーキテクチャでセマンティックセグメンテーションを実現できるか。
  • RQ2プロトタイプベースの表現と適応周波数処理は従来のデコーダと自己注意を置換し得るか。
  • RQ3PDとPLの並列異種設計と適応周波数フィルタリングがデータセット(ADE20K、Cityscapes、COCO-stuff)全体の性能と効率に与える影響は何か。

主な発見

Model#Param.FLOPsmIoU
AFFormer-tiny1.6M2.8G38.7
AFFormer-small2.3M3.6G40.2
AFFormer-base3.0M4.6G41.8
Segformer3.8M8.4G39.3
  • AFFormerはADE20K(512×512)で3Mパラメータ、4.6 GFLOPs、mIoU 41.8を達成し、SegFormerより4.4 mIoU高く、GFLOPsを45%削減して上回る。
  • CityscapesではAFFormerが34.4 GFLOPsでmIoU 78.7を達成し、SegFormerより2.5 mIoU高く、GFLOPsを72.5%削減して上回る。
  • AFFormer-tiny、AFFormer-small、AFFormer-baseはSegFormerや他の軽量ライバルと比べてパラメータ数とFLOPsを大幅に削減しつつ、速度と精度の好バランスを提供。
  • デコーダを省略しPD(ピクセル記述子)とPL(プロトタイプ学習)を組み合わせた並列アーキテクチャは、単純なピラミッド型設計やViTのみの設計よりも高精度を低計算コストで実現。
  • 周波数認識プロトタイプ学習モジュール(AFF)は、FSK、DLF、DHFの構成要素を備え、データセット全体で高いセグメンテーション品質を維持するのに大きく寄与し、構成要素を組み合わせた場合に最良の性能が示される。
  • AFFormerはCityscapesの高解像度で notable FPSの向上を実現(SegFormerの12 FPSに対し22 FPS)、同時により高いmIoUを達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。