QUICK REVIEW

[論文レビュー] Learning to Upsample by Learning to Sample

Wenze Liu, Hao Lü|arXiv (Cornell University)|Aug 29, 2023

Advanced Neural Network Applications被引用数 24

ひとこと要約

DySample は、アップサンプリングをコンテンツ認識型のポイントサンプリングとして再定式化した軽量なダイナミックアップサンプラーで、複数の密な予測タスクにおいて高い精度を低い計算コストで達成します。動的畳み込みと高解像度ガイダンスを避け、学習可能なオフセットを用いた PyTorch grid_sample に依存してカーネルベースのアップサンプラーを上回ります。

ABSTRACT

We present DySample, an ultra-lightweight and effective dynamic upsampler. While impressive performance gains have been witnessed from recent kernel-based dynamic upsamplers such as CARAFE, FADE, and SAPA, they introduce much workload, mostly due to the time-consuming dynamic convolution and the additional sub-network used to generate dynamic kernels. Further, the need for high-res feature guidance of FADE and SAPA somehow limits their application scenarios. To address these concerns, we bypass dynamic convolution and formulate upsampling from the perspective of point sampling, which is more resource-efficient and can be easily implemented with the standard built-in function in PyTorch. We first showcase a naive design, and then demonstrate how to strengthen its upsampling behavior step by step towards our new upsampler, DySample. Compared with former kernel-based dynamic upsamplers, DySample requires no customized CUDA package and has much fewer parameters, FLOPs, GPU memory, and latency. Besides the light-weight characteristics, DySample outperforms other upsamplers across five dense prediction tasks, including semantic segmentation, object detection, instance segmentation, panoptic segmentation, and monocular depth estimation. Code is available at https://github.com/tiny-smart/dysample.

研究の動機と目的

動的畳み込みの重いものや高解像度ガイダンスを避けた、密な予測のための軽量で普遍的なアップサンプリング演算子を動機づける。
標準の PyTorch プリミティブを用いて、学習可能でコンテンツ認識型のポイントサンプリングとしてアップサンプリングを再定式化する。
素朴なサンプリングベースのアップサンプラーを、低レイテンシと小さなメモリフットプリントを持つ実用的な DySample へ体系的に改善する。

提案手法

アップサンプリングを連続マップへの補間として表現し、その後コンテンツ認識型のポイントで再サンプリングする。
各ポイントごとに線形投影でオフセットを生成し、ピクセルシャッフルまたはリシェイプによってサンプリンググリッドを生成・改良する。
オフセットの動きを制約し、サンプリングの重複を減らすために静的・動的スコープファクターを導入する。
効率化のためにチャネルをグループに分割して、グループごとのオフセット生成を行う。
4 種類の DySample 変種（LP/PL および静的/動的スコープ）を提供し、複雑さと性能を比較する。
意味的セマンティックセグメンテーション、物体検出/インスタンスセグメンテーション、パノプティックセグメンテーション、単眼深度推定で経験的に検証する。

実験結果

リサーチクエスチョン

RQ1標準の PyTorch プリミティブを使用しつつ、サンプリングベースのアップサンプリング演算子はカーネルベースの動的アップサンプリングと同等かそれを超えることができるか？
RQ2初期化、スコープ制御、およびグルーピング戦略は、サンプリングベースのアップサンプラーの性能と効率を最大化するか？
RQ3DySample は、多様な密な予測タスクにおいて CARAFE、FADE、SAPA と比較して、精度とリソースの観点でどのように性能を示すか？

主な発見

DySample は、カーネルベースの動的アップサンプラーよりはるかに少ないパラメータ数、FLOPs、メモリ、待ち時間で最先端または競合的な結果を達成します。
SegFormer-B1 with ADE20K で、DySample-S+ は mIoU が 43.58 に達し、mIoU および境界指標でいくつかのベースラインを上回る。
DySample は5つの密な予測タスク全体でセグメンテーションおよび検出/セグメンテーション指標を改善し、いくつかの設定で CARAFE などのベースラインに顕著な改善をもたらす。
LP/PL 変種はパラメータと速度の異なるトレードオフを示し、SegFormer および MaskFormer では PL がより良い性能を提供することが多い。
DySample+（動的スコープ）とグルーピング（g=4）は、静的・単一グループ構成より顕著な性能向上を提供する。
双線形補間と比較して、DySample はアーティファクトを低減し内部領域の品質を維持しつつ、最小限のオーバーヘッドを追加する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。