[論文レビュー] Learning Continuous Image Representation with Local Implicit Image Function
LIIFは局所潜在コードと共有デコーダを用いて画像を連続関数として表現し、任意解像度のレンダリングを可能にし、サイズが異なるground-truthのリサイズなしでの扱いを改善します。非常に高いスケール(最大×30)への外挿をサポートし、離散的と連続的な2D表現を橋渡しします。
How to represent an image? While the visual world is presented in a continuous manner, machines store and see the images in a discrete way with 2D arrays of pixels. In this paper, we seek to learn a continuous representation for images. Inspired by the recent progress in 3D reconstruction with implicit neural representation, we propose Local Implicit Image Function (LIIF), which takes an image coordinate and the 2D deep features around the coordinate as inputs, predicts the RGB value at a given coordinate as an output. Since the coordinates are continuous, LIIF can be presented in arbitrary resolution. To generate the continuous representation for images, we train an encoder with LIIF representation via a self-supervised task with super-resolution. The learned continuous representation can be presented in arbitrary resolution even extrapolate to x30 higher resolution, where the training tasks are not provided. We further show that LIIF representation builds a bridge between discrete and continuous representation in 2D, it naturally supports the learning tasks with size-varied image ground-truths and significantly outperforms the method with resizing the ground-truths.
研究の動機と目的
- 固定解像度のグリッドではなく、画像を連続関数として表現することを動機づける。
- 局所潜在コードと共有デコーダを用いて連続的なRGB予測を実現する LIIF (Local Implicit Image Function) を提案する。
- LIIF が任意解像度のレンダリングとトレーニングスケールを超えた外挿を可能にすることを示す。
- LIIF が resize せずにサイズ変化する ground-truth を自然に扱い、ground-truth のリサイズより忠実度を向上させることを示す。
提案手法
- 各画像を、画像領域に分布する潜在コードの2D特徴マップ M(i) で表現する。
- 潜在コード z と座標 x を受け取り RGB 値を予測する共有 MLP デコーダ f_theta を用い、x -> s の予測を可能にする。
- 局所コードを近傍の潜在ベクトルを結合する(3x3 の近傍)ことで豊かにする Feature Unfolding を適用する。
- 面積ベースの信頼度で加重された4つの隣接潜在コード予測を組み合わせるローカルエン Ensemble で予測の不連続性を緩和する。
- クエリピクセルサイズ c でデコーダを条件づけるセルデコーディングを導入し、任意解像度でのレンダリングを改善する。
- エンコーダ E_phi をエンドツーエンドで訓練し、 LIIF 表現がダウンサンプリングされた入力から高解像度 ground-truth を予測する自己 supervisoned スーパー解像タスクを課す。
実験結果
リサーチクエスチョン
- RQ1連続的で座標ベースの暗黙表現は、高忠実度で自然で複雑な画像を回復できるか?
- RQ2共有デコーディング関数と局所潜在コードは、トレーニングスケールを超えた任意の高解像度レンダリングと外挿を可能にするか?
- RQ3LIIF はリサイズせずにサイズが異なる ground-truth を効果的に活用し、忠実度を維持できるか?
- RQ4性能と一般化に最も影響を与える設計選択(Feature unfolding、Local ensemble、Cell decoding、デコーダの深さ)はどれか?
- RQ5in-distribution および out-of-distribution のスケーリングタスクの両方で、LIIF は固定スケールアップサンプリング法や画像条件付き暗黙モデルとどう比較されるか?
主な発見
- LIIF は in-distribution スケールで up-sampling ベースラインと比べて競争力のある PSNR を達成し、より大きく未見のスケールではいくつかのベースラインを上回る。
- LIIF with local ensemble and deep decoding generalizes better to out-of-distribution high-resolution scales (e.g., ×6 to ×30) than some alternatives.
- Cell decoding は大規模スケールでの視覚品質を向上させ、特に未見の高解像度レンダリングに効果的だが、PSNR の影響は変動することがある。
- Training with random continuous scales (×1 to ×4) enables extrapolation to much higher resolutions (up to ×30) without task-specific ground-truths.
- LIIF はサイズ変化する ground-truth を自然に扱い、入力/出力解像度が異なる CelebA-HQ ベースの画像間タスクで、リサイズベースのアップサンプリング法よりも優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。