[論文レビュー] LFMamba: Light Field Image Super-Resolution with State Space Model
LFMamba は情報量のある4Dライトフィールドの2Dスライスを効率的な SS2D 対応 S6 ブロックで処理する SSM ベースのネットワークを導入し、パラメータ削減と線形計算量で競争力のある LFSR パフォーマンスを達成する。
Recent years have witnessed significant advancements in light field image super-resolution (LFSR) owing to the progress of modern neural networks. However, these methods often face challenges in capturing long-range dependencies (CNN-based) or encounter quadratic computational complexities (Transformer-based), which limit their performance. Recently, the State Space Model (SSM) with selective scanning mechanism (S6), exemplified by Mamba, has emerged as a superior alternative in various vision tasks compared to traditional CNN- and Transformer-based approaches, benefiting from its effective long-range sequence modeling capability and linear-time complexity. Therefore, integrating S6 into LFSR becomes compelling, especially considering the vast data volume of 4D light fields. However, the primary challenge lies in \emph{designing an appropriate scanning method for 4D light fields that effectively models light field features}. To tackle this, we employ SSMs on the informative 2D slices of 4D LFs to fully explore spatial contextual information, complementary angular information, and structure information. To achieve this, we carefully devise a basic SSM block characterized by an efficient SS2D mechanism that facilitates more effective and efficient feature learning on these 2D slices. Based on the above two designs, we further introduce an SSM-based network for LFSR termed LFMamba. Experimental results on LF benchmarks demonstrate the superior performance of LFMamba. Furthermore, extensive ablation studies are conducted to validate the efficacy and generalization ability of our proposed method. We expect that our LFMamba shed light on effective representation learning of LFs with state space models.
研究の動機と目的
- 従来の CNN や Transformer を超える長距離依存性を活用してライトフィールド画像超解像を向上させる動機付け。
- 情報量のある 2D LF スライス(SAI, MacPI, EPI-H, EPI-V)上で動作する拡張性のあるSSMベースのフレームワーク(LFMamba)を提案する。
- 効率的な SS2D を備えたコンパクトな基本 SSM ブロックを設計し、空間・角度・構造情報を学習する。
- 標準ベンチマークで最先端のLFSR法と比較して優れたまたは競争力のある性能を示す。
- 提案手法の貢献と一般化を検証するアブレーションを提供する。
提案手法
- 各LFから4つの情報量のある2Dスライスを抽出(SAI, MacPI, EPI-H, EPI-V)し、SSM処理のために各スライスを1D列として平坦化してLFデータをモデル化する。
- 性能を維持しつつパラメータを削減する効率的なSS2D(ESS2D)を備えた基本SSMブロックを導入する。
- 4モジュールからなるLFMambaを構築する:初期特徴抽出、空間-角度特徴学習(SAFL)、LF構造特徴学習(LSFL)、高分解能LF再構成(HLFR)。
- SAFL内で空間と角度SSMブロックを交互に適用し、LSFL内で水平方向・垂直方向のEPI SSMブロックを交互に適用して空間・角度・構造情報を捉える。
- 連結と1x1畳み込みによるマルチレベル特徴の融合を行い、HR LF再構成のためにピクセルシャッフルを適用する。
- 学習可能な残差スケールを含む LayerNorm、S6、Conv、チャンネル注意機構を含む2段階SSMブロックを採用する。
実験結果
リサーチクエスチョン
- RQ1選択的メカニズム(S6)を備えたState Space Modelが、ライトフィールド超解像(LFSR)におけるCNNベースおよびTransformerベースのアプローチを上回ることができるか?
- RQ2情報量のある2D LFスライス(SAI, MacPI, EPI-H, EPI-V)にSSMを適用することは、LFSRの空間的文脈・角度・構造情報を効果的に捉えるか?
- RQ3提案された ESS2D ベースの効率的な S6 ブロックは、精度を維持しつつパラメータ効率が高いか?
- RQ4標準LF SRベンチマークにおけるLFMambaの性能は、x2およびx4のスケールで最先端手法と比較してどうか?
- RQ5LF角度SRタスクにおけるLFMambaの一般化能力はどれくらいか?
主な発見
| Method | Scale | #Param.(M) | FLOPs(G) | EPFL PSNR/SSIM | HCInew PSNR/SSIM | HCIold PSNR/SSIM | INRIA PSNR/SSIM | STFgantry PSNR/SSIM | Average PSNR/SSIM |
|---|---|---|---|---|---|---|---|---|---|
| Bicubic | 2 | - | - | 29.50/.9350 | 31.69/.9335 | 37.46/.9776 | 31.10/.9563 | 30.82/.9473 | 31.11/.9542 |
| RCAN | 2 | 15.3 | 389.75 | 33.16/.9635 | 34.98/.9602 | 41.05/.9875 | 35.01/.9769 | 36.33/.9825 | 36.11/.9742 |
| resLF | 2 | 7.98 | 37.06 | 32.75/.9672 | 36.07/.9715 | 42.61/.9922 | 34.57/.9784 | 36.89/.9873 | 36.58/.9793 |
| LFSSR | 2 | 0.88 | 25.70 | 33.69/.9748 | 36.86/.9753 | 43.75/.9939 | 35.27/.9834 | 38.07/.9902 | 37.73/.9835 |
| LF-InterNet | 2 | 5.04 | 47.46 | 34.14/.9761 | 37.28/.9769 | 44.45/.9945 | 35.80/.9846 | 38.72/.9916 | 38.08/.9847 |
| LF-ATO | 2 | 1.22 | 597.66 | 34.27/.9757 | 37.24/.9767 | 44.20/.9942 | 36.15/.9842 | 39.64/.9929 | 38.15/.9843 |
| MEG-Net | 2 | 1.69 | 48.40 | 34.34/.9773 | 37.42/.9777 | 44.08/.9942 | 36.09/.9849 | 38.77/.9915 | 38.14/.9851 |
| LF-DFNet | 2 | 3.94 | 57.22 | 34.44/.9766 | 37.44/.9786 | 44.23/.9943 | 36.36/.9841 | 39.61/.9935 | 38.41/.9854 |
| IINet | 2 | 4.84 | 56.16 | 34.68/.9773 | 37.74/.9790 | 44.84/.9948 | 36.57/.9853 | 39.86/.9936 | 38.74/.9857 |
| LF-SAV | 2 | 1.22 | 34.65 | 34.62/.9772 | 37.43/.9776 | 44.22/.9942 | 36.36/.9849 | 38.69/.9914 | 38.26/.9851 |
| DistgSSR | 2 | 3.53 | 64.11 | 34.81/.9787 | 37.96/.9796 | 44.94/.9949 | 36.59/.9859 | 40.40/.9942 | 38.94/.9866 |
| HLFSR | 2 | 13.72 | 167.40 | 35.31/.9800 | 38.32/.9807 | 44.98/.9950 | 37.06/.9867 | 40.85/.9947 | 39.30/.9874 |
| DPT | 2 | 3.73 | 65.34 | 34.48/.9758 | 37.35/.9771 | 44.31/.9943 | 36.40/.9843 | 39.52/.9926 | 38.40/.9848 |
| LFT | 2 | 1.11 | 56.16 | 34.80/.9781 | 37.84/.9791 | 44.52/.9945 | 36.59/.9855 | 40.51/.9941 | 38.85/.9863 |
| EPIT | 2 | 1.42 | 69.71 | 34.83/.9775 | 38.23/.9810 | 45.08/.9949 | 36.67/.9853 | 42.17/.9957 | 39.40/.9877 |
| LF-DET | 2 | 1.59 | 48.50 | 35.26/.9797 | 38.31/.9807 | 44.99/.9950 | 36.95/.9864 | 41.76/.9955 | 39.45/.9875 |
| LFMamba | 2 | 2.15 | 62.95 | 35.75/.9824 | 38.36/.9810 | 44.98/.9950 | 37.07/.9876 | 40.95/.9948 | 39.42/.9882 |
| LFMamba† | 2 | 2.15 | 62.95 | 35.84/.9832 | 38.59/.9816 | 45.20/.9952 | 37.19/.9880 | 41.15/.9950 | 39.59/.9886 |
| Bicubic | 4 | - | - | 25.14/.8311 | 27.61/.8507 | 32.42/.9335 | 26.82/.8860 | 25.93/.8431 | 27.58/.8701 |
| RCAN | 4 | 15.4 | 391.25 | 27.88/.8863 | 29.63/.8886 | 35.20/.9548 | 29.76/.9276 | 28.90/.9131 | 30.27/.9141 |
| resLF | 4 | 8.64 | 39.70 | 28.27/.9035 | 30.73/.9107 | 36.71/.9682 | 30.34/.9412 | 30.19/.9372 | 31.25/.9322 |
| LFSSR | 4 | 1.77 | 128.44 | 28.27/.9118 | 30.72/.9145 | 36.70/.9696 | 30.31/.9467 | 30.15/.9426 | 31.23/.9370 |
| LF-InterNet | 4 | 5.48 | 50.10 | 28.67/.9162 | 30.98/.9161 | 37.11/.9716 | 30.64/.9491 | 30.53/.9409 | 31.58/.9388 |
| LF-ATO | 4 | 1.36 | 686.99 | 28.52/.9115 | 30.88/.9135 | 37.00/.9699 | 30.71/.9484 | 30.61/.9430 | 31.54/.9373 |
| MEG-Net | 4 | 1.77 | 102.20 | 28.74/.9160 | 31.10/.9177 | 37.28/.9716 | 30.66/.9490 | 30.77/.9453 | 31.71/.9399 |
| LF-DFNet | 4 | 3.99 | 57.31 | 28.77/.9165 | 31.23/.9196 | 37.32/.9718 | 30.83/.9503 | 31.15/.9494 | 31.86/.9415 |
| IINet | 4 | 4.88 | 57.42 | 29.11/.9188 | 31.36/.9208 | 37.62/.9734 | 31.08/.9515 | 31.21/.9502 | 32.08/.9429 |
| LF-SAV | 4 | 1.54 | 115.80 | 29.37/.9223 | 31.45/.9217 | 37.50/.9721 | 31.27/.9531 | 31.36/.9505 | 32.19/.9439 |
| DistgSSR | 4 | 3.58 | 65.41 | 28.99/.9195 | 31.38/.9217 | 37.56/.9732 | 30.99/.9519 | 31.65/.9535 | 32.11/.9440 |
| HLFSR | 4 | 13.87 | 182.52 | 29.20/.9222 | 31.57/.9238 | 37.78/.9742 | 31.24/.9534 | 31.64/.9537 | 32.29/.9455 |
| DPT | 4 | 3.78 | 66.55 | 28.93/.9170 | 31.19/.9188 | 37.39/.9721 | 30.96/.9503 | 31.14/.9488 | 31.92/.9414 |
| LFT | 4 | 1.16 | 57.60 | 29.25/.9210 | 31.46/.9218 | 37.63/.9735 | 31.20/.9524 | 31.86/.9548 | 32.28/.9447 |
| EPIT | 4 | 1.47 | 74.96 | 29.34/.9197 | 31.51/.9231 | 37.68/.9737 | 31.37/.9526 | 32.18/.9571 | 32.40/.9452 |
| LF-DET | 4 | 1.69 | 51.20 | 29.47/.9230 | 31.56/.9235 | 37.84/.9744 | 31.39/.9534 | 32.14/.9573 | 32.48/.9463 |
| LFMamba | 4 | 2.30 | 66.90 | 29.84/.9256 | 31.70/.9249 | 37.91/.9748 | 31.81/.9551 | 31.85/.9554 | 32.62/.9472 |
| LFMamba† | 4 | 2.30 | 66.90 | 29.95/.9275 | 31.86/.9265 | 38.08/.9755 | 31.90/.9563 | 32.04/.9568 | 32.77/.9485 |
- LFMambaは2xおよび4xの両方で5つのLFベンチマークで競争力のあるPSNR/SSIMを達成し、EPFLとINRIAなどの複雑な実世界データセットで高い性能を示す。
- x2 SRでは平均PSNRとSSIMで最良手法(LF-DET)に近く、PSNRはわずかに劣るがSSIMは同等。
- x4 SRではLF-DETなど複数のベースラインを平均で顕著なPSNR/SSIM差で上回る。
- モデルサイズは中程度(約2.15Mパラメータ)で、FLOPsは競合法に比べて妥当(x2で約62.95G)。
- ジオメトリ組み立て変種(LFMamba †)も同様の定量的結果を示し、統合戦略に対する頑健性を示唆。
- アブレーション研究はESS2D強化S6ブロックとSAFL/LSFL設計が空間・角度・構造情報の活用に有効であることを確認。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。