[論文レビュー] TDAN: Temporally Deformable Alignment Network for Video Super-Resolution
TDAN は変形畳み込みを用いた特徴レベルでの一段階の時間的整列を導入し、参照フレームと対応フレームを揃えて Vid4 BI 劣化で最先端の結果を達成し、その他の領域でも競争力のある性能を示す。
Video super-resolution (VSR) aims to restore a photo-realistic high-resolution (HR) video frame from both its corresponding low-resolution (LR) frame (reference frame) and multiple neighboring frames (supporting frames). Due to varying motion of cameras or objects, the reference frame and each support frame are not aligned. Therefore, temporal alignment is a challenging yet important problem for VSR. Previous VSR methods usually utilize optical flow between the reference frame and each supporting frame to wrap the supporting frame for temporal alignment. Therefore, the performance of these image-level wrapping-based models will highly depend on the prediction accuracy of optical flow, and inaccurate optical flow will lead to artifacts in the wrapped supporting frames, which also will be propagated into the reconstructed HR video frame. To overcome the limitation, in this paper, we propose a temporal deformable alignment network (TDAN) to adaptively align the reference frame and each supporting frame at the feature level without computing optical flow. The TDAN uses features from both the reference frame and each supporting frame to dynamically predict offsets of sampling convolution kernels. By using the corresponding kernels, TDAN transforms supporting frames to align with the reference frame. To predict the HR video frame, a reconstruction network taking aligned frames and the reference frame is utilized. Experimental results demonstrate the effectiveness of the proposed TDAN-based VSR model.
研究の動機と目的
- 明示的な光学フロー推定なしに頑健な動画超解像(VSR)を動機づける。
- 特徴レベルで参照フレームへ対応フレームを整列させる、軽量でエンドツーエンド学習可能なフレームワークを開発する。
- 適応的時間的整列のためのサンプリングオフセットを予測する変形整列機構を提案する。
- 標準的なVSRベンチマークにおいてフローベース手法より再構成品質を改善する。
提案手法
- TDAN を提案する:参照フレームと対応フレームからの特徴を用いて変形畳み込みカーネルのオフセットを予測する時間的ひずみ合わせネットワーク。
- 3部構成の TDAN 設計を用いる:特徴抽出、予測されたサンプリングオフセットでの変形整列、整列フレーム再構成を通じて I_i^{LR'} を生成。
- 再構成ネットワークを組み込み、参照を含む 2N+1 フレームを融合して高解像度フレーム I_t^{HR} を予測する。
- 二重損失 L_align と L_sr を用いたエンドツーエンドの学習:整列された対応フレームを参照へ押しやるように促す L_align、HR 再構成を正確に強制する L_sr。
- TDAN の学習は自己教師あり学習で地ならしを行い、参照フレームを整列ターゲットとして用いる(地上真の整列フレームは不要)。
実験結果
リサーチクエスチョン
- RQ1変形畳み込みによる一段階の特徴レベルの時間的整列は、VSR における従来の光学フローベースの整列を上回ることができるか。
- RQ2TDAN による整列は、標準ベンチマークでの PSNR/SSIM をフローベース法および単一画像 SR 法と比較してどうなるか。
- RQ3変形層の数を変えることが TDAN の性能と収束に与える影響はどの程度か。
- RQ4TDAN は未知の劣化を含む実世界シーケンスに対して頑健か。
主な発見
- TDAN はフローベースの VSR 手法の中で最先端の性能を達成し、BI 劣化(Vid4)において SISR ベースラインと比較して競争力を示す。
- TDAN は Vid4 BI セットアップ(City、Walk、Calendar、Foliage)において PSNR および SSIM で TOFlow および他のフローベース手法を上回り、平均ゲインを達成。
- BD 劣化では TDAN は一般に SPMC および FRVSR を上回る PSNR を示すが、SSIM では DUF に及ばない場合があるものの依然として競合的。
- TDAN のモデルサイズは FRVSR/DUF に近く、RCAN/RDN/TOFlow などの主要な SISR モデルよりも著しく小さく、高い VSR 結果を提供。
- アブレーションにより、より多くの変形層が性能を向上させ、D4(FRVSR/DUF にほぼ等しい規模)で多くの設定で最先端の結果を達成。
- TDAN は未知の劣化を伴う実世界のシーケンスに対して頑健さを示し、競合法よりもシャープなエッジとより多くのディテールを生成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。