QUICK REVIEW

[論文レビュー] A Coarse-to-fine Deep Convolutional Neural Network Framework for Frame Duplication Detection and Localization in Forged Videos

Chengjiang Long, Arslan Basharat|arXiv (Cornell University)|Jan 1, 2019

Digital Media Forensic Detection被引用数 11

ひとこと要約

本論文では、I3DおよびシアンプスResNetアーキテクチャを用いた粗いから細かいまでの深層学習フレームワークを提案し、改ざん動画におけるフレーム複製の検出と局所化を実現する。動画レベルの改ざんスコアとフレームレベルの不一致検出を組み合わせることで、2つのベンチマークデータセットで最先端の性能を達成している。

ABSTRACT

Videos can be manipulated by duplicating a sequence of consecutive frames with the goal of concealing or imitating a specific content in the same video. In this paper, we propose a novel coarse-to-fine framework based on deep Convolutional Neural Networks to automatically detect and localize such frame duplication. First, an I3D network finds coarse-level matches between candidate duplicated frame sequences and the corresponding selected original frame sequences. Then a Siamese network based on ResNet architecture identifies fine-level correspondences between an individual duplicated frame and the corresponding selected frame. We also propose a robust statistical approach to compute a video-level score indicating the likelihood of manipulation or forgery. Additionally, for providing manipulation localization information we develop an inconsistency detector based on the I3D network to distinguish the duplicated frames from the selected original frames. Quantified evaluation on two challenging video forgery datasets clearly demonstrates that this approach performs significantly better than four recent state-of-the-art methods.

研究の動機と目的

改ざん動画におけるフレーム複製の検出という、コンテンツの隠蔽や模倣に用いられる一般的な技術に取り組むこと。
複製の存在を検出するとともに、動画内での複製フレームを正確に局所化できる手法を開発すること。
動画改ざんの検出精度および局所化精度の面で、既存の最先端手法を改善すること。
深層特徴の統計的分析を用いて、改ざんの可能性を示す堅牢な動画レベルのスコアを提供すること。
専用の不一致検出器を用いて、複製フレームとオリジナルフレームを細かく区別できること。

提案手法

2段階のフレームワーク：まず、I3Dネットワークが複製フレームシーケンスとオリジナルフレームシーケンスの粗い一致を特定する。
次に、ResNetアーキテクチャに基づくシアンプスネットワークが、個々の複製フレームとそれに対応するオリジナルフレーム間の細かい対応マッチングを実行する。
統計的手法により、深層特徴に基づいて全体の改ざんの可能性を評価する動画レベルのスコアを計算する。
I3Dに基づく不一致検出器を訓練し、フレームレベルで複製フレームとオリジナルフレームを区別する。
粗い検出と細かい局所化を統合することで、改ざん同定の精度と正確性を向上させる。
性能を検証するため、2つの挑戦的な動画改ざんデータセット上でエンドツーエンドで評価される。

実験結果

リサーチクエスチョン

RQ1粗いから細かいまでの深層学習フレームワークは、改ざん動画におけるフレーム複製をどの程度効果的に検出できるか？
RQ2シアンプスResNetアーキテクチャは、複製フレームとオリジナルフレーム間の細かい対応マッチングを改善できるか？
RQ3提案された動画レベルの改ざんスコアは、実際の複製の存在とどの程度相関しているか？
RQ4不一致検出器は、高い正確性で複製フレームをどの程度正確に局所化できるか？
RQ5本手法は、4つの最近の最先端手法と比較して、検出および局所化性能でどの程度優れているか？

主な発見

提案されたフレームワークは、2つの挑戦的な動画改ざんデータセットで、4つの最近の最先端手法を顕著に上回る性能を発揮した。
粗いから細かいまでの設計により、複製フレームシーケンスの正確な検出が可能となり、局所化の正確性も向上した。
堅牢な統計的分析による動画レベルのスコアは、改ざんの可能性を効果的に示している。
I3Dに基づく不一致検出器は、高い信頼性で複製フレームとオリジナルフレームを区別できた。
I3Dを用いた粗い一致と、シアンプスResNetを用いた細かい一致の統合により、優れた全体的な性能が達成された。
定量的評価により、本手法の検出および局所化タスクにおける有効性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。