QUICK REVIEW

[論文レビュー] First Order Motion Model for Image Animation

Aliaksandr Siarohin, Stéphane Lathuilière|arXiv (Cornell University)|Feb 29, 2020

Generative Adversarial Networks and Image Synthesis被引用数 144

ひとこと要約

本論文は、学習済みのキーポイントと局所アファイン変換を用いた一次モーションモデルと、オクルージョンに配慮した生成器を組み合わせ、駆動動画に従ってソースオブジェクトをアニメーション化する自己教師付きのオブジェクトカテゴリ非依存の画像アニメーションフレームワークを提案します。オブジェクト固有の事前情報なしで、複数のデータセットでより高品質な結果を達成します。

ABSTRACT

Image animation consists of generating a video sequence so that an object in a source image is animated according to the motion of a driving video. Our framework addresses this problem without using any annotation or prior information about the specific object to animate. Once trained on a set of videos depicting objects of the same category (e.g. faces, human bodies), our method can be applied to any object of this class. To achieve this, we decouple appearance and motion information using a self-supervised formulation. To support complex motions, we use a representation consisting of a set of learned keypoints along with their local affine transformations. A generator network models occlusions arising during target motions and combines the appearance extracted from the source image and the motion derived from the driving video. Our framework scores best on diverse benchmarks and on a variety of object categories. Our source code is publicly available.

研究の動機と目的

オブジェクト固有の注釈や事前情報なしに、画像アニメーションにおける外観と動作を分離する。
学習済みキーポイントと局所アファイン変換を用いて、複雑な運動をモデル化する。
ワーピング中のオクルージョンに対処するため、オクルージョンを考慮した生成器を用いる。
等変性を強化した訓練方式で動作推定を向上させる。
多様なオブジェクトカテゴリにわたる高解像度の結果を示し、新しいデータセット Thai-Chi-HD を公開する。」],
method:[
二段階のモーション推定：自己教師ありのエンコーダ-デコーダを用いて、まばらなキーポイントとそれらの周りの局所アファイン変換を検出する。

提案手法

局所モーションを密なモーションネットワークと組み合わせ、駆動フレームからソースフレームへの逆向き光学フローとオクルージョンマップを生成する。
dense motion and occlusion map を条件とする生成器を用いて、ソース画像をワープし、インペイントする。
ソース特徴をターゲットに合わせるため、オクルージョン対応の特徴ワーピングパイプラインを使用し、遮られた領域をインペイントする。
既知の幾何変換の下で、キーポイントとそのヤコビ行列の整合性を強制するために等変性損失を拡張する。
同一オブジェクトカテゴリの動画でエンドツーエンドに訓練する（キーポイントの注釈に関しては教師なし）。
テスト段階では、駆動フレーム間の相対モーションをソースフレームに適用して相対モーション転送を行う。

実験結果

リサーチクエスチョン

RQ1オブジェクトカテゴリ非依存のモーション表現（学習されたキーポイントと局所アファイン変換）は、注釈なしで多様なオブジェクトを信頼性高くアニメーション化できるか？
RQ2オクルージョンモデリングとヤコビ行列の等変性を組み込むことは、0次のキーポイントモデルよりアニメーション品質を改善するか？
RQ3提案手法は、高解像度データセットや異なるオブジェクトカテゴリ間で、従来手法と比べてどのように性能を示すか？
RQ4テスト時に相対モーション転送と絶対モーション転送の影響はどうなるか？

主な発見

提案手法は、複数のデータセットで定量的・定性的評価のいずれにおいても最先端の画像アニメーション手法を上回る。
学習済みキーポイントの周囲の局所アファイン変形を用いると、大きな姿勢や非剛性運動のモデリングが、0次のアプローチと比べて改善される。
オクルージョンを考慮した生成は、ソース画像に見えない領域を明示的に扱うことで、再構成とリアリズムを著しく向上させる。
キーポイントとヤコビ行列に対する等変性制約は、訓練を安定化させ、動作推定を改善する。
高解像度の結果を得ることができ、評価のための新しいThai-Chi-HDデータセットが導入される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。