[論文レビュー] OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing
OmniEditはFlowEditを再定式化してターゲットシーケンス上で動作させ、確率的サンプリングを排除することで、タスク固有の微調整なしで安定した高品質な結果を得られる訓練不要な口元同期と音声-映像編集を実現します。
Lip synchronization and audio-visual editing have emerged as fundamental challenges in multimodal learning, underpinning a wide range of applications, including film production, virtual avatars, and telepresence. Despite recent progress, most existing methods for lip synchronization and audio-visual editing depend on supervised fine-tuning of pre-trained models, leading to considerable computational overhead and data requirements. In this paper, we present OmniEdit, a training-free framework designed for both lip synchronization and audio-visual editing. Our approach reformulates the editing paradigm by substituting the edit sequence in FlowEdit with the target sequence, yielding an unbiased estimation of the desired output. Moreover, by removing stochastic elements from the generation process, we establish a smooth and stable editing trajectory. Extensive experimental results validate the effectiveness and robustness of the proposed framework. Code is available at https://github.com/l1346792580123/OmniEdit.
研究の動機と目的
- 訓練不要アプローチを多 modality コンテンツ生成における口元同期とクロスモーダル編集へ動機付けする。
- タスク固有の微調整や大規模なペアデータセットの必要性を排除する。
- 安定な生成のための principled な、バイアスのないターゲットシーケンス反復形成を提供する。
提案手法
- FlowEditの edit-sequence をターゲットシーケンス上の反復に置き換え、バイアスのない出力推定を得る。
- 過度な確率的ガウシアンサンプリングを除去し、事前学習済み拡散モデルからノイズを推定して滑らかな軌跡を保証する。
- ターゲット音声で事前学習済みの音声-to-動画拡散モデルを誘導して口元同期に適用する。
- テキストプロンプトで条件付けされた動画と音声を同時に操作して音声-映像編集へ拡張する。
- 安定性と出力品質を向上させる決定論的なノイズ推定付き更新規則を用いる。

実験結果
リサーチクエスチョン
- RQ1訓練不要フレームワークを用いてタスク固有の微調整なしに口元同期を達成できるか。
- RQ2ターゲットシーケンスの反復は元の FlowEdit の edit-sequence と比較して望ましい出力のバイアスのない推定を提供するか。
- RQ3決定論的でノイズ推定された生成軌跡は口元同期と音声-映像編集の安定性と品質を向上させるか。
- RQ4標準的な口元同期ベンチマークと定性的に導かれた音声-映像編集で Omn iEdit はどれほどの性能を示すか。
主な発見
| Method | FID ↓ | FVD ↓ | CSIM ↑ | NIQE ↓ | BRISQUE ↓ | HyperIQA ↑ | LMD ↓ | LSE-C ↑ |
|---|---|---|---|---|---|---|---|---|
| Wav2Lip | 14.912 | 543.340 | 0.852 | 6.495 | 53.372 | 10.007 | 7.630 | 7.? |
| IP-LAP | 9.512 | 325.691 | 0.809 | 6.533 | 54.402 | 7.695 | 7.260 | 7.260 |
| Diff2Lip | 12.079 | 461.341 | 0.869 | 6.261 | 49.361 | 18.986 | 7.140 | 7.140 |
| MuseTalk | 8.759 | 231.418 | 0.862 | 5.824 | 46.003 | 8.701 | 6.890 | ? |
| LatentSync | 8.518 | 216.899 | 0.859 | 6.270 | 50.861 | 17.344 | 8.050 | 8.050 |
| Omnisync | 7.855 | 199.627 | 0.875 | 5.481 | 37.917 | 7.097 | 7.309 | 7.309 |
| Ours(Humo1.7B) | 7.952 | 201.038 | 0.879 | 5.604 | 39.527 | 7.698 | 7.157 | 7.157 |
| Ours(Humo17B) | 7.623 | 190.299 | 0.883 | 5.385 | 37.412 | 7.482 | 7.286 | 7.286 |
- OmniEditは追加の訓練なしで競合的または優れた口元同期性能を達成し、監視付き手法に匹敵する。
- ターゲットシーケンスの反復は edit-sequence 手法と比較してFIDとFVDが低く、視覚的忠実度が高いことを示す。
- 確率的サンプリングを推定ノイズに置換することで、より滑らかな軌跡と鮮明な表情細部を生み出す。
- HDTF では、大規模モデルを用いた OmniEdit バリアントは CSIM が高く、非参照指標(NIQE/BRISQUE)も有利である。
- AIGC-LipSync Benchmark では OmniEdit バリアントが高い生成成功率と強い CSIM を達成し、視覚的忠実度が向上している。
- 定性的結果は、テキストガイド付きの音声-映像編集が一貫したクロスモーダル出力で効果的であることを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。