Skip to main content
QUICK REVIEW

[論文レビュー] EmoKGEdit: Training-free Affective Injection via Visual Cue Transformation

Jing Zhang, Bingjie Fan|arXiv (Cornell University)|Jan 18, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

EmoKGEditはMultimodal Sentiment Association Knowledge Graph(MSA-KG)を用いて領域に焦点を当てた感情挿入を案内し、構造を保持しつつ感情の忠実度を調整する訓練不要のフレームワークを導入する。感情局在モジュール、知識グラフに groundedなキュー転送、分離された構造–感情編集パイプラインを組み合わせ、感情忠実度と内容保持のバランスを達成する。

ABSTRACT

Existing image emotion editing methods struggle to disentangle emotional cues from latent content representations, often yielding weak emotional expression and distorted visual structures. To bridge this gap, we propose EmoKGEdit, a novel training-free framework for precise and structure-preserving image emotion editing. Specifically, we construct a Multimodal Sentiment Association Knowledge Graph (MSA-KG) to disentangle the intricate relationships among objects, scenes, attributes, visual clues and emotion. MSA-KG explicitly encode the causal chain among object-attribute-emotion, and as external knowledge to support chain of thought reasoning, guiding the multimodal large model to infer plausible emotion-related visual cues and generate coherent instructions. In addition, based on MSA-KG, we design a disentangled structure-emotion editing module that explicitly separates emotional attributes from layout features within the latent space, which ensures that the target emotion is effectively injected while strictly maintaining visual spatial coherence. Extensive experiments demonstrate that EmoKGEdit achieves excellent performance in both emotion fidelity and content preservation, and outperforms the state-of-the-art methods.

研究の動機と目的

  • 正確で領域認識的な画像感情編集を促進し、意味的レイアウトを保持する。
  • 編集中の感情調整と構造的内容を分離する。
  • 感情関連の視覚キューの挿入を制約・誘導する外部知識を活用する。
  • 知識グラフを介した解釈可能な、CoT誘導編集をサポートする。
  • 最先端手法と比較して感情忠実度と内容保持の優越性を示す。

提案手法

  • Emotion Region-awareモジュールを介して感情を引き起こす領域を局在化し、前景領域に対する編集を制約する。
  • Scene、Object、Attributes、Emotionsを結ぶMultimodal Sentiment Association Knowledge Graph(MSA-KG)を構築する。
  • Emotions Cue Transfer ModuleをChain-of-Thought推論とともに用い、MSA-KGに基づく実行可能な編集指令へキューを変換する。
  • 二重拡散経路を備えたDisentangled Structure–Emotion Editingを適用し、専用の制約を各経路に設けて形状を保持しつつ感情を注入する。
Figure 1 : Inspired by cognitive psychology on visual emotion processing, extracting emotion-inducing regions as scene cores and coupling them with their corresponding objects. Through this region–object coupling, the model focuses on the most emotionally salient content.
Figure 1 : Inspired by cognitive psychology on visual emotion processing, extracting emotion-inducing regions as scene cores and coupling them with their corresponding objects. Through this region–object coupling, the model focuses on the most emotionally salient content.

実験結果

リサーチクエスチョン

  • RQ1多模態知識グラフに導かれた領域中心の編集は、内容忠実性を維持しつつ正確な感情注入を達成できるか?
  • RQ2CoT駆動のキュー転送と分離編集の組み合わせは、ベースラインと比較して感情の正確さと構造保持の両方を改善するか?
  • RQ3MSA-KGの grounding は、編集後の画像の妥当性と一貫性にどのように影響するか?
  • RQ4各モジュール(ERA、ECT、DSEE)が全体の性能に寄与する度合いはどれくらいか?
  • RQ5 semanticsを維持した多感情シナリオに対して訓練不要編集は可能か?

主な発見

StructureSemanticEmotionMethodSSIM ↑AesScore ↑CLIP-I Prox ↑Semantic-C ↑Emo_Acc8 ↑Emo_Acc2 ↑TEA ↑
Instruct-pix2pix0.39875.11740.31820.59500.17270.58930.16530.00.00.0
Qwen-Image-Edit0.35945.33330.37400.62100.24260.64770.21590.00.00.0
AIF0.35914.48100.55550.46300.12300.50440.12590.00.00.0
EmoEditor0.37574.86380.54400.52800.23240.63280.20350.00.00.0
EmoEdit0.34555.13800.37010.63300.32110.66570.27790.00.00.0
Ours0.42045.64400.57740.64700.44520.88190.31790.00.00.0
  • EmoKGEditは構造、意味論、感情指標の全てでベースラインを上回る性能を達成。
  • Emo_Acc8(0.4452)およびEmo_Acc2(0.8819)を大幅に改善し、TEA(0.3179)も向上。これに対し EmoEdit(Emo_Acc8 0.3211, Emo_Acc2 0.2779, TEA 0.2779)を上回る。
  • アブレーションの結果、ERAはTEAとSSIMを高める一方、ECT+DSEEを追加することで意味セマンティックCとTEAのバランスが最適化され、SSIMの若干のトレードオフを上回る。
  • ユーザ研究は、構造的類似性、意味的妥当性、感情活性化、および美学の各指標でEmoKGEditを最高と評価。
  • 定性的結果は、グローバルな過度編集を避けつつ局所的な感情注入を行う、内容忠実な結果を示す。
Figure 2 : Overview of EmoKGEdit. The proposed framework comprises four components: Multimodal Sentiment Association Knowledge Graph(MSA Knowledge Graph), Emotion Region-aware Module, Emotion Cue Transfer Module, and Disentangled Structure–Emotion Editing(DSEE) Module.
Figure 2 : Overview of EmoKGEdit. The proposed framework comprises four components: Multimodal Sentiment Association Knowledge Graph(MSA Knowledge Graph), Emotion Region-aware Module, Emotion Cue Transfer Module, and Disentangled Structure–Emotion Editing(DSEE) Module.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。