Skip to main content
QUICK REVIEW

[論文レビュー] When Visual Privacy Protection Meets Multimodal Large Language Models

Hui, Xiaofei, Wu, Qian|arXiv (Cornell University)|Mar 14, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

この論文は、モデルがブラックボックスである場合のマルチモーダルLLM(MLLM)の視覚的プライバシー保護を調査し、プライバシーとMLLMパフォーマンスの両立を図るパレート最適学習目的と履歴強化最適化を提案、ベンチマークでの実験を通じて有効性を示す。

ABSTRACT

The emergence of Multimodal Large Language Models (MLLMs) and the widespread usage of MLLM cloud services such as GPT-4V raised great concerns about privacy leakage in visual data. As these models are typically deployed in cloud services, users are required to submit their images and videos, posing serious privacy risks. However, how to tackle such privacy concerns is an under-explored problem. Thus, in this paper, we aim to conduct a new investigation to protect visual privacy when enjoying the convenience brought by MLLM services. We address the practical case where the MLLM is a "black box", i.e., we only have access to its input and output without knowing its internal model information. To tackle such a challenging yet demanding problem, we propose a novel framework, in which we carefully design the learning objective with Pareto optimality to seek a better trade-off between visual privacy and MLLM's performance, and propose critical-history enhanced optimization to effectively optimize the framework with the black-box MLLM. Our experiments show that our method is effective on different benchmarks.

研究の動機と目的

  • Motivate the privacy risks of visual data in MLLM cloud services.
  • Develop a privacy-preserving framework usable even when the MLLM is a black box.
  • Balance visual privacy protection with maintaining MLLM task performance.
  • Propose optimization techniques that are effective under limited model access (black-box).
  • Demonstrate effectiveness across multiple benchmarks.

提案手法

  • Pareto-optimal learning objective を設計して privacy と MLLM performance のトレードオフを図る。
  • critical-history enhanced optimization を導入してブラックボックスMLLMに適合するフレームワークを最適化する。
  • フレームワークを MLLM シナリオにおける視覚データのプライバシー保護へ適用する。
  • 多様なベンチマークで評価して汎用性を示す。

実験結果

リサーチクエスチョン

  • RQ1モデル内部がアクセス不可(ブラックボックス設定)のとき、視覚的プライバシー保護はMLLMに対して効果的に実現できるか?
  • RQ2パレート最適化のもとでプライバシー保護強度とMLLMタスク性能のトレードオフはどうなるか?
  • RQ3クリティカルヒストリー情報を組み込むことでブラックボックスMLLMにおける最適化収束と保護品質が改善されるか?

主な発見

  • 提案されたアプローチは、ベンチマークでのMLLMパフォーマンスを維持しつつ効果的なプライバシー保護を実現している。
  • パレート最適目的は、プライバシーと有用性の競合する目標のバランスを助ける。
  • クリティカル-history 強化最適化はブラックボックス設定での最適化結果を改善する。
  • この手法は異なるベンチマークシナリオで頑強性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。