Skip to main content
QUICK REVIEW

[論文レビュー] Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization

Gabriel Loiseau, Damien Sileo|arXiv (Cornell University)|Feb 24, 2026
Privacy-Preserving Technologies in Data被引用数 0
ひとこと要約

The paper presents adaptive text anonymization that automatically learns domain- and task-specific privacy–utility trade-offs via evolutionary prompt optimization, enabling open-source models to match or exceed closed models on diverse benchmarks.

ABSTRACT

Anonymizing textual documents is a highly context-sensitive problem: the appropriate balance between privacy protection and utility preservation varies with the data domain, privacy objectives, and downstream application. However, existing anonymization methods rely on static, manually designed strategies that lack the flexibility to adjust to diverse requirements and often fail to generalize across domains. We introduce adaptive text anonymization, a new task formulation in which anonymization strategies are automatically adapted to specific privacy-utility requirements. We propose a framework for task-specific prompt optimization that automatically constructs anonymization instructions for language models, enabling adaptation to different privacy goals, domains, and downstream usage patterns. To evaluate our approach, we present a benchmark spanning five datasets with diverse domains, privacy constraints, and utility objectives. Across all evaluated settings, our framework consistently achieves a better privacy-utility trade-off than existing baselines, while remaining computationally efficient and effective on open-source language models, with performance comparable to larger closed-source models. Additionally, we show that our method can discover novel anonymization strategies that explore different points along the privacy-utility trade-off frontier.

研究の動機と目的

  • Context-sensitivity of text anonymization を adaptive, task-conditioned privacy–utility trade-offs に対応させる。
  • 自動的な prompt evolution によって manual prompt engineering および固定されたトレードオフを排除する。
  • 地元でデプロイ可能なオープンソースモデルベースの匿名化を、有利な API ベースの解法と対等またはそれを超える性能で実現する。

提案手法

  • 匿名化を prompts による適応的、タスク条件付きの書き換えとして定式化する。
  • warm-start 段階と refinements 段階を含む GEPA ベースの二段階進化的 prompt 最適化パイプラインを導入する。
  • プライバシーとユーティリティの Pareto ベースの選択を用いて多様な動作点を維持する。
  • 検索効率と指針性を改善するための豊富なフィードバックと適応的検証サンプリングを実装する。
  • ローカルにデプロイ可能な匿名化エージェントと提案者エージェントを用いて、中規模のオープンソース LLM で運用する。
  • 各トレードオフ点を固定モデルチェックポイントではなく自然言語指示として表現する。
Figure 1: Overview of our approach. We perform reflective prompt optimization using the GEPA algorithm Agrawal et al. ( 2025 ) . Our method adapts a base seed prompt into an optimized prompt defining the privacy and utility task requirements. The optimization operates in a strict fixed budget enviro
Figure 1: Overview of our approach. We perform reflective prompt optimization using the GEPA algorithm Agrawal et al. ( 2025 ) . Our method adapts a base seed prompt into an optimized prompt defining the privacy and utility task requirements. The optimization operates in a strict fixed budget enviro

実験結果

リサーチクエスチョン

  • RQ1適応的 prompt 最適化は、ドメイン横断で複数の Pareto 最適な privacy–utility のトレードオフを見出せるか。
  • RQ2タスク固有の prompts に guided されたオープンソースモデルベースの匿名化は、閉鎖ソースや従来法と比較してプライバシーと有用性の点でどうか。
  • RQ3フレームワークは多様なドメインと脅威モデルへ匿名化戦略を効果的に一般化できるか。

主な発見

Model/MethodDB-Bio PrivacyDB-Bio UtilitySynthPAI PrivacySynthPAI UtilityTAB PrivacyTAB UtilityPUPA PrivacyPUPA UtilityMedQA PrivacyMedQA Utility
OpenPII57.6/98.19.02/97.387.1/32.275.4/70.33.80/59.5-----
RUPTA (GPT-5)74.0/98.3- / -- / -- / -- / -- / -- / -- / -- / -- / -- / -
AF (GPT-5)78.0/92.164.0/57.659.9/42.594.2/46.024.4/45.8-----
Prompt (GPT-5)63.6/10018.3/88.199.3/48.699.1/72.710.7/45.5-----
(Optimized)65.5/10022.5/94.492.3/56.298.0/79.324.6/45.9-----
  • 最適化された prompts は、オープンソースモデルとタスク全体でプライバシースコアを一貫して改善し、ユーティリティを維持または向上させる。
  • 一つの最適化実行内で複数の Pareto 最適匿名化戦略を発見し、高プライバシーから高ユーティリティまでの動作点を網羅する。
  • 最適化された Qwen3-30B-A3B は、GPT-5 ベースの手法と複数のタスクで競争力のある性能を示し、クローズドモデルとのギャップを縮める。
  • トレードオフはモデルとタスクによって異なり、TAB、SynthPAI、MedQA データセットで前線が異なる。
  • このアプローチにより、オープンソースモデルが複数のベンチマークで API ベースのベースラインの性能と同等、またはそれを上回ることが可能になる。
Figure 4: A comparison of learning behavior of our modified GEPA implementation against each separated component and a state-of-the-art prompt optimizer reference (MIPROv2). Results are measures with Gemma-3-27b-it on SynthPAI (top) and Mistral-Small-3.2-24B on TAB (bottom).
Figure 4: A comparison of learning behavior of our modified GEPA implementation against each separated component and a state-of-the-art prompt optimizer reference (MIPROv2). Results are measures with Gemma-3-27b-it on SynthPAI (top) and Mistral-Small-3.2-24B on TAB (bottom).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。