[論文レビュー] Adaptive Text Anonymization: Learning Privacy-Utility Trade-offs via Prompt Optimization
The paper presents adaptive text anonymization that automatically learns domain- and task-specific privacy–utility trade-offs via evolutionary prompt optimization, enabling open-source models to match or exceed closed models on diverse benchmarks.
Anonymizing textual documents is a highly context-sensitive problem: the appropriate balance between privacy protection and utility preservation varies with the data domain, privacy objectives, and downstream application. However, existing anonymization methods rely on static, manually designed strategies that lack the flexibility to adjust to diverse requirements and often fail to generalize across domains. We introduce adaptive text anonymization, a new task formulation in which anonymization strategies are automatically adapted to specific privacy-utility requirements. We propose a framework for task-specific prompt optimization that automatically constructs anonymization instructions for language models, enabling adaptation to different privacy goals, domains, and downstream usage patterns. To evaluate our approach, we present a benchmark spanning five datasets with diverse domains, privacy constraints, and utility objectives. Across all evaluated settings, our framework consistently achieves a better privacy-utility trade-off than existing baselines, while remaining computationally efficient and effective on open-source language models, with performance comparable to larger closed-source models. Additionally, we show that our method can discover novel anonymization strategies that explore different points along the privacy-utility trade-off frontier.
研究の動機と目的
- Context-sensitivity of text anonymization を adaptive, task-conditioned privacy–utility trade-offs に対応させる。
- 自動的な prompt evolution によって manual prompt engineering および固定されたトレードオフを排除する。
- 地元でデプロイ可能なオープンソースモデルベースの匿名化を、有利な API ベースの解法と対等またはそれを超える性能で実現する。
提案手法
- 匿名化を prompts による適応的、タスク条件付きの書き換えとして定式化する。
- warm-start 段階と refinements 段階を含む GEPA ベースの二段階進化的 prompt 最適化パイプラインを導入する。
- プライバシーとユーティリティの Pareto ベースの選択を用いて多様な動作点を維持する。
- 検索効率と指針性を改善するための豊富なフィードバックと適応的検証サンプリングを実装する。
- ローカルにデプロイ可能な匿名化エージェントと提案者エージェントを用いて、中規模のオープンソース LLM で運用する。
- 各トレードオフ点を固定モデルチェックポイントではなく自然言語指示として表現する。

実験結果
リサーチクエスチョン
- RQ1適応的 prompt 最適化は、ドメイン横断で複数の Pareto 最適な privacy–utility のトレードオフを見出せるか。
- RQ2タスク固有の prompts に guided されたオープンソースモデルベースの匿名化は、閉鎖ソースや従来法と比較してプライバシーと有用性の点でどうか。
- RQ3フレームワークは多様なドメインと脅威モデルへ匿名化戦略を効果的に一般化できるか。
主な発見
| Model/Method | DB-Bio Privacy | DB-Bio Utility | SynthPAI Privacy | SynthPAI Utility | TAB Privacy | TAB Utility | PUPA Privacy | PUPA Utility | MedQA Privacy | MedQA Utility | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| OpenPII | 57.6/98.1 | 9.02/97.3 | 87.1/32.2 | 75.4/70.3 | 3.80/59.5 | - | - | - | - | - | |
| RUPTA (GPT-5) | 74.0/98.3 | - / - | - / - | - / - | - / - | - / - | - / - | - / - | - / - | - / - | - / - |
| AF (GPT-5) | 78.0/92.1 | 64.0/57.6 | 59.9/42.5 | 94.2/46.0 | 24.4/45.8 | - | - | - | - | - | |
| Prompt (GPT-5) | 63.6/100 | 18.3/88.1 | 99.3/48.6 | 99.1/72.7 | 10.7/45.5 | - | - | - | - | - | |
| (Optimized) | 65.5/100 | 22.5/94.4 | 92.3/56.2 | 98.0/79.3 | 24.6/45.9 | - | - | - | - | - |
- 最適化された prompts は、オープンソースモデルとタスク全体でプライバシースコアを一貫して改善し、ユーティリティを維持または向上させる。
- 一つの最適化実行内で複数の Pareto 最適匿名化戦略を発見し、高プライバシーから高ユーティリティまでの動作点を網羅する。
- 最適化された Qwen3-30B-A3B は、GPT-5 ベースの手法と複数のタスクで競争力のある性能を示し、クローズドモデルとのギャップを縮める。
- トレードオフはモデルとタスクによって異なり、TAB、SynthPAI、MedQA データセットで前線が異なる。
- このアプローチにより、オープンソースモデルが複数のベンチマークで API ベースのベースラインの性能と同等、またはそれを上回ることが可能になる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。