Skip to main content
QUICK REVIEW

[論文レビュー] Cyclic Adaptive Private Synthesis for Sharing Real-World Data in Education

Hibiki Ito, Chia-Yu Hsu|arXiv (Cornell University)|Feb 9, 2026
Privacy-Preserving Technologies in Data被引用数 0
ひとこと要約

CAPSは、差分プライバシーの下で高次元・小サンプルの実世界教育データを共有するための循環的・適応的なプライベート合成フレームワークを導入し、実世界のケーススタディでワンショットのベースラインより改善する。

ABSTRACT

The rapid adoption of digital technologies has greatly increased the volume of real-world data (RWD) in education. While these data offer significant opportunities for advancing learning analytics (LA), secondary use for research is constrained by privacy concerns. Differentially private synthetic data generation is regarded as the gold-standard approach to sharing sensitive data, yet studies on the private synthesis of educational data remain very scarce and rely predominantly on large, low-dimensional open datasets. Educational RWD, however, are typically high-dimensional and small in sample size, leaving the potential of private synthesis underexplored. Moreover, because educational practice is inherently iterative, data sharing is continual rather than one-off, making a traditional one-shot synthesis approach suboptimal. To address these challenges, we propose the Cyclic Adaptive Private Synthesis (CAPS) framework and evaluate it on authentic RWD. By iteratively sharing RWD, CAPS not only fosters open science, but also offers rich opportunities of design-based research (DBR), thereby amplifying the impact of LA. Our case study using actual RWD demonstrates that CAPS outperforms a one-shot baseline while highlighting challenges that warrant further investigation. Overall, this work offers a crucial first step towards privacy-preserving sharing of educational RWD and expands the possibilities for open science and DBR in LA.

研究の動機と目的

  • 教育分野における小サンプル・高次元のRWD課題に対処してプライベートデータ共有を動機づける。
  • CAPSを提案し、循環ごとにプライバシー保護された合成データを反復的に生成する。
  • 事前学習済み特徴抽出器と継続学習を活用してコホート間で適応する。
  • DPによるプライバシー保証を示し、下流タスクを通じて有用性を評価する。

提案手法

  • Kingmaらに触発された安定したプライベート合成を可能にする、二モデルVAEベースのフレームワーク(M1無条件、M2条件付き)を採用。
  • M1を公開データで事前訓練し、次にM2をプライベートデータとM1から生成された未ラベルデータを組み合わせた半プライベート半教師あり学習(SPSSL)で訓練。
  • SPSSL内でDPメカニズム(DP-SGD)を使用し、共有データまたはモデルに対するε, δ-DP保証を確保。
  • 前の循環の合成データを用いた継続学習と生成再生を通じて、忘却を避けつつM1を循環ごとに更新。
  • Rényi DPおよびGaussian DPを用いたプライバシーアカウンティングを実施し、プライバシー保証と対応ノイズ乗数を報告。
  • 教育データ(学習習慣)を対象とする三年間のK-12文脈からの実世界教育データを用いたケーススタディでCAPSを検証。
Figure 1 . Overview of the proposed CAPS framework. $D_{t}$ are private datasets for cycles $t=1,2,\dots$ which we wish to share with third parties. The generative model M1+M2 is trained by semi-private semi-supervised learning (SPSSL) to share the synthetic data or the model itself under DP guarant
Figure 1 . Overview of the proposed CAPS framework. $D_{t}$ are private datasets for cycles $t=1,2,\dots$ which we wish to share with third parties. The generative model M1+M2 is trained by semi-private semi-supervised learning (SPSSL) to share the synthetic data or the model itself under DP guarant

実験結果

リサーチクエスチョン

  • RQ1反復的なプライベート合成は、ワンショットのベースラインと比較して複数回の循環で教育RWDの合成データの有用性を改善できるか。
  • RQ2CAPSは差分プライバシーを保ちつつ下流の予測性能を維持または向上できるか。
  • RQ3循環的なプライベート合成におけるプライバシーと有用性のトレードオフや、潜在的なバイアスは何か。

主な発見

  • CAPSベースのモデルは、連続する循環で下流の分類性能と再構成力を改善。
  • AJSダイバージェンスは生成データの再構成品質がわずかに低下する一方、実データからの再構成は循環ごとに改善。
  • GDP/RDPを用いたプライバシーアカウンティングは、管理可能なノイズ水準でDP保証を示し、報告されたプライバシーレグレット閾値を満たす。
  • 合成データの品質は一部の設定で複利的なバイアスを示し、より強いDP(より低いε)で増幅される可能性がある。
  • 本フレームワークは教育RWDの反復的でプライバシー保護された共有の実現性を実証し、LAにおけるデザインベース研究を可能にする。
(a) Balanced accuracy
(a) Balanced accuracy

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。