QUICK REVIEW

[論文レビュー] Differentially- and non-differentially-private random decision trees

Mariusz Bojarski, Anna Choromanska|arXiv (Cornell University)|Oct 26, 2014

Privacy-Preserving Technologies in Data参考文献 49被引用数 18

ひとこと要約

本稿では、三つの集約手法（多数決投票、しきい値平均、確率的平均）を用いた、微分プライバシーを満たすおよび満たさないランダム決定木の組み合わせを提案し、分析している。理論的に、微分プライバシー下でも高精度を達成するためにはO(log n)のランダム木で十分であることを示し、実験的に多数決投票がハイパーパramータの感度に強く、プライバシーを保ちながらも頑健な性能を発揮することを示している。

ABSTRACT

We consider supervised learning with random decision trees, where the tree construction is completely random. The method is popularly used and works well in practice despite the simplicity of the setting, but its statistical mechanism is not yet well-understood. In this paper we provide strong theoretical guarantees regarding learning with random decision trees. We analyze and compare three different variants of the algorithm that have minimal memory requirements: majority voting, threshold averaging and probabilistic averaging. The random structure of the tree enables us to adapt these methods to a differentially-private setting thus we also propose differentially-private versions of all three schemes. We give upper-bounds on the generalization error and mathematically explain how the accuracy depends on the number of random decision trees. Furthermore, we prove that only logarithmic (in the size of the dataset) number of independently selected random decision trees suffice to correctly classify most of the data, even when differential-privacy guarantees must be maintained. We empirically show that majority voting and threshold averaging give the best accuracy, also for conservative users requiring high privacy guarantees. Furthermore, we demonstrate that a simple majority voting rule is an especially good candidate for the differentially-private classifier since it is much less sensitive to the choice of forest parameters than other methods.

研究の動機と目的

多数決投票、しきい値平均、確率的平均の三つの集約方式を用いた、非微分プライバシーおよび微分プライバシーを満たすランダム決定木の、初めての包括的な理論的分析を提供すること。
一般化誤差の境界を確立し、標準的および微分プライバシー設定下での木の数が精度に与える影響を定量化すること。
データセットサイズの対数関数的スケーリングに従う少数のランダム木（対数的）が、強いプライバシー保証を維持したまま、高精度な分類を達成できることを示すこと。
微分プライバシー下でのさまざまな集約手法の性能を実験的に評価・比較し、特にハイパーパramータの選択に対する感受性に焦点を当てる。

提案手法

各ノードでデータに依存せずに特徴量としきい値を一様にランダムに選択することでランダム決定木を構築し、最小限のメモリで一回のスキャンで高速に構築可能である。
三つの集約戦略を採用：多数決投票（予測クラスを最頻値のラベルで決定）、しきい値平均（予測確率の平均）、確率的平均（木の信頼度を用いた重み付き平均）。
内部ノードではなく葉ノードのカウンタにのみラプラスノイズを追加することで、フレームワークを微分プライバシーに適合させ、木構造への摂動の影響を低減している。
プライバシー予算パラメータη = 1000 / n_trを用い、n_trは訓練サンプル数である。ノイズの大きさを制御し、(ε, δ)-微分プライバシーを保証している。
木の高さh ∈ {1, ..., 15}および木の数k ∈ {1, 3, ..., 21}のハイパーパラメータ探索を行い、検証誤差が最小となる組み合わせを選択している。
8つの実世界のデータセット（Banknote、Adult、Covertypeなど）を用い、10分割交差検証を実施。各分割で90%を訓練、10%を検証、10%をテストに使用している。

実験結果

リサーチクエスチョン

RQ1多数決投票、しきい値平均、確率的平均を用いた非微分プライバシーのランダム決定木における理論的一般化誤差境界は何か？
RQ2微分プライバシー下で高精度な分類を達成するために必要なランダム決定木の数はどれくらいか？この数はデータセットサイズに対して対数的にスケーリングされるか？
RQ3微分プライバシー下でのさまざまな集約手法（多数決投票、しきい値平均、確率的平均）の性能を比較すると、ハイパーパラメータの選択に対する感受性はどのようになるか？
RQ4内部ノードではなく葉ノードのカウンタにのみノイズを追加することで、微分プライバシーを満たすランダムフォレストが最小限の摂動で高い精度を維持できるか？

主な発見

微分プライバシー下でも、O(log n)のランダム決定木で、ほとんどのデータを正しく分類できる。これは、従来の手法に比べて顕著な理論的進展である。
多数決投票としきい値平均が、すべての集約手法の中で最高のテスト精度を達成しており、多数決投票はハイパーパラメータの選択に対する感受性が優れている。
多数決投票を用いた微分プライバシーを満たすランダムフォレストは、他の手法と比べて木の数（k）や木の高さ（h）の変化に対して著しく感受性が低く、高プライバシー要件のアプリケーションにおいて実用的である。
確率的平均は他の二つと比べて著しく性能が低く、微分プライバシー設定下では推奨されない。
固定されたプライバシー予算（η = 1000 / n_tr）のもとで、kとhが増加するにつれてテスト誤差は減少するが、しきい値平均では最適な設定が非常に感受性が高く、多数決投票とは対照的である。
実験結果から、dpRFMV（微分プライバシーを満たすランダムフォレスト＋多数決投票）が、精度と安定性のバランスが最も良く、複数のデータセットでdpRFTAおよびdpRFPAを上回っている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。