QUICK REVIEW

[论文解读] Learners that Use Little Information

Raef Bassily, Shay Moran|arXiv (Cornell University)|Oct 14, 2017

Machine Learning and Algorithms被引用 45

一句话总结

本文引入了d比特信息学习器——即其输出关于输入数据的互信息最多为d比特的学习算法——并证明此类算法具有良好的泛化性能，其泛化误差受互信息I(A(S);S)的约束。关键贡献在于建立了紧致的样本复杂度界，表明泛化误差以O(I(A(S);S)/(mε²))的速率衰减，并展示了低信息学习器即使在微分隐私失效的场景下，也能以最小的信息泄露实现最优的PAC学习。

ABSTRACT

We study learning algorithms that are restricted to using a small amount of information from their input sample. We introduce a category of learning algorithms we term $d$-bit information learners, which are algorithms whose output conveys at most $d$ bits of information of their input. A central theme in this work is that such algorithms generalize. We focus on the learning capacity of these algorithms, and prove sample complexity bounds with tight dependencies on the confidence and error parameters. We also observe connections with well studied notions such as sample compression schemes, Occam's razor, PAC-Bayes and differential privacy. We discuss an approach that allows us to prove upper bounds on the amount of information that algorithms reveal about their inputs, and also provide a lower bound by showing a simple concept class for which every (possibly randomized) empirical risk minimizer must reveal a lot of information. On the other hand, we show that in the distribution-dependent setting every VC class has empirical risk minimizers that do not reveal a lot of information.

研究动机与目标

形式化学习算法仅从训练数据中使用少量信息时泛化性能良好的直觉。
分析受限于最多泄露输入数据d比特信息的学习算法的样本复杂度。
建立低信息学习、样本压缩、奥卡姆剃刀、PAC-Bayes与微分隐私之间的联系。
证明在分布依赖设定下，每个VC类均可通过O(d log m)比特的信息泄露实现学习。
展示微分隐私与有界互信息之间的分离，表明有界信息学习器在效率上可优于微分私密学习器。

提出的方法

将d比特信息学习器定义为输入样本S与输出A(S)之间互信息至多为d的算法。
通过四种不同的证明技术（强调不同视角）证明泛化界：P(|true error - empirical error| > ε) = O(I(A(S);S)/(mε²))。
提出一种通用ERM学习器，其从训练样本中均匀随机输出一个一致假设，表明在某些情况下该方法可最小化信息泄露。
构造下界，表明在阈值概念类中，任何合适的ERM必须泄露Ω(log log N / m²)比特的信息。
引入分布依赖设定，其中学习器已知数据分布D_X，并设计一种确定性、一致的学习器，其信息泄露为O(d log m)比特。
使用ε_k-网并结合对网的分层搜索，以有界输出的熵，确保以高概率终止且信息泄露低。

实验结果

研究问题

RQ1仅从输入中使用少量信息的学习算法是否能实现良好泛化？
RQ2对于有界互信息I(A(S);S)的学习算法，最紧致的样本复杂度界是什么？
RQ3是否存在某些概念类，使得即使在简单设定下，所有合适的、一致的ERM都必须泄露大量信息？
RQ4在数据分布已知的分布依赖设定下，能否实现低信息学习？
RQ5在样本复杂度与信息泄露方面，微分隐私与有界互信息之间是否存在分离？

主要发现

d比特信息学习器的泛化误差被限制在O(I(A(S);S)/(mε²))以内，建立了信息使用与泛化之间的紧密关系。
实现误差ε且置信度为δ所需的样本复杂度为Ω(I(A(S);S)/(ε²δ))，且该界是紧致的，通过构造一个O(1)比特信息泄露的算法（其非零误差概率为Ω(1/m)）得以证明。
在大小为N的定义域上的阈值概念类中，任何合适的ERM必须至少泄露Ω(log log N / m²)比特的信息，表明在某些简单设定中存在固有的信息成本。
在分布依赖设定下，每个VC维为d的类均可通过一种确定性、一致的算法以仅O(d log m)比特的信息泄露实现学习，且该值与定义域大小N无关。
展示了纯微分私密性与有界互信息之间的分离：点函数类可通过仅2比特信息泄露的合适ERM实现学习，而纯微分私密算法的样本复杂度随N增长。
通用ERM（输出一致假设的均匀随机选择）在某些情况下可实现低信息泄露，但在其他情况下可能次优，凸显了对定制化低信息学习器的需求。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。