[论文解读] How much does your data exploration overfit? Controlling bias via information usage
本文提出了一种信息论框架,通过测量数据与分析选择之间的互信息,量化并界定了自适应数据分析中的偏差。该框架证明了互信息能紧密界定向选择偏差,为探索性数据分析中的过拟合提供了一种有原则的评估方法,适用于过滤、排序和聚类等过程。
Modern data is messy and high-dimensional, and it is often not clear a priori what are the right questions to ask. Instead, the analyst typically needs to use the data to search for interesting analyses to perform and hypotheses to test. This is an adaptive process, where the choice of analysis to be performed next depends on the results of the previous analyses on the same data. Ultimately, which results are reported can be heavily influenced by the data. It is widely recognized that this process, even if well-intentioned, can lead to biases and false discoveries, contributing to the crisis of reproducibility in science. But while %the adaptive nature of exploration any data-exploration renders standard statistical theory invalid, experience suggests that different types of exploratory analysis can lead to disparate levels of bias, and the degree of bias also depends on the particulars of the data set. In this paper, we propose a general information usage framework to quantify and provably bound the bias and other error metrics of an arbitrary exploratory analysis. We prove that our mutual information based bound is tight in natural settings, and then use it to give rigorous insights into when commonly used procedures do or do not lead to substantially biased estimation. Through the lens of information usage, we analyze the bias of specific exploration procedures such as filtering, rank selection and clustering. Our general framework also naturally motivates randomization techniques that provably reduces exploration bias while preserving the utility of the data analysis. We discuss the connections between our approach and related ideas from differential privacy and blinded data analysis, and supplement our results with illustrative simulations.
研究动机与目标
- 解决由于探索性数据分析中研究者自由度导致的科学可重复性危机。
- 量化自适应数据探索中分析选择依赖于同一数据集先前结果时所产生的偏差程度。
- 开发一种通用且可证明紧致的框架,用于测量和界定向任意自适应分析过程中的选择偏差。
- 提供关于常见做法(如过滤、排序选择和聚类)导致高偏差或低偏差的见解。
- 提出可减轻偏差的随机化技术,同时保持分析效用,并与差分隐私和盲法分析建立联系。
提出的方法
- 提出基于互信息的选择偏差界,定义为 $ I(T; \bm{\phi}) $,其中 $ T $ 为所选分析,$ \bm{\phi} $ 为数据。
- 证明在自然统计设定(如高斯位置模型)下,该互信息界是紧致的。
- 利用该框架分析具体过程:过滤低表达基因、选择排名靠前的基因、基于聚类的选择。
- 表明当信号强度增加时,互信息减少,反映出适应性降低,从而偏差减小。
- 将互信息界与最大信息量(max-information)及近似最大信息量进行对比,后者可能表现出反直觉行为(例如随信号强度增加而增加)。
- 引入随机化技术,可证明地减少信息使用量,从而降低偏差,同时保持数据效用。
实验结果
研究问题
- RQ1如何严格量化自适应数据探索中分析选择依赖于同一数据集先前结果时引入的偏差?
- RQ2过滤、排序选择和聚类等常见探索性过程在何种方式下导致选择偏差?
- RQ3所选分析与数据之间的互信息在实践中如何与实际选择偏差相关联?
- RQ4为何现有度量(如最大信息量)无法捕捉直观的偏差缩放规律(例如随信号强度减小)?而互信息可以?
- RQ5是否可利用随机化技术减少信息使用量,从而控制偏差而不牺牲分析效用?
主要发现
- 互信息 $ I(T; \bm{\phi}) $ 在自适应数据分析中为选择偏差提供了紧致且可证明的上界,尤其在高斯位移模型中表现优异。
- 随着信号强度 $ \mu $ 增加,互信息 $ I(T; \bm{\phi}) $ 减小,正确反映了适应性降低和偏差减小,而最大信息量则相反增加。
- 最大信息量和近似最大信息量可能具有误导性:它们随信号强度增加而增加,尽管实际偏差在减小,因此作为实际偏差的代理指标表现不佳。
- 该框架揭示,在弱信号的高维数据上进行确定性排序选择会导致高偏差。
- 通过限制信息使用量的随机化技术可可证明地减少偏差,同时保持分析效用,为实现更可重复的分析提供了实用路径。
- 互信息框架自然地与差分隐私和盲法分析相联系,提示数据科学中控制过拟合的共享原则。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。