Skip to main content
QUICK REVIEW

[论文解读] Semi-supervised learning in unmatched linear regression using an empirical likelihood approach

Fadoua Balabdaoui, Jinyu Chen|arXiv (Cornell University)|Jan 27, 2026
Statistical Methods and Inference被引用 0
一句话总结

该论文提出一种半监督最大经验似然估计量(SSLEMLE)用于具有少量匹配样本和大量未匹配样本的线性回归,证明一致性、渐近正态性,并给出未匹配数据带来的统计收益的闭式表达。

ABSTRACT

Knowing the link between observed predictive variables and outcomes is crucial for making inference in any regression model. When this link is missing, partially or completely, classical estimation methods fail in recovering the true regression function. Deconvolution approaches have been proposed and studied in detail in the unmatched setting where the predictive variables and responses are allowed to be independent. In this work, we consider linear regression in a semi-supervised learning setting where, beside a small sample of matched data, we have access to a relatively large unmatched sample. Using maximum likelihood estimation, we show that under some mild assumptions the semi-supervised learning empirical maximum likelihood estimator (SSLEMLE) is asymptotically normal and give explicitly its asymptotic covariance matrix as a function of the ratio of the matched/unmatched sample sizes and other parameters. Furthermore, we quantify the statistical gain achieved by having the additional large unmatched sample over having only the small matched sample. To illustrate the theory, we present the results of an extensive simulation study and apply our methodology to the "combined cycle power plant" data set.

研究动机与目标

  • 在链接 Y = beta0^T X + epsilon 部分未知且利用大量未匹配数据样本的情况下,激励线性回归中的推断。
  • 引入将匹配数据和未匹配数据结合起来的半监督经验似然框架。
  • 在温和假设下建立SSLEMLE的存在性、一致性和渐近正态性。
  • 量化加入未匹配数据带来的统计收益,并在高斯情形下给出显式公式。
  • 通过仿真实验和真实数据应用(组合循环发电厂数据集)来演示该方法。

提出的方法

  • 定义将匹配数据 (Xk,Yk) 与未匹配数据 ϟtyXj, ϟtyYj 通过噪声分布 f 进行联合的经验对数似然。
  • 在秩条件和正则性条件下证明存在极大化解(SSLEMLE),并分析有限样本与渐近情况。
  • 利用经验过程理论和总体准则 ell(beta) 证明SSLEMLE的一致性。
  • 推导SSLEMLE的渐近正态性,并给出渐近协方差矩阵 Sigma_SSL 的显式形式,作为 lambda、Gamma1、Gamma2 和 Sigma2 的函数。
  • 引入并分析加入未匹配数据的统计收益 G,在高斯情形给出显式公式。
  • 进行仿真实验并将该方法应用于组合循环发电厂数据集,以说明实际性能。

实验结果

研究问题

  • RQ1当结合少量匹配样本与大量未匹配样本时,SSLEMLE 能否对 beta0 进行一致估计?
  • RQ2SSLEMLE 的渐近分布是什么,以及未匹配数据如何影响其方差?
  • RQ3在高斯假设下,如何量化包含未匹配数据带来的统计收益?
  • RQ4仿真与真实数据示例是否支持理论收益与渐近结果?

主要发现

  • 在有限样本下SSLEMLE 存在,在大样本情形下在给定条件下以概率1存在。
  • SSLEMLE 具有一致性且渐近正态,协方差结构取决于匹配/未匹配样本大小比 lambda。
  • 渐近协方差 Sigma_SSL 明确给出为 Gamma1、Gamma2、Sigma2 与 lambda 的函数,体现两类数据源的贡献。
  • 在高斯情形推导出统计收益 G 的闭式表达式,显示无标签数据如何提升估计效率。
  • 仿真验证了理论收益公式并展示了在不同噪声和协变量分布下的行为;该方法亦应用于组合循环发电厂数据集。
  • 收益对信噪比(SNR)呈单峰行为,且当 SNR 增大时收益趋于1。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。