[论文解读] A Machine Learning Approach to Improving Occupational Income Scores
本文提出LIDO得分,一种通过套索回归校正标准OCCSCORE中非经典测量误差的机器学习调整职业收入得分。通过整合职业、行业、种族、性别、年龄和地理信息,LIDO在历史数据(如1915年爱荷华州人口普查)中产生的收入差距估计值远比OCCSCORE更接近真实收入回归结果,尤其在OCCSCORE几乎低估一半种族收入差距并错误反转性别差距符号的情况下表现更优。
Historical studies of labor markets frequently lack data on individual income. The occupational income score (OCCSCORE) is often used as an alternative measure of labor market outcomes. We consider the consequences of using OCCSCORE when researchers are interested in earnings regressions. We estimate race and gender earnings gaps in modern decennial Censuses as well as the 1915 Iowa State Census. Using OCCSCORE biases results towards zero and can result in estimated gaps of the wrong sign. We use a machine learning approach to construct a new adjusted score based on industry, occupation, and demographics. The new income score provides estimates closer to earnings regressions. Lastly, we consider the consequences for estimates of intergenerational mobility elasticities.
研究动机与目标
- 量化在历史数据中使用标准OCCSCORE作为收入代理变量时引入的偏差,尤其是在历史数据中。
- 通过整合自1850年以来所有美国人口普查中可获得的人口和地理变量,解决OCCSCORE中的非经典测量误差。
- 开发一种新的、改进的收入得分——LIDO,以减少估计的种族和性别收入差距中的衰减偏差。
- 利用1850–1930年人口普查的链接数据,评估OCCSCORE和LIDO对代际收入流动性估计的影响。
- 为研究人员提供一个公开可获取、经过交叉验证的LIDO得分,以替代标准OCCSCORE用于以收入为重点的历史研究。
提出的方法
- 使用交叉验证的套索回归,基于职业、行业、种族、性别、年龄和居住州来预测个人收入。
- 将套索模型应用于现代人口普查数据(2000年)以估计调整基础OCCSCORE的系数。
- 将LIDO得分构建为预测变量的线性组合,其权重由套索系数决定,以确保稀疏性和泛化能力。
- 通过比较LIDO得分在1950–2000年数据中对实际收入的预测能力(采用“恶化现代数据”方法)来验证其有效性。
- 使用1915年爱荷华州人口普查作为历史基准,测试LIDO在真实收入和标准OCCSCORE之间的表现。
- 利用1850–1930年人口普查中的父子配对数据,分析代际流动性,以比较LIDO和OCCSCORE的表现。
实验结果
研究问题
- RQ1在历史收入回归中,使用标准OCCSCORE在多大程度上偏差了对种族和性别收入差距的估计?
- RQ2当缺乏个人收入数据时,机器学习技术在多大程度上可以减少职业收入得分中的测量误差?
- RQ3LIDO得分在估计历史收入差距(尤其是1915年爱荷华州人口普查)方面,与真实收入和标准OCCSCORE相比如何?
- RQ4使用LIDO与OCCSCORE对代际收入流动性估计的影响是什么,特别是对非裔美国男性而言?
- RQ5在哪些研究情境下,应优先使用LIDO得分而非标准OCCSCORE?
主要发现
- 在1915年爱荷华州人口普查中,标准OCCSCORE几乎低估了近一半的种族收入差距,并错误地将性别收入差距符号标记为正,而真实数据中该符号为负。
- LIDO得分产生的收入差距估计值与实际收入数据推导出的结果显著更接近,大幅减少了衰减偏差。
- 在代际流动性方面,由于相关测量误差,OCCSCORE低估了非裔美国男性的流动性,而LIDO提供了更准确的估计。
- LIDO得分是基于自1850年以来每个美国人口普查中均可获得的变量,通过交叉验证的套索回归构建,确保了广泛的历史适用性。
- LIDO得分可通过 http://www2.oberlin.edu/faculty/msaavedr/lido.html 公开获取,供历史经济研究使用。
- 尽管OCCSCORE在衡量职业地位方面仍有用处,但LIDO在以收入为重点的研究中表现更优,尤其是在估计收入差距和流动性方面。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。