[論文レビュー] A Machine Learning Approach to Improving Occupational Income Scores
この論文は、非古典的測定誤差を是正するためのlasso回帰を用いた機械学習調整型職業収入スコア、LIDOスコアを提案する。職業、産業、人種、性別、年齢、地理を組み合わせることで、特に1915年アイオワ州国勢調査のような歴史的データにおいて、OCCSCOREが人種格差をほぼ半分まで低く見積もっており、性別格差の符号まで逆転させてしまうのに対し、LIDOは真の収入回帰にはるかに近い収入格差推定値を生み出す。
Historical studies of labor markets frequently lack data on individual income. The occupational income score (OCCSCORE) is often used as an alternative measure of labor market outcomes. We consider the consequences of using OCCSCORE when researchers are interested in earnings regressions. We estimate race and gender earnings gaps in modern decennial Censuses as well as the 1915 Iowa State Census. Using OCCSCORE biases results towards zero and can result in estimated gaps of the wrong sign. We use a machine learning approach to construct a new adjusted score based on industry, occupation, and demographics. The new income score provides estimates closer to earnings regressions. Lastly, we consider the consequences for estimates of intergenerational mobility elasticities.
研究の動機と目的
- 標準OCCSCOREを収入の代理変数として使用することによるバイアスを、特に歴史的データにおいて定量化すること。
- 1850年以降の全米国勢調査に存在する人種的・地理的変数を組み合わせることで、OCCSCOREにおける非古典的測定誤差を是正すること。
- 人種および性別収入格差の推定値における減衰バイアスを低減する、新たな改善版収入スコア「LIDO」を開発すること。
- 1850年から1930年までの国勢調査データをリンクして用いることで、OCCSCOREおよびLIDOが世代間収入流動性推定値に与える影響を評価すること。
- 研究者が収益指向の歴史的研究において標準OCCSCOREの代わりに使用できる、公開可能で交差検証済みのLIDOスコアを提供すること。
提案手法
- 職業、産業、人種、性別、年齢、居住州に基づいて個人の収入を予測する交差検証を施したlasso回帰を用いる。
- 現代の国勢調査データ(2000年)を用いて、ベースとなるOCCSCOREを補正する係数を推定する。
- lasso係数で重み付けされた予測変数の線形結合としてLIDOスコアを構築し、スパarsity(スパarsity)と一般化可能性を確保する。
- 「悪化させた現代データ」アプローチを用いて、1950年から2000年のデータにおける実収入との比較を通じてLIDOスコアの予測力を検証する。
- 1915年アイオワ州国勢調査を歴史的ベンチマークとして、LIDOスコアの性能を真の収入と標準OCCSCOREと比較してテストする。
- 1850年から1930年までの国勢調査において、父と息子のペアを用いて世代間流動性を分析し、LIDOとOCCSCOREの性能を比較する。
実験結果
リサーチクエスチョン
- RQ1標準OCCSCOREを収入の代理変数として使用することで、歴史的収入回帰における人種および性別収入格差の推定値にどの程度バイアスが生じるか?
- RQ2個人の収入データが入手不可能な状況において、機械学習手法が職業収入スコアの測定誤差をどの程度低減できるか?
- RQ31915年アイオワ州国勢調査において、LIDOスコアは真の収入と標準OCCSCOREと比較して、歴史的収入格差をどの程度正確に推定できるか?
- RQ4OCCSCOREとLIDOを用いることで、特にブラック・メンの世代間収入流動性推定値にどのような影響が生じるか?
- RQ5どのような研究状況において、標準OCCSCOREの代わりにLIDOスコアを優先すべきか?
主な発見
- 1915年アイオワ州国勢調査において、標準OCCSCOREは人種収入格差をほぼ半分まで低く見積もっており、真のデータでは負の符号である性別収入格差を誤って正の符号として推定している。
- LIDOスコアは、実収入データから得られる推定値に著しく近い収入格差推定値を生み出し、減衰バイアスを顕著に低減している。
- 世代間流動性の観点では、OCCSCOREは相関する測定誤差のため、ブラック・メンの流動性を低く見積もっているが、LIDOはより正確な推定値を提供している。
- LIDOスコアは、1850年以降の全米国勢調査に存在する変数を用いた交差検証を施したlasso回帰によって構築されており、広範な歴史的適用可能性を有している。
- LIDOスコアは、http://www2.oberlin.edu/faculty/msaavedr/lido.html で公開されており、歴史的経済学研究に使用可能である。
- OCCSCOREは職業的地位の測定には有用であるが、収入指向の研究、特に収入格差や流動性の推定においてはLIDOが優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。