[논문 리뷰] A Machine Learning Approach to Improving Occupational Income Scores
이 논문은 라소 회귀를 사용해 비고전적 측정 오차를 보정하는 기계학습 조정 직업 소득 점수인 LIDO 점수를 제안한다. 직업, 산업, 인종, 성별, 연령, 지리적 요소를 포함하여, 기존 OCCSCORE보다 역사적 자료(1915년 아이오와 주 인구 조사 등)에서 실제 소득 회귀 분석에 훨씬 가까운 소득 격차 추정치를 제공한다. 특히 OCCSCORE는 인종 격차를 거의 반으로 과소평가하고 성별 격차의 부호까지 뒤바꿔 기록한다.
Historical studies of labor markets frequently lack data on individual income. The occupational income score (OCCSCORE) is often used as an alternative measure of labor market outcomes. We consider the consequences of using OCCSCORE when researchers are interested in earnings regressions. We estimate race and gender earnings gaps in modern decennial Censuses as well as the 1915 Iowa State Census. Using OCCSCORE biases results towards zero and can result in estimated gaps of the wrong sign. We use a machine learning approach to construct a new adjusted score based on industry, occupation, and demographics. The new income score provides estimates closer to earnings regressions. Lastly, we consider the consequences for estimates of intergenerational mobility elasticities.
연구 동기 및 목표
- 기본 OCCSCORE를 소득의 대체 척도로 사용할 경우 소득 회귀 분석에 유도되는 편향을 정량화하는 것, 특히 역사적 자료에서의 경우.
- 1850년 이후 모든 미국 인구 조사에서 이용 가능한 인구통계 및 지리적 변수를 통합하여 OCCSCORE의 비고전적 측정 오차를 해결하는 것.
- 인종 및 성별 소득 격차 추정치의 감쇠 편향을 줄이는 새로운 개선된 소득 점수인 LIDO를 개발하는 것.
- 연결된 1850–1930년 인구 조사 자료를 활용해 OCCSCORE와 LIDO가 2세대 소득 이동성 추정치에 미치는 영향을 평가하는 것.
- 연구자들이 역사적 경제 연구에 기초 OCCSCORE 대신 사용할 수 있도록 공개된, 교차 검증된 LIDO 점수를 제공하는 것.
제안 방법
- 직업, 산업, 인종, 성별, 연령, 거주지 주를 기반으로 개인 소득을 예측하기 위해 교차 검증된 라소 회귀를 사용한다.
- 현대 인구 조사 자료(2000년)를 활용해 기본 OCCSCORE를 보정하기 위한 계수를 추정한다.
- 예측 변수를 라소 계수로 가중한 선형 조합으로 LIDO 점수를 구성함으로써 희소성과 일반화 능력을 확보한다.
- 예측 능력을 검증하기 위해 '악화된 현대 자료' 접근법을 사용해 1950–2000년 자료에서 실제 소득과의 비교를 수행한다.
- 역사적 기준으로 1915년 아이오와 주 인구 조사를 활용하여 LIDO 점수의 성능을 진짜 소득과 기존 OCCSCORE와 비교한다.
- 1850–1930년 인구 조사 자료를 기반으로 부자-자식 쌍을 분석하여 LIDO와 OCCSCORE의 성능을 비교한다.
실험 결과
연구 질문
- RQ1기본 OCCSCORE를 소득의 대체 척도로 사용할 경우 역사적 소득 회귀 분석에서 인종 및 성별 소득 격차 추정치에 얼마나 큰 편향이 유도되는가?
- RQ2개별 소득 데이터가 확보되지 않을 경우 기계학습 기법이 직업 소득 점수의 측정 오차를 얼마나 줄일 수 있는가?
- RQ3특히 1915년 아이오와 주 인구 조사에서 LIDO 점수는 진짜 소득과 기존 OCCSCORE와 비교해 어떻게 역사적 소득 격차를 추정하는가?
- RQ4LIDO와 OCCSCORE를 사용할 경우 2세대 소득 이동성 추정치, 특히 흑인 남성의 경우 어떤 영향을 미치는가?
- RQ5어떤 연구 맥락에서 LIDO 점수를 기본 OCCSCORE보다 우선적으로 사용해야 하는가?
주요 결과
- 1915년 아이오와 주 인구 조사에서 기본 OCCSCORE는 인종 소득 격차를 거의 반으로 과소평가하고, 실제로는 음수이지만 성별 격차의 부호를 잘못 긍정으로 기록한다.
- LIDO 점수는 실제 소득 데이터에서 유도된 추정치에 훨씬 더 가까운 소득 격차 추정치를 제공하며, 감쇠 편향을 크게 줄인다.
- 2세대 소득 이동성 분석에서 OCCSCORE는 관련 측정 오차로 흑인 남성의 이동성을 과소평가하지만, LIDO는 더 정확한 추정치를 제공한다.
- LIDO 점수는 1850년 이후 모든 미국 인구 조사에서 이용 가능한 변수를 기반으로 교차 검증된 라소 회귀를 통해 구성되어 있어 광범위한 역사적 적용 가능성을 확보한다.
- LIDO 점수는 역사적 경제 연구를 위한 사용을 위해 공개되어 있으며, http://www2.oberlin.edu/faculty/msaavedr/lido.html 에서 접근할 수 있다.
- 기본 OCCSCORE는 직업 지위 측정에 유용하지만, 소득 중심 연구, 특히 소득 격차 및 이동성 추정에 있어서 LIDO가 더 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.