[논문 리뷰] Model-assisted estimation through random forests in finite population sampling
이 논문은 표본 추출에서 보조 변수와 조사 변수 간의 비모수적 관계를 무작위 임의의 숲을 사용하여 모델 보조 추정 프레임워크를 제안한다. 호르비츠-트로프 가중치와 숲 기반 예측을 조합함으로써, 미묘한 정규성 조건 하에서 설계에 편향이 없고 일致성이 확보되며, 점점 커지는 표본 크기에서 점근적 분산 추정의 이론적 근거와 함께 시뮬레이션 및 프랑스 라디오 청취자 조사에서의 실제 데이터에서 뛰어난 유한 표본 성능을 보인다.
In surveys, the interest lies in estimating finite population parameters such as population totals and means. In most surveys, some auxiliary information is available at the estimation stage. This information may be incorporated in the estimation procedures to increase their precision. In this article, we use random forests to estimate the functional relationship between the survey variable and the auxiliary variables. In recent years, random forests have become attractive as National Statistical Offices have now access to a variety of data sources, potentially exhibiting a large number of observations on a large number of variables. We establish the theoretical properties of model-assisted procedures based on random forests and derive corresponding variance estimators. A model-calibration procedure for handling multiple survey variables is also discussed. The results of a simulation study suggest that the proposed point and estimation procedures perform well in term of bias, efficiency, and coverage of normal-based confidence intervals, in a wide variety of settings. Finally, we apply the proposed methods using data on radio audiences collected by M\'ediam\'etrie, a French audience company.
연구 동기 및 목표
- 조사 변수와 보조 변수 간의 복잡한 비모수적 관계를 모델링하기 위해 무작위 숲을 사용하여 유한 모집단 총합에 대한 모델 보조 추정 절차를 개발하는 것.
- 일반적인 표본 추출 설계 하에서 제안된 무작위 숲 기반 추정기의 이론적 성질—설계 일치성과 점근 정규성—을 확립하는 것.
- 제안된 모델 보조 추정기의 일관된 분산 추정기 도출을 통해 신뢰구간을 통한 타당한 추론을 가능하게 하는 것.
- 다중 조사 변수를 동시에 추정하기 위해 모델 校정 절차를 통해 방법을 확장하는 것.
- 다양한 시뮬레이션 설정과 프랑스 라디오 청취자 데이터에 대한 실제 응용을 통해 제안된 방법의 유한 표본 성능을 평가하는 것.
제안 방법
- 이 방법은 표본 데이터로부터 조건부 평균 함수 m(x) = E[Y|X = x]를 비모수적으로 추정하기 위해 무작위 숲을 사용한다.
- 제안된 추정기는 무작위 숲의 모집단 수준 예측과 잔차에 대한 호르비츠-트로프 스타일 校정을 조합한다: btrf = Σk∈U m̂rf(xk) + Σk∈S (yk − m̂rf(xk))/πk.
- 정규성 조건 하에서 설계 일치성과 점근 정규성이 입증되었으며, 이는 작업 모델이 잘못 지정된 경우에도 성립한다.
- 예측 오차를 표본 기반 및 모집단 수준의 구성요소로 분해함으로써 일관된 분산 추정기 bVrf(btrf)를 유도한다.
- 이론적 분석은 일반화된 차이 추정기와 표본 및 모집단 수준의 숲 예측 간의 불일치를 포함하는 오차 구성요소로 분해에 기반한다.
- 다중 조사 변수를 동시에 추정하기 위해 다중 결과와 보조 변수 간의 공동 관계를 조정하는 모델 校정 접근법을 통해 방법을 확장한다.
실험 결과
연구 질문
- RQ1무작위 숲는 조사 변수와 보조 변수 간의 회귀 함수에 대해 모형 형태를 가정하지 않고도, 모델 보조 추정에서 정밀도를 향상시키는 데 효과적으로 사용될 수 있는가?
- RQ2작업 모델이 잘못 지정된 경우에도 일반적인 표본 추출 설계 하에서 제안된 무작위 숲 기반 추정기가 설계 일치성과 점근 정규성을 가지는가?
- RQ3무작위 숲 기반 모델 보조 추정기의 일관된 분산 추정기를 도출할 수 있는가? 이를 통해 신뢰구간을 통한 타당한 추론이 가능해지는가?
- RQ4비편향성, 효율성, 신뢰구간 커버리지 측면에서 제안된 방법이 고전적 추정기(GREG 등)에 비해 어떤 성능을 보이는가?
- RQ5모델 校정 확장이 다중 조사 변수를 동시에 추정할 때 잘 작동하는가?
주요 결과
- 제안된 무작위 숲 기반 모델 보조 추정기 btrf는 정규성 조건 하에서 점근적으로 설계 일치성과 점근 정규성을 보이며, 실제 회귀 함수가 숲에 잘 근사되지 않더라도 성립한다.
- 이론적 분산 추정기 bVrf(btrf)는 점근적으로 설계 일치성이 입증되어 정규 기반 신뢰구간을 통한 타당한 추론을 보장한다.
- 시뮬레이션 연구 결과, 다양한 데이터 생성 메커니즘에서 낮은 편향, 높은 효율성, 정규 기반 신뢰구간의 양호한 커버리지가 확보되었다.
- 조사 변수와 보조 변수 간의 복잡한 비선형 관계가 존재하는 설정에서는 고전적 GREG 추정기보다 성능이 뛰어나다.
- 프랑스 라디오 청취자 데이터에 대한 실제 응용에서, 방법은 파라미터 모형 대비 더 안정적이고 정밀한 추정을 제공하며 효율성이 향상되었다.
- 이론적 결과는 숲이 충분한 트리 깊이와 부분 표본 추출을 통해 훈련된 경우, 예측 변수의 수가 많고 표본 크기가 중간일 때에도 추정기가 일관성을 유지함을 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.