QUICK REVIEW

[논문 리뷰] Stop or Continue Data Collection: A Nonignorable Missing Data Approach for Continuous Variables

Thaís Paiva, Jerome P. Reiter|arXiv (Cornell University)|2017. 09. 01.

Statistical Methods and Bayesian Inference참고 문헌 56인용 수 10

한 줄 요약

이 논문은 조사에서 데이터 수집을 멈출지 계속할지 결정하는 데 도움을 주기 위해 연속 변수에 대한 무시할 수 없는 결측 데이터 접근법을 제안한다. 연구자는 다변량 정규분포의 혼합모형을 응답자 데이터를 모델링하는 데 사용하고, 다양한 무시할 수 없는 결측성 시나리오 하에서 비응답자들을 시뮬레이션하기 위해 구성 요소 확률을 조정함으로써 민감도 분석을 가능하게 한다. 이는 정지 규칙에서 비용과 정확도 간의 상호 교환 관계를 평가할 수 있도록 한다. 주요 기여는 비무시적 비응답을 고려한 원칙적이고 추정 기반의 적응형 설문 조사 설계 방법이다.

ABSTRACT

We present an approach to inform decisions about nonresponse follow-up sampling. The basic idea is (i) to create completed samples by imputing nonrespondents’ data under various assumptions about the nonresponse mechanisms, (ii) take hypothetical samples of varying sizes from the completed samples, and (iii) compute and compare measures of accuracy and cost for different proposed sample sizes. As part of the methodology, we present a new approach for generating imputations for multivariate continuous data with nonignorable unit nonresponse. We fit mixtures of multivariate normal distributions to the respondents’ data, and adjust the probabilities of the mixture components to generate nonrespondents’ distributions with desired features. We illustrate the approaches using data from the 2007 U.S. Census of Manufactures.

연구 동기 및 목표

무시할 수 없는 비응답이 있는 설문 조사에서 데이터 수집을 언제 멈출지 결정하는 문제를 다루기 위해.
데이터 수집 중 실시간으로 수집 비용과 데이터 정확도 간의 상호 교환 관계를 평가할 수 있는 방법을 개발하기 위해.
다변량 연속 데이터에 대한 비무시적 결측성 하에서 민감도 분석을 위한 융통성 있고 추정 기반의 프레임워크를 제공하기 위해.
설문 조사 기관이 향후 정확도와 비용을 기반으로 보완 조치에 대한 정보 기반의 적응형 결정을 내릴 수 있도록 하기 위해.

제안 방법

응답자들의 관측 데이터에 유한한 다변량 정규분포 혼합모형을 적합하여 복잡한 다변량 분포를 모델링하기 위해.
위치(µk) 및 척도(Σk) 매개수를 고정한 채로 혼합 구성 요소 확률(πk)을 조정하여 다양한 비무시적 메커니즘 하에서 비응답자 분포를 시뮬레이션하기 위해.
패턴 혼합모형 접근법을 사용하여 결측자에 대한 다중 추정치를 다양한 결측성 메커니즘에 대한 가정 하에 생성하기 위해.
다양한 조정된 구성 요소 확률 하에서 생성된 다중 추정치 데이터셋을 평가하여 민감도 분 析을 수행하기 위해.
완료된 데이터셋에서 다양한 크기의 가상 샘플을 추출하여 다양한 정지 시점에서의 정확도 및 비용 지표를 계산하기 위해.
정확도를 정량화하고 정지 결정을 지원하기 위해 θ(s)δ, τ(s)δ, 및 ρ(s)δ와 같은 유틸리티 측정치를 적용하기 위해.

실험 결과

연구 질문

RQ1설문 조사 기관은 비용과 데이터 정확도를 균형 잡는 조건에서 데이터 수집을 멈출 적절한 시점을 어떻게 결정할 수 있는가?
RQ2결측이 무작위가 아닌 경우 비무시적 비응답이 정지 규칙 결정에 어떤 영향을 미치는가?
RQ3비무시적 결측성 하에서 다변량 연속 데이터에 대해 민감도 분석을 효과적으로 수행하는 방법은 무엇인가?
RQ4다양한 비응답 메커니즘 하에서 비응답자로부터 추가 데이터를 수집함으로써 정확도 향상은 어느 정도 이루어지는가?
RQ5θ(s)δ, τ(s)δ, 및 ρ(s)δ와 같은 유틸리티 측정치는 다양한 수준의 보완 조치에서 정지 결정에 어떻게 기여하는가?

주요 결과

MAR 시나리오에서는 비응답자 25%를 수집하면 정확도 측정치 θ(s)δ가 0.300에서 0.219로 감소하였고, 50% 수집 시 0.199로 감소하였다.
비응답자들이 낮은 값을 향해 경향을 보이는 비무시적 비응답 상황에서는 비응답자 25% 또는 50%를 수집함으로써 θ(s)δ가 1.0 초과에서 MAR 시나리오 수준으로 낮아졌다.
비응답자들이 높은 값을 향해 경향을 보이는 비무시적 비응답 상황에서도 유사한 정확도 향상이 관찰되었으며, θ(s)δ는 1.0 초과에서 마치 MAR 시나리오 수준으로 떨어졌다.
50% 이상의 보완 이후에는 정확도 향상의 수익이 감소하여 비용이 이득을 상회할 가능성이 높다는 것이 나타났다.
θ(s)δ, τ(s)δ, 및 ρ(s)δ 유틸리티 측정치는 모든 시나리오에서 50% 보다 더 많은 보완을 진행하는 것은 비용 효율성이 떨어질 가능성이 높다는 것을 일관되게 보여주었다.
이 방법은 정밀금속 및 플라스틱 제품 산업 모두에서 뛰어난 성능을 보였으며, 산업 간에 정성적 결론이 일관성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.