QUICK REVIEW

[논문 리뷰] What does it mean for data to be `observed' or `missing'?

John C. Galati|arXiv (Cornell University)|2018. 11. 09.

Sensory Analysis and Statistical Methods인용 수 1

한 줄 요약

이 논문은 표준 통계적 기호에서 누락 데이터를 다룰 때 Yobs와 Ymis가 관측된/누락된 데이터뿐 아니라 관측 가능/불가능한 값의 혼합을도시하는 데 있어 수학적 모순을 밝혀낸다. 저자들은 데이터 값과 그들의 누락성 패턴을 명시적으로 구분할 수 있도록 Yobs, Ymis, Robs, Rmis라는 네 기호로 구성된 표기 체계를 제안하여 확률 모델링에서 발생하는 갈등을 해결하고, 다양한 누락성 패턴 간 일관된 비교를 가능하게 한다.

ABSTRACT

In statistical modelling of incomplete data, missingness is encoded as a relation between datasets Y and response patterns R. The partitioning of Y into observed and missing components is often denoted Yobs and Ymis. We point out a mathematical defect in this notation which results from two different mathematical relationships between Y and R not being distinguished, (Yobs, Ymis, R) in which Yobs values are always observed, and Ymis values are always missing, and the overlaying of a missingness pattern onto the marginal distribution for Y, denoted (Yobs, Ymis). With the latter, Yobs and Ymis each denote mixtures of observable and unobservable data. This overlaying of the missingness pattern onto Y creates a link between the mathematics and the meta-mathematics which violates the stochastic relationship encoded in (Y, R). Additionally, in the theory there is a need to compare partitions of Y according to different missingness patterns simultaneously. A simple remedy for these problems is to use four symbols instead of two, and to make the dependence on the missingness pattern explicit. We explain these and related issues.

연구 동기 및 목표

통계 모델에서 관측된 데이터와 누락된 데이터를 나타내는 데 사용되는 전통적 기호(Yobs, Ymis)에 존재하는 수학적 결함을 규명하는 것.
현재 표준 기호에서 혼동되고 있는 실제 데이터 값과 그들의 누락성 패턴 사이의 구분을 명확히 하는 것.
Y의 주변 분포에 누락성 패턴을 겹쳐 놓을 경우 (Y, R)에 포함된 확률적 의존성 구조가 위반되는 상황에서 발생하는 모순을 해결하는 것.
패턴 의존성을 명시적으로 드러내어 서로 다른 누락성 패턴 하에서 데이터 분할 간 일관된 비교를 가능하게 하는 것.
불완전한 데이터를 포함한 통계 모델의 정합성을 유지하는 형식적이고 모호하지 않은 기호 체계를 제안하는 것.

제안 방법

데이터 값과 그들의 누락성 상태를 명시적으로 분리하기 위해 Yobs, Ymis, Robs, Rmis라는 네 개의 구분된 기호를 도입하는 것.
값이 결정적으로 관측되거나 누락되는 연합 모델 (Yobs, Ymis, R)과 관측 가능/불가능한 값의 혼합인 주변 모델 (Yobs, Ymis)을 구분하는 것.
확률적 관계 (Y, R)를 사용하여 누락성 메커니즘을 형식화함으로써 의존성 구조를 유지하는 것.
명시적인 패턴 의존성 표기법을 사용하여 서로 다른 데이터 분할에서 여러 누락성 패턴을 동시에 비교할 수 있도록 하는 것.
데이터 생성 과정과 누락성 패턴을 분리하는 구조적 프레임워크로 모호한 기호 (Yobs, Ymis)를 대체하는 것.
주변 분포에 누락성 패턴을 겹쳐 놓을 경우 Y와 R 간의 확률적 관계가 왜곡되며, 새로운 기호 체계가 이를 방지함을 보여주는 것.

실험 결과

연구 질문

RQ1기존 기호에서 데이터 값과 그들의 누락성 패턴을 혼동함으로써 발생하는 수학적 모순은 무엇인가?
RQ2Y의 주변 분포에 누락성 패턴을 겹쳐 놓을 경우 (Y, R)에 의해 정의된 확률적 관계는 어떻게 위반되는가?
RQ3왜 결정론적 누락성 (Yobs, Ymis, R)과 확률적 혼합 (Yobs, Ymis)을 구분하는 것이 필요한가?
RQ4네 기호 체계는 서로 다른 누락성 패턴 하에서 데이터 분할 간 비교의 일관성을 어떻게 향상시키는가?
RQ5불완전한 데이터를 포함한 통계 모델의 정합성을 유지하기 위해 기호에 어떤 형식적 변화가 필요한가?

주요 결과

표준 기호 (Yobs, Ymis)는 데이터 값과 그들의 누락성 상태를 혼동하여 주변 분포에 누락성 패턴을 겹쳐 놓을 경우 수학적 모순을 야기한다.
Y에 누락성 패턴을 겹쳐 놓을 경우 데이터와 그의 누락성 메커니즘 사이에 잘못된 연결 고리가 생기며, (Y, R)에 의해 정의된 확률적 관계를 위반한다.
Yobs, Ymis, Robs, Rmis라는 네 기호를 사용하면 데이터 값과 그들의 누락성 패턴을 명시적으로 분리하여 모호성을 제거하고 모델의 정합성을 유지할 수 있다.
제안된 기호 체계는 패턴 의존성을 명시적으로 드러내어 서로 다른 누락성 패턴 하에서 데이터 분할 간 일관된 비교를 가능하게 한다.
재구성된 표기 체계는 Y와 R 간의 확률적 의존성이 유지되어 통계적 추론에서의 왜곡을 방지한다.
논문은 현재 기호가 데이터 생성 과정의 근본적인 차이를 가림으로써 모호하게 만들며, 새로운 프레임워크가 이를 명확히 한다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.