Skip to main content
QUICK REVIEW

[論文レビュー] A hierarchical Bayesian approach to record linkage and size population problems

Andrea Tancredi, Brunero Liseo|arXiv (Cornell University)|Nov 11, 2010
Census and Population Estimation被引用数 5
ひとこと要約

この論文は、完全なカテゴリカルデータを保持し、パrameter推定とマッチングの間で二方向の不確実性伝播を可能にする階層ベイズモデルを導入し、0–1削減やプラグイン推定を回避することで、実データおよびシミュレーションを通じて精度を向上させている。

ABSTRACT

We propose and illustrate a hierarchical Bayesian approach for matching statistical records observed on different occasions. We show how this model can be profitably adopted both in record linkage problems and in capture--recapture setups, where the size of a finite population is the real object of interest. There are at least two important differences between the proposed model-based approach and the current practice in record linkage. First, the statistical model is built up on the actually observed categorical variables and no reduction (to 0--1 comparisons) of the available information takes place. Second, the hierarchical structure of the model allows a two-way propagation of the uncertainty between the parameter estimation step and the matching procedure so that no plug-in estimates are used and the correct uncertainty is accounted for both in estimating the population size and in performing the record linkage. We illustrate and motivate our proposal through a real data example and simulations.

研究の動機と目的

  • カテゴリカルデータを二値比較に削減する従来の記録連携手法の制限に対処すること。
  • 記録連携とキャプチャ・リキャプチャによる母集団サイズ推定の両者を統合するフレームワークを構築すること。
  • マッチングとパrameter推定の間で二方向の不確実性伝播を可能にし、プラグイン推定を回避すること。
  • 完全なデータ情報を利用することで、有限母集団サイズ推定および記録連携の精度と信頼性を向上させること。

提案手法

  • 観測されたカテゴリカル変数に基づいて直接構築された階層ベイズモデルを用い、すべてのデータ情報が保持される。
  • パrameter推定とマッチング意思決定の間で二方向の不確実性伝播メカニズムを導入する。
  • マッチングおよび母集団サイズの事後分布推論にマルコフ連鎖モンテカルロ(MCMC)法を用いる。
  • マッチング確率を観測されたカテゴリカル共変量の関数としてモデル化し、任意の0–1閾値を回避する。
  • レコード間で情報を共有することで推定の安定性を高める階層的構造をとる。
  • 共通の統計的枠組みの下で、記録連携およびキャプチャ・リキャプチャ問題の両者にモデルを適用する。

実験結果

リサーチクエスチョン

  • RQ1カテゴリカルデータを二値比較に削減するのではなく、完全なカテゴリカルデータを保持することで、記録連携はどのように改善されるか?
  • RQ2二方向の不確実性伝播は、母集団サイズ推定の精度にどの程度向上をもたらすか?
  • RQ31つの階層ベイズモデルが、記録連携と母集団サイズ推定の両方を効果的に処理できるか?
  • RQ4不確実性の定量化および推定精度の観点から、提案手法は従来のアプローチとどのように比較されるか?

主な発見

  • 提案モデルはすべてのカテゴリカル情報が保持され、0–1比較による情報損失が回避される。
  • 二方向の不確実性伝播により、プラグイン推定を回避することで、より正確で信頼性の高い推定が得られる。
  • マッチング意思決定および母集団サイズ推定の両者に対して一貫した不確実性の定量化が可能である。
  • シミュレーションおよび実データ例を通じて、従来のアプローチよりも優れた性能が示された。
  • 階層的構造により、レコード間で強度を借りることで推定の安定性が向上する。
  • モデルは、一貫した枠組みの下で記録連携とキャプチャ・リキャプチャを効果的に統合した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。