[论文解读] A Proportional Observer Bias Model for Multispecies Distribution Modeling
本文提出了一种联合建模框架,结合仅存在记录和存在-缺失记录数据,以校正多物种种群分布建模中的观察者偏差。通过假设不同物种种群间存在共享的偏差,该方法在分类群之间借用信息,提升预测准确性,尤其在存在-缺失数据有限的情况下表现更优,并可实现即使仅拥有仅存在记录的物种种群的无偏范围估计。
Presence-only records commonly suffer from large, unknown biases due to their typically haphazard collection schemes. Presence-absence or count data collected in systematic, planned surveys are more reliable but less abundant. We proposed a probabilistic model to allow for joint analysis of these two distinct data types to exploit their complementary strengths. Our method pools presence-only and presence-absence data for many species and maximizes a common likelihood, simultaneously es-timating and adjusting for the observer bias affecting the presence-only data. By assuming that the observer bias does not vary across species, we can borrow strength across species to efficiently estimate the bias and improve our inference from presence-only data. We evaluate our model’s performance on data for 36 eucalypt species in southeastern Australia. We find that presence-only counts exhibit a strong observer bias toward the coast and toward Sydney, the largest city. Our data-pooling technique substantially improves the out-of-sample pre-dictive performance of our model when the amount of available presence-absence data for a given species is scarce. If we have only presence-only data and no presence-absence data for a given species, but both types of data for several other species having similar patterns of detectability, then our method can obtain an unbiased estimate of the first species’ geographic range. 1
研究动机与目标
- 解决由于机会性或类似机会性收集方法导致的、在仅存在记录物种种群发生数据中普遍存在的未知大规模观察者偏差问题。
- 通过将稀疏的存在-缺失数据与更丰富的仅存在记录数据结合,克服其数据稀疏性的限制,以改善调查数据有限物种种群的推断能力。
- 开发一种统一的统计模型,同时估计多个物种种群的分布和观察者偏差,假设偏差在分类群之间保持一致。
- 通过利用其他同时拥有两种数据类型的物种种群所表现出的共享偏差模式,实现仅拥有仅存在记录的物种种群的可靠地理范围估计。
- 通过合并数据类型并校正系统性采样偏差,提升多物种种群分布建模的样本外预测性能。
提出的方法
- 在单一概率框架内,构建联合似然函数,将仅存在记录和存在-缺失记录数据相结合。
- 引入比例观察者偏差模型,假设相同的偏差结构适用于所有物种种群,从而实现跨物种种群的信息共享。
- 使用最大似然估计法,同时从未两种数据类型中推断物种种群分布参数和潜在的观察者偏差。
- 采用分层建模方法,使物种种群特异的检测概率受共享偏差参数的指导,提升估计效率。
- 采用基于似然的推断程序,考虑不同数据收集机制及其相关不确定性。
- 假设观察者偏差为比例关系且具有空间结构,即在城市中心和沿海地区记录物种种群的概率更高,这与数据观察结果一致。
实验结果
研究问题
- RQ1当存在观察者偏差时,统一的统计模型能否有效结合仅存在记录和存在-缺失记录数据,以改善物种种群分布建模?
- RQ2在拥有两种数据类型的物种种群信息支持下,能否对仅存在记录数据中的观察者偏差进行估计和校正?
- RQ3通过整合具有相似检测模式的物种种群数据,如何提升仅存在稀疏存在-缺失数据的物种种群的预测性能?
- RQ4如果其他与目标物种种群具有相似可检测性模式的物种种群同时拥有两种数据类型,是否可以为仅拥有仅存在记录的物种种群获得无偏的地理范围估计?
- RQ5观察者偏差对物种种群分布模型有何影响?所提出的方法如何缓解其影响?
主要发现
- 在澳大利亚东南部36种桉树的仅存在记录数据中,观察者偏差显著偏向沿海地区和最大的城市中心悉尼。
- 当某物种种群的存在-缺失数据稀少时,数据池化方法显著提升了样本外预测性能。
- 当某物种种群仅拥有仅存在记录时,若其他具有相似可检测性模式的物种种群同时拥有两种数据类型,该模型仍能生成其地理范围的无偏估计。
- 假设物种种群间存在共享的观察者偏差,使得信息有效借用,从而提升了估计的准确性和稳健性。
- 该模型表明,观察者偏差是仅存在记录数据中的主要混杂因素,而与存在-缺失记录数据联合建模可有效校正该偏差。
- 即使目标物种种群缺乏直接的存在-缺失数据,只要其他具有相似检测模式的物种种群数据充足,该方法仍能实现可靠的分布估计。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。