[论文解读] What do online listings tell us about the housing market?
本文分析意大利在线住房广告以量化重复项,并通过机器学习纠正重复,展示房源如何告知需求、供给、流动性和价格动态。
Traditional data sources for the analysis of housing markets show several limitations, that recently started to be overcome using data coming from housing sales advertisements (ads) websites. In this paper, using a large dataset of ads in Italy, we provide the first comprehensive analysis of the problems and potential of these data. The main problem is that multiple ads ("duplicates") can correspond to the same housing unit. We show that this issue is mainly caused by sellers' attempt to increase visibility of their listings. Duplicates lead to misrepresentation of the volume and composition of housing supply, but this bias can be corrected by identifying duplicates with machine learning tools. We then focus on the potential of these data. We show that the timeliness, granularity, and online nature of these data allow monitoring of housing demand, supply and liquidity, and that the (asking) prices posted on the website can be more informative than transaction prices.
研究动机与目标
- 评估在线住房 listings 作为住房市场数据源的局限性。
- 量化重复广告对供给、需求和价格测量的影响。
- 开发机器学习管道以识别并将重复广告合并为真实房源。
- 用官方统计数据与本地价格指标验证去重后的数据集。
- 展示如何利用房源数据监测需求、供给、流动性和价格动态。
提出的方法
- 使用 Immobiliare.it 的每周广告快照(2016-2018)构建约 140 万条广告和約 95 万个住房单元的数据集。
- 应用文本分析(doc2vec)和结构化特征距离度量来评估广告之间的相似性。
- 实现 C5.0 决策树来分类两条广告是否指同一住宅,不同用户有单独的模型。
- 构建广告簇将重复项聚合为单一房源并创建去重后的最终数据集。
- 通过将下架、销售和价格指标与官方来源(OMI、Italian Housing Market Survey)进行比较来验证去重数据。
- 分析重复项的决定因素与动态,并评估对测量误差及政策有用性的影响。
实验结果
研究问题
- RQ1在线住房 listings 所引入的测量误差有多大?
- RQ2机器学习去重是否能可靠地从广告层数据中恢复真实住房单元?
- RQ3与传统来源相比,在线房源能揭示哪些关于需求、供给、流动性和价格动态的信息?
主要发现
- 重复项会造成显著但不均匀的测量误差;在较高聚合级别上影响较小,但对本地市场影响更大。
- 约 77% 的住宅只有一个相关广告,13% 有两个重复广告,10% 超过两个;重复广告对一些房源的广告份额相当可观。
- 经过新去重的房源在下架、销售和价格水平方面与官方统计相符;去重在本地层面尤其能减少偏差。
- 在高要价或需求疲软时,卖家/中介更倾向发布多条广告,表明重复与条件与激励相关的非随机性。
- 在正确去重后,在线房源数据可通过网页访问量代理需求,预测市场在售时长和价格修订,并为市场紧张度和价格周期提供及时信号。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。