[論文レビュー] What do online listings tell us about the housing market?
この論文はイタリアのオンライン住宅広告を分析し、重複を定量化し、それを機械学習で是正し、リストが需要・供給・流動性・価格動態をどのように知らせることができるかを示す。
Traditional data sources for the analysis of housing markets show several limitations, that recently started to be overcome using data coming from housing sales advertisements (ads) websites. In this paper, using a large dataset of ads in Italy, we provide the first comprehensive analysis of the problems and potential of these data. The main problem is that multiple ads ("duplicates") can correspond to the same housing unit. We show that this issue is mainly caused by sellers' attempt to increase visibility of their listings. Duplicates lead to misrepresentation of the volume and composition of housing supply, but this bias can be corrected by identifying duplicates with machine learning tools. We then focus on the potential of these data. We show that the timeliness, granularity, and online nature of these data allow monitoring of housing demand, supply and liquidity, and that the (asking) prices posted on the website can be more informative than transaction prices.
研究の動機と目的
- オンラインの住宅リスティングを住宅市場のデータ源として利用する際の制約を評価する。
- 重複広告が供給・需要・価格の測定に及ぼす影響を定量化する。
- 同一物件を示す複数広告を同定し統合する機械学習パイプラインを開発する。
- 重複排除済みデータを公式統計および地域の価格指標と照合して検証する。
- リスティングデータを用いて需要・供給・流動性・価格動態を監視する方法を示す。
提案手法
- Immobiliare.it の週次広告スナップショット(2016-2018)を用いて約140万件の広告と約95万件の housing units のデータセットを構築する。
- テキスト分析(doc2vec)と構造化特徴距離測度を適用して広告間の類似性を評価する。
- 同一物件を指す広告を判定するために C5.0 決定木を実装し、同一ユーザー vs 異なるユーザーのモデルを分けて適用する。
- 広告クラスターを構築して重複を単一のリスティングに集約し、重複排除済みの最終データセットを作成する。
- 公式ソース(OMI、イタリア住宅市場調査)と比較して、デリスティング・売上・価格指標を用いて重複排除データを検証する。
- 重複の決定要因とダイナミクスを分析し、測定誤差と政策有用性への影響を評価する。)
実験結果
リサーチクエスチョン
- RQ1オンラインの住宅リスティングにより生じる測定誤差はどの程度か。
- RQ2機械学習による重複排除は広告レベルデータから真の housing units を信頼性高く回復できるか。
- RQ3オンラインリスティングは従来の情報源と比較して需要・供給・流動性・価格動態について何を示すことができるか。
主な発見
- 重複は大きながしかし不均一な測定誤差を引き起こす;効果は高次の集計では小さくなるが地域市場では大きい。
- 約77%の居住物件には単一の関連広告があり、13%には二つの重複、そして10%には二つを超える重複がある;重複は一部の住宅に対して広告のかなりの share を占める。
- 新しい重複排除済みリスティングはデリスティング・売上・価格水準の公式統計と整合しており、重複排除は特に地域レベルでの偏りを減らす。
- 売り手/仲介業者は、 asking price が高い場合や需要が弱い場合に複数広告を投稿する傾向があり、条件とインセンティブに結びつく非ランダムな重複を示唆する。
- 適切に重複排除された場合、オンラインリスティングデータはウェブページの訪問数を介して需要を代理し、マーケットの時間-on-marketや価格改定を予測し、市場の逼迫度と価格サイクルのタイムリーなシグナルを提供できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。