Skip to main content
QUICK REVIEW

[論文レビュー] Agentic Framework for Political Biography Extraction

Zhu, Yifei, Yang, Songpo|arXiv (Cornell University)|Feb 23, 2026
Computational and Text Analysis Methods被引用数 0
ひとこと要約

論文本体は、エージェント型LLMを用いた二段階のSynthesis-Codingフレームワークを提案し、オープンウェブソースから自動的に構造化されたエリート伝記を抽出し、人間のコーダーおよびWikipedia由来のベンチマークと比較して検証する。

ABSTRACT

The production of large-scale political datasets typically demands extracting structured facts from vast piles of unstructured documents or web sources, a task that traditionally relies on expensive human experts and remains prohibitively difficult to automate at scale. In this paper, we leverage Large Language Models (LLMs) to automate the extraction of multi-dimensional elite biographies, addressing a long-standing bottleneck in political science research. We propose a two-stage ``Synthesis-Coding'' framework for complex extraction task: an upstream synthesis stage that uses recursive agentic LLMs to search, filter, and curate biography from heterogeneous web sources, followed by a downstream coding stage that maps curated biography into structured dataframes. We validate this framework through three primary results. First, we demonstrate that, when given curated contexts, LLM coders match or outperform human experts in extraction accuracy. Second, we show that in web environments, the agentic system synthesizes more information from web resources than human collective intelligence (Wikipedia). Finally, we diagnosed that directly coding from long and multi-language corpora introduces bias that the synthesis stage can alleviate by curating evidence into signal-dense representations. By comprehensive evaluation, We provide a generalizable, scalable framework for building transparent and expansible large scale database in political science.

研究の動機と目的

  • 政治的事実抽出を単純な分類ではなくオープンドメインかつ多項目の伝記コーディングとして formalize する。
  • Synthesis-Codingアーキテクチャを提案し、反復的でツール使用による取得を用いてオープンウェブ抽出のボトルネックを克服する。
  • エージェント型パッケージをオープンソース化し、 curated evaluation datasets を通じてスケーラビリティと透明性を実証する。
  • 情報不足の文脈でデータ生産の障壁を低減するための大規模な国際横断的政治エリート伝記データセットを生成する。

提案手法

  • 開示されたウェブソースから証拠をキュレーションし、それを構造化した事実へとコード化する二段階のSynthesis-Codingワークフローを提案する。
  • エージェント型LLMを用いてどのソースを参照し、発見をどのように要約して合成レポートにするかを決定する再帰的取得–合成ループを実装する。
  • 決定論的取得ツールを用いて証拠を収集し、コーディング段階の圧縮されたウィキ風入力を作成する。
  • CPED(中国政治エリートデータベース)と Baidu Baike を証拠基盤として、人間がコードしたベンチマークと比較してLLMのコーディングを検証する。
  • クレーム正規化とLLM支援の証拠検証を通じた Consolidated Ground Truth (CGT) を構築し、_MANUAL_監査チェックを行う。
Figure 1 : Two coding strategies for elite biographies. Left: when a Wikipedia page exists, we code directly from the curated page with a single LLM pass. Right: when Wikipedia is missing or incomplete, we search across web sources and iteratively synthesize a synthetic report, then code from that r
Figure 1 : Two coding strategies for elite biographies. Left: when a Wikipedia page exists, we code directly from the curated page with a single LLM pass. Right: when Wikipedia is missing or incomplete, we search across web sources and iteratively synthesize a synthetic report, then code from that r

実験結果

リサーチクエスチョン

  • RQ1 curated な伝記テキストが提供された場合、LLMコーダは人間のコーディング精度と同等あるいはそれを上回るか。
  • RQ2オープンウェブソースからのエージェント型合成は、世界の政治エリートの伝記をキュレーションする際、Wikipedia などの人間集合合成より信頼性の高いデータを生み出すか。
  • RQ3長文・多言語入力はコーディング品質を低下させるか、また合成はこの低下を緩和できるか。
  • RQ4提案されたSynthesis-Codingフレームワークは、横断的エリート伝記に対してスケーラブルで透明性があり、一般化可能か。

主な発見

  • LLMコーダはキュレーションされた Wikipedia/Baidu Baike テキストが与えられた場合、人間のコーディング品質と同等またはそれ以上を達成できる。
  • オープンウェブソースからのエージェント型合成は、世界の政治エリートの伝記をキュレーションする際にWikipediaを出典とするよりも優れたデータを提供する。
  • 長く多言語のコーパスからの直接コーディングは品質を低下させるが、適切な合成が高信号表現を選択して偏りを緩和する。
  • このフレームワークは、透明性があり拡張性のある大規模政治伝記データセットを構築する汎用的なアプローチを提供する。
Figure 2 : Experiment 1 Results: LLM coding performance relative to the human baseline (China sample, N=197). Points indicate coefficient estimates with 95% confidence intervals. The human-coded baseline ( Human_wiki ) is normalized to zero. Positive values indicate that LLMs outperform human coders
Figure 2 : Experiment 1 Results: LLM coding performance relative to the human baseline (China sample, N=197). Points indicate coefficient estimates with 95% confidence intervals. The human-coded baseline ( Human_wiki ) is normalized to zero. Positive values indicate that LLMs outperform human coders

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。