Skip to main content
QUICK REVIEW

[논문 리뷰] Agentic Framework for Political Biography Extraction

Zhu, Yifei, Yang, Songpo|arXiv (Cornell University)|2026. 02. 23.
Computational and Text Analysis Methods인용 수 0
한 줄 요약

논문은 agentic LLMs를 사용하여 오픈 웹 소스에서 구조화된 엘리트 전기를 자동으로 추출하는 two-stage Synthesis-Coding 프레임워크를 도입하고, 이를 인간 코더 및 Wikipedia-derived 벤치마크와 대조하여 검증한다.

ABSTRACT

The production of large-scale political datasets typically demands extracting structured facts from vast piles of unstructured documents or web sources, a task that traditionally relies on expensive human experts and remains prohibitively difficult to automate at scale. In this paper, we leverage Large Language Models (LLMs) to automate the extraction of multi-dimensional elite biographies, addressing a long-standing bottleneck in political science research. We propose a two-stage ``Synthesis-Coding'' framework for complex extraction task: an upstream synthesis stage that uses recursive agentic LLMs to search, filter, and curate biography from heterogeneous web sources, followed by a downstream coding stage that maps curated biography into structured dataframes. We validate this framework through three primary results. First, we demonstrate that, when given curated contexts, LLM coders match or outperform human experts in extraction accuracy. Second, we show that in web environments, the agentic system synthesizes more information from web resources than human collective intelligence (Wikipedia). Finally, we diagnosed that directly coding from long and multi-language corpora introduces bias that the synthesis stage can alleviate by curating evidence into signal-dense representations. By comprehensive evaluation, We provide a generalizable, scalable framework for building transparent and expansible large scale database in political science.

연구 동기 및 목표

  • 정치적 사실 추출을 간단한 분류가 아닌 오픈 도메인 다중 필드 전기 코딩으로 형식화한다.
  • Propose a Synthesis-Coding architecture with iterative, tool-using retrieval to overcome open-web extraction bottlenecks.
  • Open-source an agentic package; demonstrate scalability and transparency through curated evaluation datasets.
  • Generate a large cross-national dataset of political elite biographies to reduce data production barriers in information-poor contexts.

제안 방법

  • 두 단계 Synthesis-Coding 워크플로우를 제안한다. 여기서 synthesis는 오픈-web 소스에서 근거를 선별하고 coding은 이를 구조화된 사실로 변환한다.
  • 에이전틱 LLMs를 사용하여 어떤 소스를 참고할지, 그리고 소견을 어떻게 간결한 합성 보고서로 압축할지 결정하는 재귀적 검색-합성 루프를 구현한다.
  • 증거를 수집하고 coding 단계에 대한 위키 형식의 입력을 압축적으로 생성하기 위해 결정적 검색 도구를 활용한다.
  • CPED (Chinese Political Elite Database) 및 Baidu Baike 소스를 증거 기반으로 하여 LLM 코딩을 인간 코딩 벤치마크와 대조 검증한다.
  • 주장을 표준화하고 LLM 지원 증거 검증을 통해 Consolidated Ground Truth (CGT)를 구성하되, 수작업 감사 검토를 포함한다.
Figure 1 : Two coding strategies for elite biographies. Left: when a Wikipedia page exists, we code directly from the curated page with a single LLM pass. Right: when Wikipedia is missing or incomplete, we search across web sources and iteratively synthesize a synthetic report, then code from that r
Figure 1 : Two coding strategies for elite biographies. Left: when a Wikipedia page exists, we code directly from the curated page with a single LLM pass. Right: when Wikipedia is missing or incomplete, we search across web sources and iteratively synthesize a synthetic report, then code from that r

실험 결과

연구 질문

  • RQ1LLM 코더가 curated biographical texts를 제공받았을 때 인간 코딩 정확도에 맞추거나 그 이상을 달성할 수 있는가?
  • RQ2open-web 소스에서의 에이전틱 합성이 Wikipedia보다 더 신뢰할 수 있는 전기 데이터를 제공하는가?
  • RQ3길고 다국어 입력이 코딩 품질을 저하시키는가, 그리고 합성으로 이 저하를 완화할 수 있는가?
  • RQ4제안된 Synthesis-Coding 프레임워크가 크로스-네셔널 엘리트 전기에 대해 확장 가능하고 투명하며 일반화 가능한가?

주요 결과

  • LLM 코더가 curated Wikipedia/Baidu Baike 텍스트를 제공받을 때 인간 코딩 품질에 맞추거나 그 이상을 달성할 수 있다.
  • open-web 소스에서의 에이전틱 합성은 전 세계 정치 엘리트의 curated 전기에 대해 Wikipedia를 소스로 삼는 것보다 우수하다.
  • 길고 다국어 코퍼스로부터 직접 코딩하는 경우 품질이 저하되지만, 적절한 합성은 고신호 표현을 선별하여 편향을 완화한다.
  • 이 프레임워크는 투명하고 확장 가능한 대규모 정치 전기 데이터셋 구축에 일반화 가능하고 확장 가능한 접근법을 제공한다.
Figure 2 : Experiment 1 Results: LLM coding performance relative to the human baseline (China sample, N=197). Points indicate coefficient estimates with 95% confidence intervals. The human-coded baseline ( Human_wiki ) is normalized to zero. Positive values indicate that LLMs outperform human coders
Figure 2 : Experiment 1 Results: LLM coding performance relative to the human baseline (China sample, N=197). Points indicate coefficient estimates with 95% confidence intervals. The human-coded baseline ( Human_wiki ) is normalized to zero. Positive values indicate that LLMs outperform human coders

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.