[논문 리뷰] SciDaSynth: Interactive Structured Data Extraction from Scientific Literature with Large Language Model
SciDaSynth는 검색 기반 대형 언어 모델을 활용하여 과학 논문에서 데이터를 추출하고 구조화하여 편집 가능한 표와 시각적 요약으로 변환하는 인터랙티브 시스템으로, 연구자들이 반복적으로 검증하고 정교화할 수 있게 한다.
The explosion of scientific literature has made the efficient and accurate extraction of structured data a critical component for advancing scientific knowledge and supporting evidence-based decision-making. However, existing tools often struggle to extract and structure multimodal, varied, and inconsistent information across documents into standardized formats. We introduce SciDaSynth, a novel interactive system powered by large language models (LLMs) that automatically generates structured data tables according to users' queries by integrating information from diverse sources, including text, tables, and figures. Furthermore, SciDaSynth supports efficient table data validation and refinement, featuring multi-faceted visual summaries and semantic grouping capabilities to resolve cross-document data inconsistencies. A within-subjects study with nutrition and NLP researchers demonstrates SciDaSynth's effectiveness in producing high-quality structured data more efficiently than baseline methods. We discuss design implications for human-AI collaborative systems supporting data extraction tasks. The system code is available at https://github.com/xingbow/SciDaEx
연구 동기 및 목표
- 대량의 과학 문헌에서 지식을 자동으로 추출하고 구조화한다.
- 논문 간 데이터 변이와 불일치를 드러내기 위해 치수 지향적 그룹화 및 시각화를 유연하게 지원한다.
- 생성된 데이터와 출처 문서 간의 명시적 연결 고리를 유지하여 검증과 수정이 가능하도록 한다.
- 대량 편집과 데이터 표의 반복 검토를 지원하는 인터랙티브한 사용자 친화적 인터페이스를 제공한다.
- 효과성, 효율성 및 사용성을 평가하기 위해 피험자 내 연구(within-subjects) 사용자 연구를 통해 시스템을 평가한다.
제안 방법
- 데이터 표 생성을 위해 GPT-4-turbo를, 데이터 구조 생성 및 요약을 위해 GPT-3.5-turbo를 활용한다.
- LLM 출력을 검색된 논문 스니펫 및 표에 기반한 RAG 프레임워크로 근거화한다.
- PDF를 표, 텍스트, 이미지로 파싱하고 이를 텍스트 임베딩-3-small을 사용한 벡터로 변환하여 유사도 기반 검색에 활용한다.
- 사용자 질문에서 데이터 차원을 유추하고 검색된 스니펫과 생성된 차원을 융합하여 데이터 표와 요약을 산출한다.
- 치수 기반 산점도 및 군집화를 통한 다층 데이터 탐색을 제공하여 논문 간 변화를 드러낸다.
- 배치 편집 및 검증과 수정의 원본 소스에 대한 데이터 레코드 연결을 지원한다.
실험 결과
연구 질문
- RQ1SciDaSynth가 구조화된 데이터를 과학 문헌에서 추출하는 품질과 효율성을 기준선과 비교하여 어떻게 영향을 미치는가?
- RQ2치수 지향적 탐색 및 시각화를 통해 논문 간 데이터 변이와 불일치를 효과적으로 발견하는 데 시스템이 얼마나 도움이 되는가?
- RQ3통합 검증 워크플로우(출처에 데이터 연결, 누락/관련 정보 하이라이팅)가 추출 데이터의 신뢰도와 정확성을 향상시키는가?
주요 결과
- 참여자들은 인간 기준과 대등한 품질의 데이터를 더 짧은 시간에 생산할 수 있었다.
- 사용자들은 추출 워크플로의 간소화, 데이터 위치 찾기의 용이성, 검증 및 정교화와 같은 이점을 인식했다.
- AI가 생성한 결과는 검증이 필요하고 잠재적 부정확성에 대한 인식이 필요하다; 사용자는 불확실성 및 출처 기반 검증 필요성을 강조했다.
- SciDaSynth는 논문 선별, 데이터 모니터링, 결과 해석 및 공유와 같은 유망한 사용 사례를 지원한다.
- 본 연구는 데이터 추출 작업에서 사람-AI 상호작용에 대한 설계 시사점을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.