[논문 리뷰] Flexible, Model-Agnostic Method for Materials Data Extraction from Text Using General Purpose Language Models
본 논문은 대형 언어 모델을 활용하고 선택적 인간 감독을 포함한 간단하고 모델-무관한 워크플로우를 제시하여 전체 텍스트 논문에서 재료 데이터를 추출하며, 최소한의 코딩으로 중간 규모 데이터베이스에 대해 높은 정밀도와 재현율을 달성한다.
Accurate and comprehensive material databases extracted from research papers are crucial for materials science and engineering, but their development requires significant human effort. With large language models (LLMs) transforming the way humans interact with text, LLMs provide an opportunity to revolutionize data extraction. In this study, we demonstrate a simple and efficient method for extracting materials data from full-text research papers leveraging the capabilities of LLMs combined with human supervision. This approach is particularly suitable for mid-sized databases and requires minimal to no coding or prior knowledge about the extracted property. It offers high recall and nearly perfect precision in the resulting database. The method is easily adaptable to new and superior language models, ensuring continued utility. We show this by evaluating and comparing its performance on GPT-3 and GPT-3.5/4 (which underlie ChatGPT), as well as free alternatives such as BART and DeBERTaV3. We provide a detailed analysis of the method's performance in extracting sentences containing bulk modulus data, achieving up to 90% precision at 96% recall, depending on the amount of human effort involved. We further demonstrate the method's broader effectiveness by developing a database of critical cooling rates for metallic glasses over twice the size of previous human curated databases.
연구 동기 및 목표
- 텍스트에서 재료 데이터를 효율적으로 추출하여 중간 규모 데이터베이스를 구축하도록 동기를 부여한다.
- 최소한의 코딩과 선택적 인간 감독으로 일반 LLM을 활용하는 유연한 워크플로우를 제안한다.
- 여러 모델과 속성에 걸쳐 방법이 높은 정밀도와 재현율을 달성한다는 것을 보인다.
- 벌크 모듈러스 문장들로 이루어진 데이터베이스를 구축하고 금속 유리의 임계 냉각 속도에 대한 더 큰 데이터베이스를 구성하여 적용 가능성을 시연한다.
제안 방법
- 논문을 문장으로 분할하고 목표 속성이 포함된 문장으로 분류하기 위해 제로샷 방식의 LLM을 사용한다.
- 정밀도와 재현율을 향상시키기 위해 소량의 인간 검증 데이터세트로 LLM을 선택적으로 파인튜닝한다(단계 2).
- 양성 문장으로부터 데이터를 재료, 값, 단위, 선택적 온도 등의 전체 데이터 포인트로 구조화하고 고정밀도를 보장하기 위해 인간 검토를 포함한다(단계 3).
- 적은 코딩으로도 가능하거나 코딩이 전혀 필요하지 않은 경량 워크플로우를 제공하고 다양한 LLM 및 속성에 적응 가능하도록 한다.
- 벌크 모듈러스 추출을 벤치마크로 삼아 GPT-3, GPT-3.5/4 및 BART, DeBERTaV3와 같은 오픈 모델 간의 성능을 비교한다.
실험 결과
연구 질문
- RQ1LLMs에 의한 간단한 제로샷 문장 분류가 전체 텍스트 논문에서 주어진 재료 속성을 포함하는 문장을 식별할 수 있는가?
- RQ2선택적 인간 루프(fine-tuning)가 중간 규모 데이터 추출 작업의 정밀도와 재현율에 어떤 영향을 미치는가?
- RQ3이 워크플로우를 사용하여 약 1000건의 항목 데이터베이스를 구축할 때의 실질적인 데이터 처리 속도와 인간 시간 비용은 어느 정도인가?
- RQ4방법이 서로 다른 속성과 언어 모델에 대해 과도한 재설계 없이도 적응 가능한가?
주요 결과
- LLM의 제로샷 문장 분류는 높은 재현율로 목표 속성을 포함하는 문장을 식별할 수 있지만 정밀도는 모델과 프롬프트에 따라 달라진다.
- 선택적 2단계 인간 보조 파인튜닝은 정밀도와 재현율을 향상시켜 최종 구조화된 데이터에서 거의 완벽한 정밀도를 가능하게 한다.
- 모델 확률과 인간 리뷰에 의해 안내된 3단계 데이터 구조화는 높은 재현율을 유지하면서 거의 완벽한 정밀도를 제공하여 근무일 내에 약 1000개 항목의 데이터베이스를 가능하게 한다.
- GPT-3/3.5/4 및 오픈 모델(BART, DeBERTaV3)을 사용할 수 있으며 성능은 모델과 프롬프트에 따라 달라진다; 채팅 모델은 보고된 단일 포인트에서 100% 재현율을 보고한다.
- 벌크 모듈러스의 경우 인간 노력과 사용된 모델에 따라 최대 90%의 정밀도에 96% 재현율을 달성했다.
- 이 방법의 넓은 활용성을 금속 유리의 임계 냉각 속도 데이터베이스를 개발하여 입증했는데, 이는 이전의 인간이 큐레이션한 데이터베이스보다 두 배 규모이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.