QUICK REVIEW

[논문 리뷰] Structured information extraction from complex scientific text with fine-tuned large language models

Alexander Dunn, John Dagdelen|arXiv (Cornell University)|2022. 12. 10.

Machine Learning in Materials Science인용 수 65

한 줄 요약

논문은 ~500개의 프롬프트–완성 쌍으로 GPT-3를 미세조정하여 과학 텍스트의 복합 계층 정보에 대한 문서 수준의 공동 NER 및 관계 추출을 수행하는 간단한 seq2seq 접근법을 제시하며, 초록과 본문에서 JSON과 같은 구조화된 출력을 가능하게 한다.

ABSTRACT

Intelligently extracting and linking complex scientific information from unstructured text is a challenging endeavor particularly for those inexperienced with natural language processing. Here, we present a simple sequence-to-sequence approach to joint named entity recognition and relation extraction for complex hierarchical information in scientific text. The approach leverages a pre-trained large language model (LLM), GPT-3, that is fine-tuned on approximately 500 pairs of prompts (inputs) and completions (outputs). Information is extracted either from single sentences or across sentences in abstracts/passages, and the output can be returned as simple English sentences or a more structured format, such as a list of JSON objects. We demonstrate that LLMs trained in this way are capable of accurately extracting useful records of complex scientific knowledge for three representative tasks in materials chemistry: linking dopants with their host materials, cataloging metal-organic frameworks, and general chemistry/phase/morphology/application information extraction. This approach represents a simple, accessible, and highly-flexible route to obtaining large databases of structured knowledge extracted from unstructured text. An online demo is available at http://www.matscholar.com/info-extraction.

연구 동기 및 목표

재료과학의 비구조화된 텍스트에서 복잡한 과학 정보를 추출하고 이를 연결해야 할 필요성을 동기 부여한다.
계층적이고 다중 엔티티 관계를 처리하는 유연한 엔드투엔드 NERRE 접근법을 개발한다.
구조화된 프롬프트–완성 쌍에서 대형 언어모델을 미세조정하는 것이 여러 작업에 걸쳐 정확한 정보 추출을 산출할 수 있음을 보여준다.
데이터베이스에 쉽게 통합될 수 있도록 자연 영어와 구조화된 JSON 형식의 출력을 모두 시연한다.

제안 방법

사전 정의된 출력 스키마를 갖춘 문서 수준 NERRE를 수행하기 위해 ~100–500개의 문서-완성 예제로 GPT-3를 미세조정한다.
일부 학습된 모델로 주석을 부분적으로 미리 채워 빠르게 학습 데이터를 확장하기 위해 휴먼 인 더 루프 워크플로를 사용하여 학습 데이터를 확장한다.
작업 스키마에 따라 영어 문장 또는 구조화된 JSON(또는 중첩 JSON)으로 출력을 제공한다.
시퀀스 재구성 지표(정확일치, Jaro-Winkler, 구문 가능성) 및 정보 추출 지표(엄격한 단어 수준 매칭과 함께 엔티티 삼중항)를 포함한 지표로 평가한다.
선택적 후처리는 완성을 계층적 지식 그래프로 변환할 수 있다.

실험 결과

연구 질문

RQ1미세조정된 LLM이 복잡하고 계층적인 과학 정보를 대상으로 공동 명명 엔터티 인식 및 관계 추출을 수행할 수 있는가?
RQ2작업 스키마를 사용하여 도핑, MOF, 일반 재료 등 재료과학의 서로 다른 도메인에 얼마나 잘 일반화되는가?
RQ3루프 내 학습 워크플로를 이용한 주석 효율성의 실용적 이점은 무엇인가?
RQ4추출된 정보를 위한 다운스트림 사용을 가장 잘 지원하는 형식은 무엇인가(자연어 vs JSON vs 그래프 구조)?

주요 결과

이 방법은 세 가지 재료과학 과제(고체 상태 도핑, MOF, 일반 재료 정보)에서 초록과 본문으로부터 복잡한 지식을 정확하게 추출하도록 한다.
GPT-3를 ~100–500개의 프롬프트–완성 예제로 미세조정하면 JSON 또는 영어 문장으로 고품질의 구조화된 출력을 얻을 수 있다.
휴먼 인 더 루프 주석 접근 방식은 추상(초록) 수준의 주석 시간을 초당 ~100초에서 ~40초로 줄인다.
seq2rel 및 MatBERT 기반 기준선과 비교하면 LLM-NERRE 접근법은 유연하고 스키마 주도적인 방식으로 엔티티와 관계를 포착하는 강력한 능력을 보인다.
이 프레임워크는 계층적 그래프로의 다운스트림 디코딩을 지원하고 널리 접근 가능한 공개 API와 함께 사용할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.