[논문 리뷰] IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus
IEPile은 정보 추출을 위한 영어-중국어 이중언어 지시 코퍼스를 33개의 기존 IE 데이터세트에서 구축했으며, 총 ~0.32B 토큰으로 구성되며, 스키마 기반 지시 생성을 통해 LLM의 제로샷 IE 성능을 향상시킵니다.
Large Language Models (LLMs) demonstrate remarkable potential across various domains; however, they exhibit a significant performance gap in Information Extraction (IE). Note that high-quality instruction data is the vital key for enhancing the specific capabilities of LLMs, while current IE datasets tend to be small in scale, fragmented, and lack standardized schema. To this end, we introduce IEPile, a comprehensive bilingual (English and Chinese) IE instruction corpus, which contains approximately 0.32B tokens. We construct IEPile by collecting and cleaning 33 existing IE datasets, and introduce schema-based instruction generation to unearth a large-scale corpus. Experimentally, IEPile enhance the performance of LLMs for IE, with notable improvements in zero-shot generalization. We open-source the resource and pre-trained models, hoping to provide valuable support to the NLP community.
연구 동기 및 목표
- 대규모 표준화된 IE 지시 데이터의 필요성을 제시하여 LLM의 IE 작업 성능 격차를 해소합니다.
- 기존 데이터세트에서 포괄적이고 이중언어인 IE 지시 코퍼트를 구성하여 확장 가능한 IE 학습을 가능하게 합니다.
- IE 작업에서 스키마-쿼리 차이와 의미 혼란을 해결하기 위해 스키마 기반 지시 생성 기술을 개발합니다.
- IEPile로 LLM을 파인튜닝하면 영어 및 중국어 데이터세트에서 제로샷 IE 성능이 향상됨을 보여줍니다.]
- method01
- method02
- method03
- method04
- method05
- method06
제안 방법
- 영어와 중국어에 걸친 33개의 기존 IE 데이터세트를 수집하고 정제합니다.
- 형식을 표준화하고 인스턴스를 중복 제거하며 저질 데이터들을 필터링합니다.
- 의미적으로 유사한 부정 스키마를 강조하기 위해 hard negative 스키마 구성을 도입합니다.
- 지시당 조회되는 스키마의 수를 제한하고 다양화하기 위해 배치 단위의 지시 생성(batched instruction generation)을 적용합니다.
- IEPile로 Baichuan2 및 LLaMA2 모델을 파인튜닝하여 제로샷 IE 성능을 평가합니다.
실험 결과
연구 질문
- RQ1대규모의 스키마 인식 이중언어 IE 코퍼스가 LLM 기반 정보 추출을 어떻게 개선할 수 있으며, 특히 제로샷 설정에서의 개선은 어떠한가요?
- RQ2스키마 기반 지시 전략(하드 네거티브와 배치 적용)이 모델의 일반화 및 견고성에 미치는 영향은 무엇인가요?
- RQ3IEPile로 학습된 모델이 영어 및 중국어 IE 작업에서 제로샷 시나리오에 대해 기초 모델을 능가할 수 있나요?
주요 결과
- IEPile은 영어와 중국어 모두에서 NER, RE, EE 작업에 대해 제로샷 IE 성능이 여러 기준선보다 향상되었습니다.
- 하드 네거티브 스키마 구성과 배치 지시 생성을 통해 학습-평가 간 스키마-쿼리 불일치를 완화하고 의미 혼란을 줄이는 데 도움이 됩니다.
- Baichuan2-IEPile 및 LLaMA2-IEPile은 일부 설정에서 영어 NER 정확도에서 ChatGPT에 근접하거나 앞서며, 코퍼스로 강한 제로샷 일반화를 시사합니다.
- 실험에서 하드 네거티브 스키마 사전을 제거하면 의미적으로 혼란스러운 스키마의 성능이 감소하여 그 강건성의 가치가 부각됩니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.