Skip to main content
QUICK REVIEW

[논문 리뷰] Building astroBERT, a language model for Astronomy & Astrophysics

Félix Grèzes|arXiv (Cornell University)|2021. 10. 29.
Astronomy and Astrophysical Research참고 문헌 1인용 수 5
한 줄 요약

이 논문은 BERT의 트랜스포저 아키텍처를 사용하여 NASA ADS 데이터베이스의 395,499篇의 천문학 논문에 대해 미세조정된 도메인 특화 언어 모델인 astroBERT를 소개한다. 마스크된 언어 모델링과 다음 문장 예측을 통해 과학적 텍스트로 훈련된 astroBERT는 천문학 기관에 대한 명명된 실체 인식(NER)에서 90.2%의 F1 점수를 기록하며, BERT와 SciBERT를 모두 능가하여 천체물리학 분야의 의미적 검색에 효과적임을 입증한다.

ABSTRACT

The existing search tools for exploring the NASA Astrophysics Data System (ADS) can be quite rich and empowering (e.g., similar and trending operators), but researchers are not yet allowed to fully leverage semantic search.<br> For example, a query for "results from the Planck mission" should be able to distinguish between all the various meanings of Planck (person, mission, constant, institutions and more) without further clarification from the user.<br> At ADS, we are applying modern machine learning and natural language processing techniques to our dataset of recent astronomy publications to train astroBERT, a deeply contextual language model based on research at Google.<br> Using astroBERT, we aim to enrich the ADS dataset and improve its discoverability, and in particular we are developing our own named entity recognition tool. We present here our preliminary results and lessons learned.

연구 동기 및 목표

  • 천체물리학 분야의 과학적 텍스트에 대한 의미적 이해를 향상시키기 위해 천문학 및 천체물리학 전용에 적합한 언어 모델을 개발한다.
  • 의미적 검색 기능이 부족한 기존의 ADS 검색 도구가 'Planck'과 같은 모호한 용어를 다루는 데에 한계가 있음을 해결한다.
  • 고품질로 정제된 천문학 문헌을 기반으로 언어 모델을 훈련시켜 시설, 임무, 기관에 대한 더 나은 명명된 실체 인식(NER)을 가능하게 한다.
  • 일반 목적 모델인 BERT와 SciBERT에 비해 천체물리학 분야에 특화된 NER 작업에서 뛰어난 성능을 내도록 한다.
  • Huggingface를 통해 훈련된 모델을 공개하여 더 넓은 커뮤니티의 활용을 가능하게 한다.

제안 방법

  • ADS 데이터베이스의 395,499편의 천문학 논문에서 정제된 영문 텍스트 16GB를 사용하여 BERT 아키텍처 기반의 astroBERT를 사전 훈련한다.
  • 캐이스를 유지하고 음절 표기법을 제거하여 실체 인식 성능을 향상시키기 위해 30,000개 토큰의 커스텀 WordPiece 토크나이저를 사용한다.
  • 맥락적 표현을 학습하기 위해 사전 훈련 중 마스크된 언어 모델링(MLM)과 다음 문장 예측(NSP)을 수행한다.
  • 6,279개의 주석 섹션에 포함된 약 1,856개 문장으로 구성된 정제된 데이터셋을 기반으로 모델을 미세조정한다.
  • NER 작업에서 10겹 교차 검증을 수행하고, 다양한 데이터셋에서 모델 간의 난이도 점수를 비교한다.
  • V100 GPU에서 메모리 절약과 훈련 속도 향상을 위해 혼합 정밀도 부동소수점 연산을 사용하여 훈련한다.

실험 결과

연구 질문

  • RQ1천문학 문헌으로 사전 훈련된 BERT 기반 언어 모델이 천체물리학 분야의 명명된 실체 인식(NER)에서 일반 도메인 모델인 BERT와 SciBERT를 능가할 수 있는가?
  • RQ2사전 훈련 중 다음 문장 예측(NSP) 작업을 포함할 경우, 후속 NER 작업 성능에 어떤 영향을 미치는가?
  • RQ3일반적인 위키백과 기반 BERT와 비교했을 때, 과학적 천문학 텍스트에 특화된 사전 훈련이 의미적 이해 수준을 얼마나 향상시키는가?
  • RQ4데이터 정제 및 토크나이저 설계가 천문학 분야의 과학적 NLP 작업 성능에 어떤 영향을 미치는가?
  • RQ5미세조정된 astroBERT 모델이 과학 논문 내 기관의 약어와 전용 이름을 식별하는 데 높은 F1 점수를 달성할 수 있는가?

주요 결과

  • astroBERT(NSP+MLM)는 NER 작업에서 F1 점수 0.902를 기록하여 BERT(0.859)와 astroBERT(MLM)(0.893)를 모두 능가했다.
  • ADS 데이터셋에서 astroBERT(NSP+MLM)의 난이도 점수는 5.71로, 천문학 텍스트에서 강력한 언어 모델링 성능을 보였다.
  • astroBERT(MLM)는 BERT와 24.5%의 어휘 겹침 비율, SciBERT와 35.3%의 어휘 겹침 비율을 보이며 도메인 특화 적응이 뚜렷하게 이루어졌음을 시사했다.
  • ADS 데이터셋 전체(38억 토큰)로 훈련한 결과 과학적 텍스트에서의 성능 향상이 나타났으며, ADS 데이터셋에서의 난이도 점수는 BERT의 41.3에서 astroBERT의 4.16로 감소했다.
  • NER 미세조정 과정은 단 3 에포크로 완료되었으며, 각 에포크는 약 90초가 소요되어 효율적인 적응을 보였다.
  • 2개의 V100 GPU와 768GB RAM을 갖춘 시스템에서 MLM은 1 에포크당 약 8시간, NSP+MLM은 1 에포크당 약 22시간이 소요되어 성공적으로 훈련이 완료되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.