Skip to main content
QUICK REVIEW

[논문 리뷰] BERTić - The Transformer Language Model for Bosnian, Croatian, Montenegrin and Serbian

Nikola Ljubešić, Davor Lauc|arXiv (Cornell University)|2021. 04. 01.
Natural Language Processing Techniques참고 문헌 8인용 수 3
한 줄 요약

BERTić은 보스니아어, 크로아티아어, 몬테네그로의어, 세르비아어 웹 도메인에서 수집한 80억 토큰의 텍스트를 기반으로 사전 훈련된 다국어 트랜스포머 언어 모델이다. 이 모델은 품사 태깅, 명명된 실체 인식, 지리적 위치 예측, 그리고 공리적 추론 작업에서 최신 기준 성능을 기록하며, 새로 도입된 크로아티아어 번역 버전인 COPA-HR를 포함하여 공개적으로 이용 가능하다. HuggingFace 통해 파인튜닝이 가능하다.

ABSTRACT

In this paper we describe a transformer model pre-trained on 8 billion tokens of crawled text from the Croatian, Bosnian, Serbian and Montenegrin web domains. We evaluate the transformer model on the tasks of part-of-speech tagging, named-entity-recognition, geo-location prediction and commonsense causal reasoning, showing improvements on all tasks over state-of-the-art models. For commonsense reasoning evaluation we introduce COPA-HR - a translation of the Choice of Plausible Alternatives (COPA) dataset into Croatian. The BERTic model is made available for free usage and further task-specific fine-tuning through HuggingFace.

연구 동기 및 목표

  • 보스니아어, 크로아티아어, 몬테네그로의어, 세르비아어를 위한 고자원 다국어 언어 모델을 개발하는 것.
  • 이들 저자원 언어 변형에서 품사 태깅, 명명된 실체 인식, 지리적 위치 예측, 공리적 추론 등의 최종 자연어 처리 작업에서 성능을 향상시키는 것.
  • 목표 언어에서 공리적 추론을 평가하기 위해 고품질의 인간 번역된 크로아티아어 버전의 COPA 데이터셋(COPA-HR)을 제작하고 배포하는 것.
  • 추후 연구 및 파인튜닝을 위해 HuggingFace를 통해 사전 훈련된 모델을 자유롭게 공개하는 것.

제안 방법

  • 모델은 보스니아, 크로아티아, 몬테네그로, 세르비아 웹 도메인에서 수집한 단일 언어 텍스트 총 80억 토큰을 기반으로 사전 훈련된 BERT 스타일의 트랜스포머 인코더이다.
  • 사전 훈련은 표준 BERT 아키텍처에서 사용되는 마스킹 언어 모델링과 다음 문장 예측 목표를 사용하여 문맥적 표현을 학습한다.
  • 훈련 데이터는 공개된 웹 크롤링 자료에서 유래하였으며, 네 가지 관련 언어 간의 도메인 관련성과 언어 일관성을 중시하여 정제되었다.
  • 모델은 네 가지 최종 작업에서 평가된다: 품사 태깅, 명명된 실체 인식, 지리적 위치 예측, 공리적 인과 추론.
  • 공리적 추론을 위해 저자들은 원본 COPA 데이터셋의 크로아티아어 번역인 COPA-HR를 도입하여 언어적 및 문화적 관련성을 확보한다.
  • 모델는 HuggingFace에 전체 가중치와 토크나이저 지원 기능을 함께 제공하여 커뮤니티 사용 및 파인튜닝을 위해 배포된다.

실험 결과

연구 질문

  • RQ1도메인 특화 웹 텍스트를 기반으로 한 대규모 다국어 트랜스포머 모델이 보스니아어, 크로아티아어, 몬테네그로의어, 세르비아어의 자연어 처리 작업에서 성능을 크게 향상시킬 수 있는가?
  • RQ2이들 언어에서 품사 태깅 및 명명된 실체 인식 작업에서 BERTić의 성능은 기존 최고 성능 모델과 비교해 어떻게 되는가?
  • RQ3파인튜닝된 BERTić 모델이 문맥적 언어 이해를 활용하여 지리적 위치 예측을 얼마나 잘 수행할 수 있는가?
  • RQ4최근 제작된 COPA-HR 데이터셋은 목표 언어에서 공리적 인과 추론 평가에 얼마나 효과적인가?
  • RQ5단일 다국어 모델이 밀접하게 관련된 남슬라브어 언어들에 걸쳐 다양한 자연어 처리 작업에 효과적인 기초 모델로 기능할 수 있는가?

주요 결과

  • BERTić은 모든 네 개의 목표 언어에서 품사 태깅 작업에서 최신 기준 성능을 기록하며 이전 모델을 압도한다.
  • 명명된 실체 인식 작업에서 뚜렷한 성능 향상을 보이며, 강력한 실체 경계 및 유형 분류 능력을 입증한다.
  • 지리적 위치 예측 작업에서는 텍스트 내 문맥적 단서를 활용하여 이전 접근 방식보다 더 높은 정확도로 지리적 위치를 추론한다.
  • COPA-HR의 도입으로 크로아티아어에서의 공리적 추론 평가가 신뢰성 있게 가능해졌으며, BERTić은 이 새로운 벤치마크에서 뛰어난 성능을 보였다.
  • 모든 평가된 작업에서 기존 베이스라인 모델을 꾸준히 초월하며, 도메인 특화 다국어 코퍼스를 대규모 사전 훈련하는 데서의 가치를 확인한다.
  • HuggingFace를 통한 BERTić의 배포로 발칸 언어 환경에서 특화된 자연어 처리 응용 분야의 파인튜닝 및 광범위한 활용이 가능해졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.