[논문 리뷰] Masakhane -- Machine Translation For Africa
Masakhane는 2020년 2월 기준으로 17개의 아프리카 국가에서 온 144명의 참가자와 함께, 무료 Google Colab GPU와 공유된 Jupyter 노트북 프레임워크를 통해 아프리카 언어에서 신경 기계 번역 모델을 훈련시킬 수 있도록 해주는 오픈소스이자 전 아프리카 범위의 이니셔티브입니다. 현재까지 28개의 아프리카 언어에 대해 30개의 번역 결과가 발표되었으며, 아프리카 NLP 연구 분야에서의 접근성과 재현 가능성 향상에 크게 기여하고 있습니다.
Africa has over 2000 languages. Despite this, African languages account for a small portion of available resources and publications in Natural Language Processing (NLP). This is due to multiple factors, including: a lack of focus from government and funding, discoverability, a lack of community, sheer language complexity, difficulty in reproducing papers and no benchmarks to compare techniques. To begin to address the identified problems, MASAKHANE, an open-source, continent-wide, distributed, online research effort for machine translation for African languages, was founded. In this paper, we discuss our methodology for building the community and spurring research from the African continent, as well as outline the success of the community in terms of addressing the identified problems affecting African NLP.
연구 동기 및 목표
- 자원이 제한된 연구자나 학술적 배경이 부족한 연구자들이 접근할 수 있도록, 지속 가능하고 포용적인 아프리카 NLP 연구 공동체를 구축하기 위해.
- 자원이 제한된 연구자들이 접근할 수 있도록, 접근성 있고 오픈소스인 도구와 데이터셋을 만들기 위해.
- GitHub에 데이터, 코드, 결과를 공개적으로 게시하여, 아프리카 언어의 NLP 연구의 탐색 가능성과 재현 가능성을 향상시키기 위해.
- Slack과 온라인 미팅을 통해 원격으로 분산된 참가자들이 참여할 수 있도록 하여 지리적·기관적 장벽을 극복하고 협업을 촉진하기 위해.
- 기계 번역을 넘어서 전이 학습, 자기지도 학습 및 광범위한 NLP 작업으로 NLP 연구 범위를 확장하기 위해.
제안 방법
- 참가자들이 고가의 하드웨어를 요구하지 않고도 신경 기계 번역(NMT) 모델을 훈련시킬 수 있도록, 단일 무료 GPU를 제공하는 Google Colab에 호스팅된 Jupyter 노트북을 사용합니다.
- 영어에서 101개의 아프리카 언어로 이르는 병렬 데이터를 제공하는 JW300 다국어 병렬 코퍼스를 통합하여 다양한 아프리카 언어에서의 훈련을 지원합니다.
- 문서화된 훈련, 평가 및 설정 절차를 갖춘 초보자에게도 친숙한 NMT 프레임워크인 Joey NMT를 사용합니다.
- 모든 데이터, 코드, 모델 결과를 버전 관리하고 공유하기 위해 공동체가 유지하는 GitHub 리포지토리를 활용하여 재현 가능성과 탐색 가능성을 향상시킵니다.
- 미래의 다국어 간 전이 학습 실험에서 데이터 泄露를 방지하기 위해, JW300에서 영어 기반의 글로벌 테스트 세트를 추출하고 훈련 데이터에서 제외합니다.
- 주간 온라인 미팅과 활성화된 Slack 워크스페이스를 통해 지리적으로 분산된 참가자들 간 실시간 협업, 멘토링 및 지식 공유를 촉진합니다.
실험 결과
연구 질문
- RQ1자원이 제한된 아프리카 언어의 NLP 연구를 지원하기 위해 탈중앙화되고 오픈소스인 연구 공동체를 어떻게 효과적으로 구축할 수 있을까?
- RQ2자금, 교육, 인프라 접근성에 제한이 있는, 서아프리카의 연구자들이 참여할 수 있도록 장벽을 낮추기 위해 어떤 기술적·사회적 전략이 필요할까?
- RQ3Google Colab과 같은 무료 클라우드 기반 컴퓨팅 자원이 현지 고성능 컴퓨팅 환경이 없이도 의미 있는 NLP 모델 훈련을 가능하게 할 수 있는 정도는 어느 정도일까?
- RQ4데이터, 코드, 결과를 공개적으로 게시함으로써 아프리카 언어의 NLP 연구에서 재현 가능성과 탐색 가능성을 어떻게 향상시킬 수 있을까?
- RQ5커뮤니티 주도의 이니셔티브는 주로 연구에서 간과되는 언어의 NLP 발전에 어떤 역할을 할 수 있을까?
주요 결과
- 2020년 2월 14일 기준으로 Masakhane 공동체에는 17개의 아프리카 국가와 미국, 독일의 두 개의 비아프리카 국가에서 온 총 144명의 참가자가 포함되어 있으며, 광범위한 지리적·인구 통계적 접근성을 보여주고 있습니다.
- 25명의 다른 기여자들이 기여한 30개의 번역 결과가 28개의 아프리카 언어에 대해 성공적으로 발표되었으며, 활발한 공동체 참여를 보여줍니다.
- 단일 무료 GPU를 사용하는 Google Colab의 활용으로, 참가자들이 고가의 계산 자원을 개인적으로 확보하지 않아도 NMT 모델을 훈련시킬 수 있었습니다.
- JW300 데이터셋의 통합으로 101개의 아프리카 언어에서의 훈련 기반을 마련하여, 가용한 병렬 코퍼스의 범위를 크게 확장했습니다.
- 모든 결과물을 GitHub에 공개적으로 게시함으로써 데이터와 모델의 탐색 가능성을 향상시켰으며, 재현 가능성과 향후 벤치마킹에 기여했습니다.
- 주간 미팅과 전용 Slack 워크스페이스를 통해 기관 간 및 지리적 경계를 초월한 협업을 성공적으로 촉진하여, 아프리카 연구자들이 자주 겪는 고립을 해소했습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.