Skip to main content
QUICK REVIEW

[논문 리뷰] The CoNLL--SIGMORPHON 2018 Shared Task: Universal Morphological Reinflection

Ryan Cotterell, Christo Kirov|arXiv (Cornell University)|2018. 10. 16.
Natural Language Processing Techniques참고 문헌 34인용 수 56
한 줄 요약

이 논문은 103개 언어에 걸친 감독형 형태소 재변형을 다루는 CoNLL–SIGMORPHON 2018 공유 작업과 일곱 언어의 cloze-style 맥락 작업을 제시하며, 신경 시스템이 제출을 지배했다.

ABSTRACT

The CoNLL--SIGMORPHON 2018 shared task on supervised learning of morphological generation featured data sets from 103 typologically diverse languages. Apart from extending the number of languages involved in earlier supervised tasks of generating inflected forms, this year the shared task also featured a new second task which asked participants to inflect words in sentential context, similar to a cloze task. This second task featured seven languages. Task 1 received 27 submissions and task 2 received 6 submissions. Both tasks featured a low, medium, and high data condition. Nearly all submissions featured a neural component and built on highly-ranked systems from the earlier 2017 shared task. In the inflection task (task 1), 41 of the 52 languages present in last year's inflection task showed improvement by the best systems in the low-resource setting. The cloze task (task 2) proved to be difficult, and few submissions managed to consistently improve upon both a simple neural baseline system and a lemma-repeating baseline.

연구 동기 및 목표

  • 타이포로지적으로 다양한 언어들에 걸쳐 감독형 형태소 재변형을 동기부여하고 벤치마크한다.
  • 굴절 형태에서 문장 맥락 속의 굴절로 범위를 확장한다(클로즈 태스크).
  • 저자 다국어 데이터와 저자원, 중간 자원, 고자원 체계에 따른 평가 설정을 제공한다.
  • 베이스라인 및 이전 작업과의 비교를 통해 신경 방법의 혁신을 장려한다.

제안 방법

  • 두 가지 과제가 정의된다: 과제 1은 목표 형태구문특성(MSD)이 주어지면 렘마를 굴절시키고; 과제 2는 대상 어휘의 관찰된 MSD 없이 맥락에서 굴절시키며, 서로 다른 감독 수준으로 두 트랙으로 수행된다.
  • 과제 1의 데이터는 103개 언어(대부분 Wiktionary)에서 오며 UniMorph 특징 번들을 사용한다; 테스트 예시는 관찰된 렘마–MSD–굴절형 삼중항에서 샘플링된다.
  • 과제 2는 UD 트리뱅크를 UniMorph으로 변환하여 두 트랙에서 사용하며; 학습 데이터는 세 가지 규모(저/중/고)로 샘플링되고 주석에는 테스트를 위한 그럴듯한 맥락 형태가 포함된다.
  • 컨텍스트 단어에 조건화된 인코더–디코더 아키텍처를 가진 신경 기반 베이스라인이 사용된다(트랙 1의 경우 렘마/MSDs도 포함); 베이스라인에는 간단한 복사 및 규칙 기반/정보-메모화 스타일의 베이스라인이 포함된다.
  • 평가는 표준 감독학습 재변형 지표와 클로즈 태스크를 위한 인간 주석의 그럴듯한 형태 세트를 사용한다.

실험 결과

연구 질문

  • RQ1감독형 모델이 희소한 학습 데이터에서도 대규모 타이포로지적 다양성의 언어들 전반에서 굴절을 일반화할 수 있는가(과제 1)?
  • RQ2다양한 감독 수준에서 맥락에서 올바른 굴절 형태를 추론하는가(클로즈 스타일 설정, 과제 2)
  • RQ3데이터 규모(low/medium/high)가 언어와 과제 전반의 성능에 미치는 영향은 무엇인가?
  • RQ4신경 재변형 모델이 두 과제에서 전통적 베이스라인과 단순 복사 베이스라인을 능가하는가?

주요 결과

  • 과제 1에서 최상위 시스템은 저자원 설정에서 다수의 언어에서 베이스라인을 능가하며, 이전 해의 52개 언어를 포함한다.
  • 과제 2는 더 도전적이며, 단순한 신경 베이스라인과 렘마-반복 베이스라인을 꾸준히 능가하는 제출이 상대적으로 적다.
  • 공유 작업 데이터세트는 다양한 언어 계통과 형태를 포괄하며, 모델이 비지역적 및 템플레이틱한 형태를 학습하도록 도전한다.
  • 전반적으로 15개 팀과 33개 시스템이 참여하여 과제에 대한 폭넓은 관심과 다양한 시스템 설계를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.