Skip to main content
QUICK REVIEW

[논문 리뷰] Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection

Joakim Nivre, Marie-Catherine de Marneffe|arXiv (Cornell University)|2020. 04. 22.
Natural Language Processing Techniques참고 문헌 17인용 수 330
한 줄 요약

UD v2는 주요 가이드라인 업데이트, 다국어 트리뱅크 확장, 그리고 형태-통사적 특징, 관계, 향상된 의존성을 포함한 향상된 주석 체계를 도입하여 약 90개 언어에 걸쳐 있습니다.

ABSTRACT

Universal Dependencies is an open community effort to create cross-linguistically consistent treebank annotation for many languages within a dependency-based lexicalist framework. The annotation consists in a linguistically motivated word segmentation; a morphological layer comprising lemmas, universal part-of-speech tags, and standardized morphological features; and a syntactic layer focusing on syntactic relations between predicates, arguments and modifiers. In this paper, we describe version 2 of the guidelines (UD v2), discuss the major changes from UD v1 to UD v2, and give an overview of the currently available treebanks for 90 languages.

연구 동기 및 목표

  • UD v2 가이드라인과 UD v1에서 UD v2로의 주요 변경점을 설명한다.
  • UD v2.5 기준으로 90개 언어에 대해 이용 가능한 UD 트리뱅크 자원에 대한 개요를 제공한다.
  • 주석 체계 구성 요소인 토큰화, 형태소, 구문, 및 향상된 의존성을 설명한다.
  • 다국어 구문 분석의 발전과 이 프로젝트가 NLP 연구에 미친 영향을 강조한다.

제안 방법

  • UD에서의 토큰화 및 어절 분할 결정에 대해 설명한다.
  • UD v2에서의 보편적 품사 태그 세트와 형태소 특징 목록 및 그 확장을 요약한다.
  • UD v2 구문 관계 분류 체계와 기능적 관계, 다단어 표현, 그리고 병렬 관계의 변화에 대해 설명한다.
  • 향상된 의존성 프레임워크의 다섯 가지 개선점을 개요한다(널 노드 포함 및 합치의 전파).

실험 결과

연구 질문

  • RQ1UD v1에서 UD v2로의 토큰화, 형태소, 구문의 주요 변경점은 무엇인가?
  • RQ2v2.5 기준으로 UD v2 다국어 자원 커버리지는 언어 및 트리뱅크 측면에서 얼마나 광범위한가?
  • RQ3UD v2의 주석 체계와 향상된 의존성의 주요 설계 결정은 무엇인가?
  • RQ4UD v2가 다국어 구문 분석 연구와 CoNLL와 같은 공유 작업에 어떤 영향을 미쳤나?
  • RQ5언어 가족 및 장르 측면에서 현재 UD 트리뱅크의 범위와 다양성은 어떻게 되는가?

주요 결과

  • UD v2는 UD v1에 비해 언어 커버리지와 트리뱅크 자원을 크게 확장하여 v2.5까지 157개의 트리뱅크와 90개의 언어를 보유한다.
  • 주석 체계는 보편적 POS 태그 세트를 유지하면서 형태소 특징을 확장하고 구문 관계를 세분화하였으며 새롭거나 개정된 범주(nsubj:pass, obl, cc 배치 등)가 포함되었다.
  • 다단어 표현은 복합, 고정, 평면(relations)의 더 넓은 사용으로 개정되었고 UD v1의 여러 범주를 대체하며 flat:name/flat:foreign 하위 유형을 도입했다.
  • 향상된 의존성은 많은 UD 트리뱅크에서 사용할 수 있어 Ellipsis, 제어, 관계절과 같은 암시적 관계를 명시적으로 표현할 수 있게 했지만 채택은 부분적(24개의 트리뱅크)이다.
  • UD 프로젝트는 다국어 구문 분석 연구와 공유 작업을 지원하여 더 높은 구문 분석 점수와 NLP 연구를 위한 더 폭넓은 언어 커버리지를 이끌었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.