QUICK REVIEW

[논문 리뷰] A Universal Part-of-Speech Tagset

Slav Petrov, Dipanjan Das|arXiv (Cornell University)|2011. 04. 11.

Natural Language Processing Techniques참고 문헌 46인용 수 731

한 줄 요약

이 논문은 22개의 언어에서 골드 POS 태그 없이도 무 supervision 문법 유도가 가능하게 하며, 교차 언어적 NLP 연구를 표준화하기 위해 12개의 군집화된 범주로 구성된 일반적인 형태소 태그셋을 제안한다. 이는 25개의 언어별 트리뱅크 태그셋을 이 일반 태그셋으로 매핑함으로써 이루어지며, 골드 POS 태그 없이도 경쟁적인 문법 분석 정확도를 달성한다.

ABSTRACT

To facilitate future research in unsupervised induction of syntactic structure and to standardize best-practices, we propose a tagset that consists of twelve universal part-of-speech categories. In addition to the tagset, we develop a mapping from 25 different treebank tagsets to this universal set. As a result, when combined with the original treebank data, this universal tagset and mapping produce a dataset consisting of common parts-of-speech for 22 different languages. We highlight the use of this resource via two experiments, including one that reports competitive accuracies for unsupervised grammar induction without gold standard part-of-speech tags.

연구 동기 및 목표

12개의 군집화된 형태소 태그 카테고리로 구성된 일반 태그셋을 정의하여 다양한 언어 간 형태소 태깅을 표준화한다.
25개의 언어별 트리뱅크 태그셋에서 이 일반 태그셋으로의 신뢰할 수 있는 매핑을 개발한다.
다양한 언어 간 형태소 태깅 및 문법 유도 성능을 공정하게 비교할 수 있도록 한다.
골드 형태소 태그 대신 자동으로 추론된 일반 형태소 태그로 대체하여 저자원 언어에서의 무 supervision 문법 유도를 지원한다.
언어별 어노테이션 가이드라인에 의존하는 것을 줄임으로써 후속 NLP 응용 프로그램을 지원한다.

제안 방법

12개의 카테고리로 구성된 일반 형태소 태그셋을 정의한다: 명사, 동사, 형용사, 부사, 대명사, 관형사, 전치사, 수사, 접속사, 부사어, 마침표, 그리고 X(기타).
원래 어노테이션 가이드라인을 기반으로 한 운영 정의를 사용하여, 영어, 독일어, 일본어, 중국어를 포함한 25개의 언어별 트리뱅크 태그셋에서 일반 태그셋으로의 매핑을 수립한다.
교차 언어적 형태소 태그 추론을 통해 골드 표준 어노테이션이 없는 대상 언어에 대해 자동으로 일반 형태소 태그를 유도한다.
일반 문법 규칙(USR) 기반의 확률적 베이지안 모델을 사용하여 무 supervision 문법 유도 프레임워크에 일반 형태소 태그를 적용한다.
CoNLL-X 트리뱅크에서 골드 일반 형태소 태그와 추론된 일반 형태소 태그를 모두 사용하여 문법 유도 모델을 훈련하고 평가한다.
의존성 간선의 방향성 정확도를 문장 길이 10 이하인 문장에 대해 비교하며, 구두점은 제외한다.

실험 결과

연구 질문

RQ112개의 카테고리로 구성된 일반 형태소 태그셋이 22개의 다양한 언어에 일반화되어 일관된 NLP 평가를 가능하게 할 수 있는가?
RQ2골드 표준 형태소 태그 대신 자동으로 추론된 일반 형태소 태그를 사용할 경우, 무 supervision 문법 유도의 성능은 어떻게 되는가?
RQ3일반 태그셋이 다양한 언어 간 형태소 태깅 및 구문 분석 정확도를 더 신뢰성 있게 비교하는 데 기여하는가?
RQ4골드 표준 세밀한 형태소 태그를 사용하는 모델과 경쟁 가능한 성능을 내기 위해, 추론된 일반 형태소 태그로 훈련된 문법 유도 모델은 얼마나 성능을 내는가?
RQ5일반 태그셋을 사용할 경우, 저자원 환경에서의 무 supervision 구문 분석 시스템 성능에 어떤 영향을 미치는가?

주요 결과

일반 형태소 태그셋과 매핑을 통해 22개 언어에서 일관된 교차 언어적 형태소 태깅 및 문법 유도 평가가 가능해졌다.
자동으로 추론된 일반 형태소 태그를 사용하는 문법 유도(USR-I)가 테스트된 8개 언어 전부에서 DMV 모델을 능가했으며, 세밀한 골드 형태소 태그를 사용하는 PGI 모델과도 경쟁 가능한 성능을 보였다.
USR-I 모델은 덴마크어에서 41.7%에서 포르투갈어에서 70.9%의 방향성 의존성 정확도를 기록했으며, 골드 일반 태그를 사용하는 USR-G 모델의 55.1%에서 68.3% 범위에 근접했다.
원래의 세밀한 태그로 훈련하고 예측 결과를 일반 태그로 매핑하는(O/U) 방식이 일반 태그셋으로 직접 훈련하는 것보다 더 높은 정확도를 보였으며, 이는 전이 모델에 대해 일반 태그셋이 덜 정보를 제공한다는 것을 시사한다.
일반 태그셋은 목표 언어에서 레이블이 없는 데이터만으로도 효과적인 무 supervision 문법 유도를 가능하게 하여, 저자원 환경에서의 유용성을 입증했다.
이 자원은 연구 및 응용 개발을 위해 공개적으로 제공되며, http://code.google.com/p/universal-pos-tags/ 에서 이용할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.