QUICK REVIEW

[논문 리뷰] Open Subtitles Paraphrase Corpus for Six Languages

Mathias Creutz|arXiv (Cornell University)|2018. 09. 17.

Subtitles and Audiovisual Media인용 수 28

한 줄 요약

이 논문은 영화 및 텔레비전 자막에서 추출한 다국어 병렬문장 코퍼스인 Opusparcus를 소개한다. 이 코퍼스는 독일어, 영어, 핀란드어, 프랑스어, 러시아어, 스웨덴어의 6개 유럽어를 포함하며, 자동 순위 매기기와 수작업 검증을 활용한 다중 피봇 언어 기법을 통해 대규모로 자연스럽고 구어체적인 병렬문장 쌍을 생성한다. 학습용 데이터셋은 수백만 개의 문장 쌍을 포함하고 있으며, 각 언어별로 수작업으로 검증된 검증/테스트 세트는 약 1,000개의 문장 쌍을 포함한다. 이는 자연어 처리 및 컴퓨터 지원 어학 학습 분야에서 유용한 자원을 제공한다.

ABSTRACT

This paper accompanies the release of Opusparcus, a new paraphrase corpus for six European languages: German, English, Finnish, French, Russian, and Swedish. The corpus consists of paraphrases, that is, pairs of sentences in the same language that mean approximately the same thing. The paraphrases are extracted from the OpenSubtitles2016 corpus, which contains subtitles from movies and TV shows. The informal and colloquial genre that occurs in subtitles makes such data a very interesting language resource, for instance, from the perspective of computer assisted language learning. For each target language, the Opusparcus data have been partitioned into three types of data sets: training, development and test sets. The training sets are large, consisting of millions of sentence pairs, and have been compiled automatically, with the help of probabilistic ranking functions. The development and test sets consist of sentence pairs that have been checked manually; each set contains approximately 1000 sentence pairs that have been verified to be acceptable paraphrases by two annotators.

연구 동기 및 목표

비공식적이고 자연스러운 자막에서 유래한 대규모 다국어 병행문장 코퍼스를 구축하여 자연어 처리 및 어학 학습을 지원한다.
단일 피봇 언어 대신 다수의 피봇 언어를 사용하여 병행문장 탐지 성능을 향상시키고, 예의와 수의 같은 어휘적 차이를 유지한다.
6개의 유럽어 각각에 대해 균형 잡힌 수작업 검증된 학습, 검증, 테스트 세트를 제공한다.
하나의 문장 수준에서 대칭적이며, 하위문장 조각이나 문법적 제약 없이 병행문장 자료를 제공한다.
연구 목적을 위해 언어 뱅크 핀란드를 통해 코퍼스를 공개한다.

제안 방법

병행문장은 OpenSubtitles2016 병행코퍼스에서 다중 피봇 언어 기법을 사용해 추출된다: 문장은 여러 피봇 언어로 번역된 후 다시 목표 언어로 번역된다.
확률적 순위 매기기 함수를 사용해 고품질의 병행문장 후보를 자동으로 평가하고 학습 세트에 선별한다.
검증 및 테스트 세트에는 수작업 주석이 적용되며, 두 명의 주석자가 네 단계 척도(좋음, 대부분 좋음, 대부분 나쁨, 나쁨)를 사용해 각 쌍을 검토한다.
주석 체계는 대칭성을 보장한다: 병행문장 쌍은 상호 교환 가능하게 취급되어 비대칭적 함의 관계를 피한다.
최종 코퍼스는 각 언어별로 학습, 검증, 테스트 세트로 분할되며, 학습 세트는 수백만 개의 문장 쌍을 포함한다.
이 방법은 문법적 제약이나 하위문장 조각에 의존하지 않으며, 관용어나 어조의 다양성을 포착하기 위해 전체 문장 수준의 병행문장을 중심으로 한다.

실험 결과

연구 질문

RQ1다중 피봇 언어 접근법이 단일 피봇 방법에 비해 예의나 수의 같은 어휘적 차이를 더 효과적으로 유지할 수 있는가?
RQ2확률적 함수를 활용한 자동 순위 매기기가 자막 데이터에서 고품질 병행문장 쌍을 식별하는 데 얼마나 효과적인가?
RQ3언어별로 약 1,000개의 문장 쌍으로 구성된 수작업 주석 기반 검증/테스트 세트가 병행문장 품질의 신뢰성과 일관성을 얼마나 보장하는가?
RQ4자막에서 유래한 비공식적이고 자연스러운 언어가 컴퓨터 지원 어학 학습 및 자연어 처리 작업에 실질적이고 가치 있는 자원이 될 수 있는가?
RQ5병행문장 쌍의 대칭적 취급 방식이 후속 응용 프로그램에서 코퍼스의 유용성과 해석에 어떤 영향을 미치는가?

주요 결과

Opusparcus 코퍼스는 다중 피봇 번역과 자동 순위 매기기를 활용해 OpenSubtitles2016 데이터셋에서 유래한 각 언어별로 약 100만 개의 병행문장 쌍을 포함한다.
각 언어별로 검증 및 테스트 세트는 정확히 1,000개의 수작업으로 검증된 병행문장 쌍을 포함하며, 네 단계 주석 체계에 의해 상호 주석자 간 일致성(일致성)이 뒷받침된다.
다양한 피봇 언어를 사용함으로써 단일 피봇 방법에 비해 어휘적 차이, 예를 들어 프랑스어의 toi/vous 대비를 더 잘 유지한다.
코퍼스는 자연스럽고 비공식적인 언어에서 관용어나 어조의 다양성을 효과적으로 포착한다. 예를 들어 'It’s what we do.' ↔ 'This is our job.' 와 같은 표현은 문법 제약이 있는 방법에서는 간과될 수 있다.
병행문장 쌍의 대칭적 취급은 쌍의 양쪽 문장을 상호 등가로 간주함으로써 함의 기반 또는 조건부 확률 기반 시스템에서 발생하는 비대칭성을 방지한다.
코퍼스는 언어 뱅크 핀란드에서 공개되어 장기적인 연구 및 교육 응용을 위한 접근성을 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.