QUICK REVIEW

[논문 리뷰] MUSS: Multilingual Unsupervised Sentence Simplification by Mining Paraphrases

Louis Martin, Angela Fan|HAL (Le Centre pour la Communication Scientifique Directe)|2020. 05. 01.

Text Readability and Simplification참고 문헌 59인용 수 29

한 줄 요약

MUSS는 레이블이 부여된 단순화 쌍 대신 미네랄 파라프라제 데이터만을 사용하여 고성능 모델을 훈련하는 다국어, 비지도 문장 단순화 프레임워크를 소개한다. Common Crawl에서 대규모 파라프라제 코퍼스를 의미론적 문장 임베딩을 활용해 미네랄링하고, 비지도 사전 훈련과 제어 가능한 생성을 결합함으로써, 인간이 수작업으로 레이블을 부여한 단순화 데이터가 전혀 필요 없이 영어, 프랑스어, 스페인어에서 지도 학습 기반 최고 성능을 달성하거나 초월한다.

ABSTRACT

Progress in sentence simplification has been hindered by a lack of labeled parallel simplification data, particularly in languages other than English. We introduce MUSS, a Multilingual Unsupervised Sentence Simplification system that does not require labeled simplification data. MUSS uses a novel approach to sentence simplification that trains strong models using sentence-level paraphrase data instead of proper simplification data. These models leverage unsupervised pretraining and controllable generation mechanisms to flexibly adjust attributes such as length and lexical complexity at inference time. We further present a method to mine such paraphrase data in any language from Common Crawl using semantic sentence embeddings, thus removing the need for labeled data. We evaluate our approach on English, French, and Spanish simplification benchmarks and closely match or outperform the previous best supervised results, despite not using any labeled simplification data. We push the state of the art further by incorporating labeled simplification data.

연구 동기 및 목표

저자원 언어에서 레이블이 부여된 단순화 데이터의 부족 문제를 해결하기 위해, 이러한 데이터가 필요 없는 방법을 개발하는 것.
레이블이 부여된 단순화 대신 대규모 자동으로 미네랄링된 파라프라제 데이터로 모델을 훈련시켜 다국어 문장 단순화 성능을 향상시키는 것.
추론 시 길이 및 어휘 복잡도와 같은 속성에 대한 탄력적인 단순화 제어를 가능하게 하는 것.
파라프라제 기반 훈련이 직접 단순화 데이터를 미네랄링하는 것보다 모델 성능 측면에서 뛰어나다는 것을 입증하는 것.
재현 가능성과 향후 연구를 지원하기 위해 사전 훈련된 모델, 미네랄링된 파라프라제 데이터, 코드를 공개하는 것.

제안 방법

의미론적 문장 임베딩을 사용해 Common Crawl에서 대규모, 언어에 관계없는 훈련 데이터를 생성하기 위해 파라프라제 쌍을 미네랄링하는 것.
문장 간 의미 보존성과 유창성 향상을 위해 비지도 사전 훈련(예: BART)을 사용해 시퀀스 투 시퀀스 모델을 훈련하는 것.
추론 시 길이 및 어휘 복잡도와 같은 단순화 속성을 조절하기 위해 ACCESS를 활용해 제어 가능한 생성을 적용하는 것.
대규모 임베딩 인덱스 내 문장 간 의미 유사도를 측정하여 유사 문장 쌍을 검색하는 리트리ieval 기반 접근법을 사용하는 것.
단순화 품질 향상을 위해 문장 분할, 길이 감소, 간단한 어휘 우선순위를 고려한 미네랄링 히우리스틱을 최적화하는 것.
사전 훈련과 제어 가능한 생성을 융합하여 표준 시퀀스 투 시퀀스 모델을 초월한 성능 향상을 이루는 것.

실험 결과

연구 질문

RQ1레이블이 부여된 단순화 데이터에 의존하지 않고도 문장 단순화 모델이 최고 성능을 달성할 수 있는가?
RQ2미네랄링된 파라프라제 데이터로 훈련하는 것이 직접 단순화 쌍을 미네랄링한 데이터로 훈련하는 것보다 성능이 뛰어난가?
RQ3Common Crawl에서 대규모 비지도 파라프라제를 미네랄링하는 것이 다국어 단순화에 얼마나 효과적인가?
RQ4사전 훈련과 제어 가능한 생성이 문장 유창성, 의미 보존성, 단순성 향상에 어느 정도 기여하는가?
RQ5언어별 맞춤형 미세조정 없이도 하나의 통합 프레임워크가 여러 언어에 일반화될 수 있는가?

주요 결과

MUSS는 영어, 프랑스어, 스페인어에서 레이블이 부여된 단순화 데이터를 전혀 사용하지 않음에도 불구하고 지도 학습 기반 최고 성능 모델과 동등하거나 이를 초월하는 성능을 달성한다.
미네랄링된 파라프라제 데이터로 훈련한 모델이 직접 미네랄링된 단순화 쌍으로 훈련한 모델보다 성능이 뛰어나, 파라프라제 미네랄링이 더 우수한 일반화 성능을 제공한다는 것을 시사한다.
미네랄링된 데이터의 양이 증가할수록 성능 향상이著명하게 나타나며, 수백만 개의 쌍으로 훈련 데이터가 확대될수록 SARI 점수가 상당히 상승한다.
비지도 사전 훈련(BART)과 제어 가능한 생성(ACCESS)의 조합이 가장 뛰어난 성능을 내며, 특히 유창성과 의미 보존성 향상에 기여한다.
인간 평가 결과 MUSS의 단순화 결과가 이전 모델보다 더 유창하고 간단하며, 일부 경우에서는 인간 기준 단순화 결과조차도 뛰어나다는 것이 확인되었다.
이 방법은 언어 간에 강건하며, 동일한 프레임워크와 훈련 절차를 사용하여 영어, 프랑스어, 스페인어 모두에서 뛰어난 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.