[논문 리뷰] Unsupervised Paraphrase Generation using Pre-trained Language Models
이 논문은 손상된 입력을 사용한 문장 재구성 작업에서 GPT-2를 미세조정하여 비지도 파라프레이즈 생성에 대한 접근법을 제시하며, 데이터 증강에 활용될 때 다운스트림 분류를 향상시키는 고품질의 다양하고 파생된 패러프레이즈를 달성한다.
Large scale Pre-trained Language Models have proven to be very powerful approach in various Natural language tasks. OpenAI's GPT-2 \cite{radford2019language} is notable for its capability to generate fluent, well formulated, grammatically consistent text and for phrase completions. In this paper we leverage this generation capability of GPT-2 to generate paraphrases without any supervision from labelled data. We examine how the results compare with other supervised and unsupervised approaches and the effect of using paraphrases for data augmentation on downstream tasks such as classification. Our experiments show that paraphrases generated with our model are of good quality, are diverse and improves the downstream task performance when used for data augmentation.
연구 동기 및 목표
- 대형 사전 학습 언어 모델이 라벨링 데이터 없이도 품질 높은 패러프레이즈를 생성할 수 있음을 보여준다.
- 손상된 입력으로부터 문장을 재구성하는 것이 비지도 방식으로 패러프레이즈 생성을 학습시킬 수 있음을 보여준다.
- 다운스트림 작업에서 데이터 증강에 대한 패러프레이즈 품질, 다양성 및 유용성을 평가한다.
제안 방법
- 소스가 손상된 문장 S(중지어 제거, 20% 단어 셔플, 20% 동의어 대체)이고 대상이 원문 문장 T인 문장 재구성 작업에 대해 GPT-2를 미세조정한다.
- 학습 중 입력 X를 형성하기 위해 소스와 타깃을 [SEP] 토큰으로 연결한다.
- 탑-k 샘플링(k=10)을 사용하여 입력당 여러 개의 패러프레이즈를 생성한다.
- 문장 임베딩과 코사인 유사도 임계값 0.75를 사용하여 입력과의 의미적 유사성으로 패러프레이즈를 필터링한다.
- 패러프레이즈의 품질은 METEOR와 ROUGE-L로 평가하고, 다양성은 self-BLEU로, 유용성은 SST-2와 TREC 과제에서의 데이터 증강을 통해 평가한다.
실험 결과
연구 질문
- RQ1비지도 GPT-2 기반 패러프레이징이 라벨링된 패러프레이즈 데이터 없이도 고품질의 패러프레이즈를 생성할 수 있는가?
- RQ2이 방법으로 생성된 패러프레이즈가 데이터 증강으로 사용될 때 다운스트림 분류 성능을 향상시키는가?
- RQ3생성된 패러프레이즈는 다양하면서도 원문에 대해 의미적으로 충실한가?
- RQ4비지도 접근법이 지도 학습 및 기타 비지도 패러프레이징 방법과 비교하여 어떤 차이가 있는가?
주요 결과
- 패러프레이즈는 고품질이며, METEOR가 보고된 결과에서 여러 지도 모델보다 우수한 성능을 보인다.
- 방법은 후보들 간의 self-BLEU가 낮아 다양성을 나타낸다.
- 패러프레이즈는 데이터 증강으로 사용할 때 SST-2 및 TREC 분류 과제에서 다운스트림 성능 개선을 측정 가능하게 제공한다.
- 인간 평가에서 패러프레이즈의 정확도는 평균 75.5%의 정확도로 나타난다.
- 비지도 baselines와 비교하여 제안된 방법은 ROUGE-1 및 ROUGE-2 점수에서 경쟁력 있으며 METEOR 점수에서 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.