[논문 리뷰] Adversarial Ranking for Language Generation
RankGAN은 이진 판별기를 GAN 프레임워크의 랭커로 대체하여 humans가 작성한 문장을 machine이 생성한 문장보다 더 높게 랭크하도록 하고, 정책 기울기를 이용해 생성기를 학습하여 더 높은 순위의 언어 출력을 생성합니다.
Generative adversarial networks (GANs) have great successes on synthesizing data. However, the existing GANs restrict the discriminator to be a binary classifier, and thus limit their learning capacity for tasks that need to synthesize output with rich structures such as natural language descriptions. In this paper, we propose a novel generative adversarial network, RankGAN, for generating high-quality language descriptions. Rather than training the discriminator to learn and assign absolute binary predicate for individual data sample, the proposed RankGAN is able to analyze and rank a collection of human-written and machine-written sentences by giving a reference group. By viewing a set of data samples collectively and evaluating their quality through relative ranking scores, the discriminator is able to make better assessment which in turn helps to learn a better generator. The proposed RankGAN is optimized through the policy gradient technique. Experimental results on multiple public datasets clearly demonstrate the effectiveness of the proposed approach.
연구 동기 및 목표
- 동기: GAN에서 이진 판별기를 넘어서는 방식으로 언어 생성을 개선한다.
- 목표: 상대적 순위 정보로부터 학습하여 더 높은 품질의 자연어를 생성한다.
- 목표: 최첨단 방법과 비교하여 여러 공개 데이터셋에서 RankGAN의 효과를 입증한다.
제안 방법
- 생성기 G와 랭커 R로 구성된 이중 네트워크 아키텍처.
- 랭커는 임베디드 공간에서 코사인 유사도를 사용하여 후보 문장을 기준 문장과 비교해 상대적 순위 점수를 계산합니다.
- 생성기는 이산 텍스트 출력 처리를 위해 정책 기울기와 몬테카를로 롤아웃으로 학습합니다.
- 랭킹 점수는 기준 문장을 포함하는 후보 집합에 대해 소프트맥스와 유사한 함수로 계산됩니다.
- 학습은 G가 기준에 대해 인간이 쓴 문장보다 더 높은 순위를 얻도록 하는 미니맥스 목표를 사용합니다.
- 랭커 학습은 인간이 쓴 문장과 기계가 생성한 문장을 대조하는 순위 목표를 최대화합니다.
실험 결과
연구 질문
- RQ1랭킹 기반 디스크리미네이터가 언어 생성에서 이진 분류기보다 더 풍부한 피드백을 제공할 수 있을까?
- RQ2RankGAN은 다양한 언어 작업과 데이터셋에서 생성 품질을 향상시킬 수 있을까?
- RQ3랭킹 기반 보상과 함께 정책 기울기가 텍스트 생성기를 학습하는 데 얼마나 효과적인가?
- RQ4참조 세트와 비교 세트의 크기가 RankGAN 성능에 어떤 영향을 미치는가?
주요 결과
- RankGAN은 합성 데이터에서 음의 로그 가능도 측면에서 SeqGAN 및 다른 기준선보다 우수하다.
- RankGAN은 중국 시, COCO 캡션, 셰익스피어 데이터에서 BLEU-2/BLEU-3/BLEU-4 점수가 기준선보다 높다.
- 중국 시와 COCO 캡션에서 인간 평가 점수가 RankGAN으로 생성된 텍스트를 SeqGAN보다 더 선호한다.
- RankGAN은 자동 지표와 인간 판단 모두에서 언어의 유창성과 다양성이 향상되었음을 보여준다.
- 랭킹 기반 목표가 생성기 학습을 안내하는 데 BLEU 기반 보상보다 더 정보적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.