[논문 리뷰] Delete, Retrieve, Generate: A Simple Approach to Sentiment and Style Transfer
논문은 속성 표지를 위치시키고 삭제한 뒤 대상 속성 샘플을 검색하고 유창한 출력을 생성하는 간단한 비지도 학습 방식으로 텍스트 속성 이전을 수행하며, 사람 평가에서 적대적 모델들을 능가하는 성과를 보인다.
We consider the task of text attribute transfer: transforming a sentence to alter a specific attribute (e.g., sentiment) while preserving its attribute-independent content (e.g., changing "screen is just the right size" to "screen is too small"). Our training data includes only sentences labeled with their attribute (e.g., positive or negative), but not pairs of sentences that differ only in their attributes, so we must learn to disentangle attributes from attribute-independent content in an unsupervised way. Previous work using adversarial methods has struggled to produce high-quality outputs. In this paper, we propose simpler methods motivated by the observation that text attributes are often marked by distinctive phrases (e.g., "too small"). Our strongest method extracts content words by deleting phrases associated with the sentence's original attribute value, retrieves new phrases associated with the target attribute, and uses a neural model to fluently combine these into a final output. On human evaluation, our best method generates grammatical and appropriate responses on 22% more inputs than the best previous system, averaged over three attribute transfer datasets: altering sentiment of reviews on Yelp, altering sentiment of reviews on Amazon, and altering image captions to be more romantic or humorous.
연구 동기 및 목표
- 일치하지 않는 데이터와 제한된 속성 라벨 문장을 가진 텍스트 속성 전이의 동기를 제시한다.
- 내용(content)와 속성 표지(marker)를 분리하는 더 간단하고 학습 가능한 방법들을 제안한다.
- 속성 표지를 제거하고 대상 표지로 재구성하면 유창한 출력이 생성됨을 보여준다.
- 검색 강화 생성이 기초 방법들 및 이전의 적대적 모델보다 문법성 및 속성 정확성을 향상시킨다는 것을 보여준다
제안 방법
- 속성 라벨 코퍼스 간의 상대 빈도를 비교하여 차별적 n-그램으로 속성 표지 식별
- Delete: 소스 문장에서 높은 융합성을 가진 속성 표지를 제거하여 콘텐츠를 얻는다
- Retrieve: TF-IDF 겹침이나 콘텐츠 임베딩 거리를 사용하여 유사한 콘텐츠를 가진 대상 속성 문장을 검색한다
- Generate: 콘텐츠와 대상 속성 표지를 조합하는 TemplateBased 방법이나 신경망 모델을 이용한 방법(DeleteOnly, DeleteAndRetrieve)을 통해 생성하되, 검색된 대상 표지에 조건부로 의존할 수 있다
- 콘텐츠와 소스 속성으로부터 문장을 재구성하도록 DeleteOnly를 오토인코더 objective로 학습한다
- Denosing을 통해 트리비ial한 이음매는 방지하고 검색된 표지의 활용으로 유창한 생성을 가능하게 하는 DeleteAndRetrieve를 학습한다
실험 결과
연구 질문
- RQ1속성 특정 구절을 삭제하고 검색 및 생성을 통해 대상 속성을 재도입함으로써 텍스트 속성 전이가 달성될 수 있는가?
- RQ2더 단순하고 비적대적 접근이 인간 평가에서 감정/스타일 전이任务에서 적대적으로 학습된 모델을 능가하는가?
- RQ3검색된 대상 표지에 조건부 의존하는 것이 전이 출력의 문법성과 콘텐츠 보존에 어떤 영향을 미치는가?
주요 결과
- 속성 표지를 삭제하고 대상 속성 콘텐츠를 검색하는 간단한 기준선이 이전의 적대적 시스템을 인간 평가에서 유의미한 차이로 능가한다.
- 가장 강력한 신경 변형인 DeleteAndRetrieve가 세 개 데이터셋에서 최상의 전반적 성능을 달성하고 다른 모든 자동 접근법을 능가한다.
- Yelp, Amazon, Captions 전반에서 최적 방법이 이전 방법들보다 더 높은 문법성, 콘텐츠 보존, 대상 속성 매칭을 달성한다.
- 인간 평가에서 최적 방법(DeleteAndRetrieve)이 다른 시스템을 문법성, 콘텐츠 보존 및 속성 매치에서 능가하며, 표지 삭제 임계값으로 명확한 트레이드오프를 조정할 수 있다
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.