Skip to main content
QUICK REVIEW

[논문 리뷰] TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning

Kexin Wang, Nils Reimers|arXiv (Cornell University)|2021. 04. 14.
Topic Modeling참고 문헌 35인용 수 44
한 줄 요약

TSDAE는 연속적 디노이징 오토인코딩을 통해 문장 임베딩을 학습하는 Transformer 기반의 비지도 학습 방법으로, 이전의 비지도 방법을 능가하고 다양한 도메인 작업에서 감독 모델에 근접합니다.

ABSTRACT

Learning sentence embeddings often requires a large amount of labeled data. However, for most tasks and domains, labeled data is seldom available and creating it is expensive. In this work, we present a new state-of-the-art unsupervised method based on pre-trained Transformers and Sequential Denoising Auto-Encoder (TSDAE) which outperforms previous approaches by up to 6.4 points. It can achieve up to 93.1% of the performance of in-domain supervised approaches. Further, we show that TSDAE is a strong domain adaptation and pre-training method for sentence embeddings, significantly outperforming other approaches like Masked Language Model. A crucial shortcoming of previous studies is the narrow evaluation: Most work mainly evaluates on the single task of Semantic Textual Similarity (STS), which does not require any domain knowledge. It is unclear if these proposed methods generalize to other domains and tasks. We fill this gap and evaluate TSDAE and other recent approaches on four different datasets from heterogeneous domains.

연구 동기 및 목표

  • 레이블 데이터가 거의 없거나 전혀 없는 도메인에서도 고품질의 문장 임베딩을 만들고 활용하도록 동기를 부여한다.
  • TSDAE, Transformer 기반의 순차적 디노이징 오토인코더 아키텍처를 소개한다.
  • TSDAE가 이전의 비지도 방법을 능가하고 다양한 작업에서 감독 모델에 근접함을 보여준다.
  • 도메인 적응 및 사전 학습 목표로서 TSDAE의 효과를 입증한다.

제안 방법

  • 교차 어텐션이 문장 임베딩만을 키와 값으로 사용하는 인코더-디코더 Transformer.
  • 입력 문장을 단어 삭제(삭제 비율 0.6)로 손상된 입력으로 만든다.
  • 손상된 입력으로부터 원래의 문장 임베딩을 재구성하도록 학습한다 (SDAE 목적).
  • [CLS] 토큰으로부터 고정 크기 임베딩을 문장 표현으로 사용한다.
  • 학습 중 인코더와 디코더 파라미터를 공유한다.
  • 도메인 다양 작업(IR, RR, PI)에서 평가하고 CT, SimCSE, BERT-flow, MLM, SBERT/USE 베이스라인과 비교한다.

실험 결과

연구 질문

  • RQ1TSDAE가 이질적인 도메인 전반에서 고품질의 비지도 문장 임베딩을 생성할 수 있는가?
  • RQ2도메인 특정 작업에서 TSDAE가 다른 비지도 문장 임베딩 방법과 어떻게 비교되는가?
  • RQ3일반적인 비지도 학습을 넘어서 사전 학습 및 도메인 적응 목표로서 TSDAE가 효과적인가?
  • RQ4STS를 넘는 평가가 비지도 방법의 실제 다운스트림 작업 성과와 어떻게 상관관계가 있는가?

주요 결과

  • TSDAE는 다양한 도메인 작업에서 최대 6.4포인트까지 기존의 비지도 방법을 능가한다.
  • TSDAE는 평가된 작업에서 특정 감독 사전 학습 모델(예: USE-large)과 동등하거나 그 이상 수준의 성능에 도달할 수 있다.
  • 도메인 적응: 비지도 TSDAE를 먼저 학습한 뒤 감독 NLI+STS 학습을 수행하면 역방향보다 성능이 향상되며, 작업 전반에 걸쳐 평균 이득이 관찰된다.
  • 사전 학습: TSDAE가 MLM 및 다른 베이스라인보다 사전 학습 목표로서 뛰어나며 다운스트림 감독 성능에서 뚜렷한 향상을 제공한다.
  • STS-전용 평가가 도메인 특정 작업 성능과의 상관관계가 낮다; TSDAE는 STS 중심 방법에 비해 실제 작업에서 더 큰 이득을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.