QUICK REVIEW

[論文レビュー] TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning

Kexin Wang, Nils Reimers|arXiv (Cornell University)|Apr 14, 2021

Topic Modeling参考文献 35被引用数 44

ひとこと要約

TSDAE は Transformer ベースの教師なし手法で、逐次デノイジング自己符号化を通じて文の埋め込みを学習し、従来の教師なし手法を上回り、多様なドメインタスクで教師ありモデルに近づく。

ABSTRACT

Learning sentence embeddings often requires a large amount of labeled data. However, for most tasks and domains, labeled data is seldom available and creating it is expensive. In this work, we present a new state-of-the-art unsupervised method based on pre-trained Transformers and Sequential Denoising Auto-Encoder (TSDAE) which outperforms previous approaches by up to 6.4 points. It can achieve up to 93.1% of the performance of in-domain supervised approaches. Further, we show that TSDAE is a strong domain adaptation and pre-training method for sentence embeddings, significantly outperforming other approaches like Masked Language Model. A crucial shortcoming of previous studies is the narrow evaluation: Most work mainly evaluates on the single task of Semantic Textual Similarity (STS), which does not require any domain knowledge. It is unclear if these proposed methods generalize to other domains and tasks. We fill this gap and evaluate TSDAE and other recent approaches on four different datasets from heterogeneous domains.

研究の動機と目的

ラベル付きデータがほとんどないまたは全くないドメインで、高品質な文埋め込みを動機づけ、実現する。
TSDAE を導入する。Transformer ベースの逐次デノイジングオートエンコーダーアーキテクチャ。
TSDAE が従来の教師なし手法を上回り、多様なタスクで教師ありモデルに近づくことを示す。
TSDAE のドメイン適応および事前学習目的としての有効性を示す。

提案手法

クロスアテンションは文の埋め込みのみをキーと値として使用する、エンコーダ-デコーダ型 Transformer。
入力文を単語削除で汚損させる（削除比率 0.6）して損傷入力を作成。
損傷入力から元の文埋め込みを再構築するよう訓練する（SDAE 目的）。
[CLS] トークンの固定サイズ埋め込みを文表現として用いる。
訓練時にエンコーダとデコーダのパラメータを結合して共有する。
ドメイン分散タスク（IR、RR、PI）で評価し、CT、SimCSE、BERT-flow、MLM、SBERT/USE のベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1TSDAE は異種ドメイン全体で高品質な教師なし文埋め込みを生み出せるか？
RQ2ドメイン特定タスクにおける他の教師なし文埋め込み手法と TSDAE はどのように比較されるか？
RQ3素の教師なし学習を超えて、事前学習およびドメイン適応の目的として TSDAE は有効か？
RQ4STS 以外の評価が教師なし手法の実際の下流タスク性能とどのように相関するか？

主な発見

TSDAE は多様なドメインタスクで従来の教師なし手法を最大6.4ポイント上回る。
TSDAE は評価対象タスクで、特定の教師あり事前学習モデル（例: USE-large）と同程度以上の性能を達成できる。
ドメイン適応: 教師なしの TSDAE に続いて教師ありの NLI+STS 訓練を行うと、逆方向より改善され、タスク間で平均的な利得が見られる。
事前学習: TSDAE は MLM など他のベースラインより事前学習目的として優れており、下流の教師あり性能で顕著な利得を提供。
STS のみの評価はドメイン特有タスクの性能と乖離が大きい。TSDAE は STS 中心手法と比較して実世界タスクでより大きな利得を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。