[論文レビュー] DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations
DeCLUTR は自己監視型の対照目的を導入し、近接したテキストから抽出されたアンカーとポジティブスパンを対比させることで universal sentence embeddings を学習します。MLM の事前学習を拡張して、強力な自己監視型の文表現を生み出します。
Sentence embeddings are an important component of many natural language processing (NLP) systems. Like word embeddings, sentence embeddings are typically learned on large text corpora and then transferred to various downstream tasks, such as clustering and retrieval. Unlike word embeddings, the highest performing solutions for learning sentence embeddings require labelled data, limiting their usefulness to languages and domains where labelled data is abundant. In this paper, we present DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations. Inspired by recent advances in deep metric learning (DML), we carefully design a self-supervised objective for learning universal sentence embeddings that does not require labelled training data. When used to extend the pretraining of transformer-based language models, our approach closes the performance gap between unsupervised and supervised pretraining for universal sentence encoders. Importantly, our experiments suggest that the quality of the learned embeddings scale with both the number of trainable parameters and the amount of unlabelled training data. Our code and pretrained models are publicly available and can be easily adapted to new domains or used to embed unseen text.
研究の動機と目的
- ラベルなしデータだけで普遍的な文表現を学習する動機づけ。
- Deep Metric Learning (DML) に触発された自己監視的目的を設計して文エンコーダを訓練する。
- 対照学習と MLM の事前学習を組み合わせることで下流の文タスクが改善されることを示す。
- モデルサイズとデータ量に対するスケーリング挙動を示す。
- ドメイントランスファーのためのオープンソースコードと事前学習済みモデルを提供する。
提案手法
- 固定長の埋め込みを得るために、変圧器エンコーダ f(·) と平均プーリングプーラー g(·) を用いる。
- ミニバッチ内の他のスパンをネガティブとして扱いながら、アンカーとポジティブスパンを合わせて引き寄せる対照的な NT-Xent 損失で訓練する。
- 文書内の近接したテキストからアンカーとポジティブスパンを採取する。アンカースパンはポジティブより長く、包含的/全体的なビュー学習を可能にする。
- 提案された対照的目的を MLM 損失とともに、既存の MLM モデル(DistilRoBERTa または RoBERTa-base)の追加事前学習を継続する。
- スパンのサンプリングはベータ分布の長さを用いて、文から段落規模のテキストをカバーし、アンカーとポジティブは同一文書から抽出される。
- 性能と語学的性質の両方を評価するため、18 の下流タスクと 10 の probing タスクで SentEval を用いて評価する。
- オープンソースのコードと事前学習済みモデルはプロジェクトリポジトリで公開される。
実験結果
リサーチクエスチョン
- RQ1ラベルなしデータなしで自己監視型の対照的目的が普遍的な文表現を生み出せるか?
- RQ2対照的目的を組み込んだ MLM の事前学習の拡張は、ベースラインの事前学習モデルと比べて下流の文タスクにどのような影響を与えるか?
- RQ3学習済み埋め込みの品質を最適化する設計選択とデータ規模は何か?
- RQ4学習された埋め込みは probing タスクで測定されるような言語情報を保持するか?
主な発見
- DeCLUTR-base および DeCLUTR-small の事前学習モデルは、基盤となる事前学習済みトランスフォーマーよりも平均的な下流の SentEval パフォーマンスを大幅に改善する(例:DeCLUTR-base Avg 79.10 対 Transformer-base Avg 72.19)。
- DeCLUTR-base は、多くの下流タスクで、ラベルデータなしで監視付き/半監視付きのベースラインと同等かそれ以上に達する。
- probing タスクでは、DeCLUTR モデルは下位の事前学習モデルに匹敵する言語情報を保持する。一方、いくつかの監督付きファインチューニングの代替ではそうではない。
- 性能はモデルサイズと未ラベルの訓練データ量とともに拡大し、より大きなモデルやより多くのデータでさらなる向上が見込まれる。
- 本手法は既存の教師なしベースライン(例:QuickThoughts)と競合し、場合によっては上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。