QUICK REVIEW

[論文レビュー] Text and Code Embeddings by Contrastive Pre-Training

Arvind Neelakantan, Tao Xu|arXiv (Cornell University)|Jan 24, 2022

Topic Modeling被引用数 149

ひとこと要約

本論文は、大規模なバッチを用いた未ラベルテキストとコードの大規模コントラストレーニングが高品質な埋め込みを生み出し、分類、検索、コード検索で強力な成果を達成し、監視付きファインチューニングモデルに対してしばしば対抗するか、それを凌駕する結果を示している。

ABSTRACT

Text embeddings are useful features in many applications such as semantic search and computing text similarity. Previous work typically trains models customized for different use cases, varying in dataset choice, training objective and model architecture. In this work, we show that contrastive pre-training on unsupervised data at scale leads to high quality vector representations of text and code. The same unsupervised text embeddings that achieve new state-of-the-art results in linear-probe classification also display impressive semantic search capabilities and sometimes even perform competitively with fine-tuned models. On linear-probe classification accuracy averaging over 7 tasks, our best unsupervised model achieves a relative improvement of 4% and 1.8% over previous best unsupervised and supervised text embedding models respectively. The same text embeddings when evaluated on large-scale semantic search attains a relative improvement of 23.4%, 14.7%, and 10.6% over previous best unsupervised methods on MSMARCO, Natural Questions and TriviaQA benchmarks, respectively. Similarly to text embeddings, we train code embedding models on (text, code) pairs, obtaining a 20.8% relative improvement over prior best work on code search.

研究の動機と目的

ペアデータ上の対照学習を用いて、高品質な教師なしテキストおよびコード埋め込みを開発する。
大規模なバッチサイズとスケールが分類、検索、およびコード取得の性能を向上させることを示す。
標準ベンチマークでの転移学習とゼロショット機能を評価する。
タスクごとに性能が異なるものの、トレーニングダイナミクスとモデルサイズおよびデータの影響を分析する。
大規模埋め込みモデルの広範な影響と計算に関する考慮事項について論じる。

提案手法

Transformerエンコーダを用いて、特殊なEOSトークンの最終隠れ状態を介して入力を埋め込みへマッピングする。
バッチ内ネガティブと学習可能な温度パラメータτを用いた対照目的で学習する。
テキストには自然発生的にペアとなるデータから正例ペアを構築する（テキストの隣接テキスト片、コードの場合は（テキスト, コード）ペア）。
CPT-textはGPT系モデルから、CPT-codeはCodexモデルから初期化して学習をブートストラップする。
非常に大きなバッチサイズを活用して効果的なハードネガティブマイニングを可能にし、表現を改善する。
埋め込みを線形プローブ分類、文の類似性、そして大規模なセマンティック検索、さらにコード検索の評価を行う。

実験結果

リサーチクエスチョン

RQ1大規模な未監視型コントラスト学習で、高品質なテキストとコード埋め込みを得られるか。
RQ2これらの埋め込みは線形プロービング分類、ゼロショット、k-NN、セマンティック/検索タスクでどのように性能を発揮するか。
RQ3モデルサイズとバッチサイズがタスク間で埋め込み品質に与える影響はどうか。
RQ4学習済み埋め込みはファインチューニングおよびBEIRスタイルのゼロショット評価でどれだけ転移性能を示すか。

主な発見

最大の教師なしテキストモデルは、7つの線形プローブタスクで従来の最高の教師なし埋め込みより4%の相対的改善、監視付きテキスト埋め込みよりも1.8%上回る。
大規模テキスト検索ベンチマークで、CPT-textはMSMARCOで23.4%、Natural Questionsで14.7%、TriviaQAで10.6%の相対改善を従来の教師なし手法より達成。
CPT-codeはCodeSearchNetで従来の最高のコード検索結果より20.8%の相対改善。
ゼロショットSST-2の結果では、6B CPT-textで88.1%の精度、 promptingで89.1%、256-NNで93.3%、線形プローブで95.7%、教師あり設定でほぼ全SOTAの97.5%に近づく。
BEIRでは、教師なしCPT-textの転移が従来の埋め込み手法より5.2%の相対改善を実現し、より重いテスト時計算ベースラインと競合する。
Code-searchの結果は、CPT-codeが言語を超えて従来手法を上回り、CPT-code S/MがCodeSearchNetベンチマークで最先端を達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。