QUICK REVIEW

[論文レビュー] COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining

Meng Yu, Chenyan Xiong|arXiv (Cornell University)|Feb 16, 2021

Topic Modeling参考文献 70被引用数 129

ひとこと要約

COCO-LM は、破損したテキストトークンを同時に訂正し、破損/切り出しされた系列を対比することによって言語モデルを事前学習し、効率を改善しつつ GLUE/SQuAD で最先端の結果を達成します。

ABSTRACT

We present a self-supervised learning framework, COCO-LM, that pretrains Language Models by COrrecting and COntrasting corrupted text sequences. Following ELECTRA-style pretraining, COCO-LM employs an auxiliary language model to corrupt text sequences, upon which it constructs two new tasks for pretraining the main model. The first token-level task, Corrective Language Modeling, is to detect and correct tokens replaced by the auxiliary model, in order to better capture token-level semantics. The second sequence-level task, Sequence Contrastive Learning, is to align text sequences originated from the same source input while ensuring uniformity in the representation space. Experiments on GLUE and SQuAD demonstrate that COCO-LM not only outperforms recent state-of-the-art pretrained models in accuracy, but also improves pretraining efficiency. It achieves the MNLI accuracy of ELECTRA with 50% of its pretraining GPU hours. With the same pretraining steps of standard base/large-sized models, COCO-LM outperforms the previous best models by 1+ GLUE average points.

研究の動機と目的

標準的な MLM/ELECTRA フレームワークを超えた、より効率的で効果的な事前学習を動機づける。
トークンレベルの意味論とシーケンス表現に対処する新しい事前学習タスクを2つ導入する: Corrective Language Modeling (CLM) と Sequence Contrastive Learning (SCL)。
COCO-LM が前処理計算の削減とともに GLUE および SQuAD でより高い精度を達成することを示す。
このアプローチが表現空間におけるトークン表現の改善と整列/一様性をもたらすことを示す。

提案手法

ELECTRA に似た補助的な生成モデルを用いて入力系列を破損させる。
主モデルの Transformer を以下で訓練する: 置換されたトークンを検出・訂正する CLM; 破損した系列を切り出し元と一致させる SCL。
CLM はコピー機構と言語モデリング損失をマルチタスク設定で組み合わせる。
SCL は対になる (破損) と (切り出し) の正例とランダムな負例を用いて系列表現に対するコントラスト損失を適用する。
全体の目的関数は L_COCO-LM = L_Aux.MLM + L_Main.CLM + L_Main.SCL。
補助モデルを小型ながらも能力を持たせ、主モデルは標準の BERT/ELECTRA アーキテクチャに従うネットワーク構成を提供する。

実験結果

リサーチクエスチョン

RQ1破損したトークンを訂正し、破損と切り出しのシーケンスを対比することは、事前学習の効率と下流の性能を改善するか？
RQ2CLM と SCL は、トークンレベルの意味論とシーケンスレベルの表現空間に対して補完的な利点を提供するか？
RQ3等しいトレーニング予算の下で、COCO-LM は GLUE および SQuAD において ELECTRA と RoBERTa とどう比較されるか？
RQ4データ拡張の強さ（crop fraction）とアーキテクチャの選択が性能と一般化に与える影響は？

主な発見

COCO-LM は base、base++、large++ の設定を通じて GLUE 平均と SQuAD で最近の最先端事前学習モデルを上回る。
同じ事前学習設定の下で、COCO-LM は RoBERTa および ELECTRA の MNLI 正確度を、それぞれ GPU 時間の 60% と 50% で達成する。
同じステップ数で、COCO-LM/Base++ は従来の最高モデルを GLUE 平均で 1 点以上上回る。
367M パラメータの COCO-LM/Large++ は MNLI の精度を Megatron 3.9B に匹敵させる。
SCL は表現の整列と一様性を改善し、退化を抑え、少数ショット一般化を強化する。CLM は破損した系列上で堅牢なトークンレベルのモデリングを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。