QUICK REVIEW

[論文レビュー] Discourse-Based Objectives for Fast Unsupervised Sentence Representation Learning

Yacine Jernite, Samuel R. Bowman|arXiv (Cornell University)|Apr 23, 2017

Topic Modeling参考文献 27被引用数 111

ひとこと要約

この論文は、ラベルなしテキストから文を表現する高速な完全識別的ディスコースベースの目的を3つ導入し、訓練時間を大幅に短縮しつつ外部性能で競争力を示す。

ABSTRACT

This work presents a novel objective function for the unsupervised training of neural network sentence encoders. It exploits signals from paragraph-level discourse coherence to train these models to understand text. Our objective is purely discriminative, allowing us to train models many times faster than was possible under prior methods, and it yields models which perform well in extrinsic evaluations.

研究の動機と目的

ディスコースのコヒーレンス信号を用いて、文のエンコーダの高速な無監督事前学習を動機づけ、可能にする。
段落レベルのディスコース関係を活用する3つの識別的目的を提案する。
共同マルチタスク学習が表現品質を向上させることを示す。
標準的なテキスト分類ベンチマークで学習済み表現を評価し、競争力のある性能と速度を示す。

提案手法

高速なコヒーレンスベースの事前学習タスクを3つ定義する: 隣接文の二項並べ替え、段落からの次文選択、初期の接続詞に基づく結合詞予測。
複数の言語表現を共有する文エンコーダ（CBOW、GRU、FastText埋め込みを用いたBiGRU）を、3つの双線形分類器と共同で訓練する。
BiGRU に対して、8時間のウィンドウでタスク間を最適化するためにサブサンプリングを伴う AdaGrad を使用する。
単一タスク学習とマルチタスク学習を比較し、内部性能と外部性能を評価する。
学習表現空間における定性的な最近傍分析を提供する。

実験結果

リサーチクエスチョン

RQ1高速な識別的目的は、無監督の文表現学習のためのディスコースコヒーレンス信号を捉えられるか？
RQ23つのディスコースベースの目的を用いたマルチタスク学習は、シングルタスク設定よりエンコーダの品質を向上させるか？
RQ3これらの目的の下で、CBOW、GRU、BiGRUといった異なるエンコーダアーキテクチャは速度と性能の点でどう比較されるか？
RQ4標準的な文分類タスクで、学習済み表現が達成する外部性能はどの程度か？
RQ5DiscSent 表現は、既存の無監督事前学習法（例: Skip Thought、SDAE）と速度と精度の点でどう比較されるか？

主な発見

モデル	時間	MSRP	TREC	SUBJ
FastSent 1	≈13h	72.2	76.8	88.7
FastSent+AE 1	71.2	80.4	88.8
SDAE 1	192h	76.4	77.6	89.3
SDAE+embed 1	73.7	78.4	90.8
SkipT biGRU 2	336h	71.2	89.4	92.5
SkipT GRU 2	73.0	91.4	92.1
SkipT+feats 2	75.8	92.2	93.6
Ordering model 3	48h	72.3	–	–
Ordering+embed 3	74.0	–	–	–
+embed+SkipT 3	74.9	–	–	–
DiscSent biGRU	8h	71.6	81.0	88.6
DiscSent+unigram	72.5	87.9	92.7
DiscSent+embed	75.0	87.2	93.0

3つのディスコースベースの目的を用いた共同訓練は、単一タスク訓練より内部性能が向上する。
BiGRUモデルは内部タスクでCBOWとGRUを上回り、DiscSentは外部タスクで競争力のある結果を達成する。
DiscSentベースの表現はMSRP、TREC、SUBJのいくつかのベースラインに匹敵するか超えるが、訓練時間ははるかに少ない。
DiscSentの変種で unigram や embedding augmentation を用いると下流タスクの性能がさらに改善される。
このアプローチは日数や週ではなく数時間で訓練でき、スケーラブルな無監督事前学習を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。