QUICK REVIEW

[論文レビュー] Learning Semantic Textual Similarity from Conversations

Yinfei Yang, Steve Yuan|arXiv (Cornell University)|Apr 20, 2018

Topic Modeling参考文献 21被引用数 31

ひとこと要約

本論文では、入力発話から会話応答を予測するようにモデルを訓練することで、文レベルの意味的テクスト類似度を教師なしで学習する新しい手法を提案する。Redditの会話データを用いて事前学習し、SNLI自然言語推論データで微調整することで、STSベンチマークで最先端の性能を達成し、SemEval CQA質問類似度タスクでも競争力のある結果を示した。これにより、応答予測が意味的表現を内蔵的に捉えていることが示された。

ABSTRACT

We present a novel approach to learn representations for sentence-level semantic similarity using conversational data. Our method trains an unsupervised model to predict conversational input-response pairs. The resulting sentence embeddings perform well on the semantic textual similarity (STS) benchmark and SemEval 2017's Community Question Answering (CQA) question similarity subtask. Performance is further improved by introducing multitask training combining the conversational input-response prediction task and a natural language inference task. Extensive experiments show the proposed model achieves the best performance among all neural models on the STS benchmark and is competitive with the state-of-the-art feature engineered and mixed systems in both tasks.

研究の動機と目的

教師付きSTSアノテーションに依存せずに、一般用途の文埋め込みを学習し、意味的類似度を捉える手法の開発。
会話データが、頑健な文表現を学習するための事前学習目的として機能するかを調査すること。
これらの表現が、意味的テクスト類似度および質問類似度タスクへのゼロショット転送においてどの程度有効であるかを評価すること。
会話応答予測と自然言語推論を組み合わせたマルチタスク学習により、性能を向上させること。

提案手法

モデルは、入力と応答の両方の文を固定長ベクトルに埋め込む共通エンコーダーを用い、ドット積スコアメカニズムで候補の中から正しい応答を予測する。
応答埋め込みにフィードフォワードネットワークを適用して、入力と応答の間の意味的差をモデル化し、予測精度を向上させる。
2つのエンコーダー構造が評価された：ディープアベイラージングネットワーク（DAN）とトランスフォーマーモデルで、後者が実験で優れた性能を示した。
モデルは、バッチネガティブを用いたコントラスト学習目的でReddit会話データで事前学習され、各応答はその入力に対してはポジティブであり、バッチ内の他の文に対してはネガティブである。
マルチタスク学習では、会話応答予測タスクとSNLIデータセットにおける教師付き自然言語推論（NLI）タスクを組み合わせ、一般化性能を向上させる。
文埋め込みはSTSおよびCQAタスクでコサイン類似度により評価され、追加の相互作用や文脈的特徴は一切使用されなかった。

実験結果

リサーチクエスチョン

RQ1会話データは、意味的テクスト類似度に一般化する文埋め込みを学習するための事前学習目的として利用可能か？
RQ2会話データのみで訓練されたモデルとNLIデータで微調整されたモデルとを比較した場合、STSおよびCQAタスクでの性能はどのように異なるか？
RQ3教師なし会話データから学習された表現が、ゼロショット意味類似度タスクにどの程度転送可能か？
RQ4会話データとNLIデータの両方を用いたマルチタスク学習は、単独で使用する場合よりも性能を向上させるか？

主な発見

Redditのみで訓練されたモデルは、STSベンチマークでピアソン相関係数0.85を達成し、意味的類似度タスクにおける強力なゼロショット性能を示した。
Reddit+SNLIマルチタスクモデルは、STSベンチマークでニューラルモデルの中で最先端の性能を達成し、NLIデータのみで訓練されたモデルを上回った。
SemEval 2017 CQAサブタスクBでは、Reddit+SNLIモデルがMAP 47.42を達成し、タスク固有のチューニングなしで公式1位のシステム（SimBow-primary、MAP 47.22）を上回った。
STSでの性能は、Reddit学習データの40％程度を用いた段階で安定化し、少数のドメイン特化データでも効率的にドメイン固有タスクに適応できることを示した。
トランスフォーマー・エンコーダーは、すべての実験でDANおよびLSTMベースのモデルを上回り、このタスクにおける有効性を確認した。
モデルは、教師なし会話応答予測が意味的類似度を内蔵的に捉えていることを示しており、予測された応答と意味的に類似した入力との間で高い相関が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。