QUICK REVIEW

[論文レビュー] BERTScore: Evaluating Text Generation with BERT

Tianyi Zhang, Varsha Kishore|arXiv (Cornell University)|Apr 21, 2019

Topic Modeling参考文献 86被引用数 2,019

ひとこと要約

BERTScoreは、トークンレベルの文脈埋め込みを比較（BERT系を含む）し、貪欲なトークンマッチングを用いて適合率、再現率、F1を計算することで、従来のn-gram指標より人間の判断と相関し、敵対的パラフレーズに対して堅牢である。多くのシステムにわたる機械翻訳と画像キャプション生成タスクで実証されている。

ABSTRACT

We propose BERTScore, an automatic evaluation metric for text generation. Analogously to common metrics, BERTScore computes a similarity score for each token in the candidate sentence with each token in the reference sentence. However, instead of exact matches, we compute token similarity using contextual embeddings. We evaluate using the outputs of 363 machine translation and image captioning systems. BERTScore correlates better with human judgments and provides stronger model selection performance than existing metrics. Finally, we use an adversarial paraphrase detection task to show that BERTScore is more robust to challenging examples when compared to existing metrics.

研究の動機と目的

表層的な類似性を超えた自動的なテキスト生成評価の動機づけ。
事前学習済みの文脈埋め込みを用いたトークンレベルの文脈対応類似度指標を提案する。
人間の判断との相関とモデル選択能力を評価するため、機械翻訳と画像キャプション生成におけるBERTScoreを評価する。
性能へのidf重み付けと異なる文脈モデルの影響を調査する。
実務での使用方法と頑健性に関する指針を提供する。

提案手法

事前学習モデル（主にBERT、RoBERTa、XLNet、XLM系を含む）から得られる文脈埋め込みでトークンを表現する。
ペアワイズのトークンコサイン類似度を計算し、貪欲法によるマッチングを用いて再現と適合の構成要素を形成する。
適合と再現をF1スコアとして結合し、BERTScoreとする。
情報量の多い語を強調するため、トークンにidfベースの重み付けを任意で適用する。
ランキングに影響を与えず可読性を向上させるため、ランダムなCommon Crawl文ペアから計算された基準値bを用いてスコアを再スケーリングする。
MT（WMT18）と画像キャプション（COCO）全体で評価し、標準的なベースラインと比較し、モデル選択実験を行う。

実験結果

リサーチクエスチョン

RQ1MTと画像キャプションにおけるシステムレベルおよびセグメントレベルで、BERTScoreは人間の判断とどの程度相関するか？
RQ2文脈埋め込みベースのトークンマッチングは、n-gramや埋め込みベースのベースラインより利点があるか？
RQ3idf重み付けと異なる文脈モデルがBERTScoreの性能に与える影響は何か？
RQ4MTタスクにおいて、BERTScoreはモデル選択・ランキングに効果的に利用できるか？
RQ5他の指標と比較して、敵対的パラフレーズ例に対するBERTScoreの頑健性はどの程度か？

主な発見

BERTScoreは人間の判断との高い相関を示し、多くのMT言語ペアと方向でBleuなど従来の指標や他のベースラインを上回ることが多い。
F1ベースのBERTScoreは設定を問わず信頼性の高い性能を示し、推奨デフォルトとなる。
idf重み付けは一部の状況で modest gains をもたらすが、ドメインと言語によって効果が異なる。全体としては重み付けを省略するか、選択的に適用する。
BERTScoreはWMT18ハイブリッドシステム実験で強いモデル選択性能を示し、指標の中でしばしば上位にランクされる。
画像キャプション生成では、タスク非依存指標を上回り、表層形式指標が弱い場面でも頑健であり、idfの有益性が顕著である。
敵対的パラフレーズデータセット（PAWS QQP）に対する頑健性分析は、BERTScoreが他の指標より低下が小さいことを示し、より耐性が高いことを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。