QUICK REVIEW

[論文レビュー] SemScore: Automated Evaluation of Instruction-Tuned LLMs based on Semantic Textual Similarity

Ansar Aynetdinov, Alan Akbik|arXiv (Cornell University)|Jan 30, 2024

Natural Language Processing Techniques被引用数 8

ひとこと要約

SemScore は、instruction-tuned LLM の出力を正解ターゲットとの意味的類似度を測定することにより評価し、12モデルにわたる9つの指標の中で人間の判断と最も高い相関を示した。

ABSTRACT

Instruction-tuned Large Language Models (LLMs) have recently showcased remarkable advancements in their ability to generate fitting responses to natural language instructions. However, many current works rely on manual evaluation to judge the quality of generated responses. Since such manual evaluation is time-consuming, it does not easily scale to the evaluation of multiple models and model variants. In this short paper, we propose a straightforward but remarkably effective evaluation metric called SemScore, in which we directly compare model outputs to gold target responses using semantic textual similarity (STS). We conduct a comparative evaluation of the model outputs of 12 prominent instruction-tuned LLMs using 8 widely-used evaluation metrics for text generation. We find that our proposed SemScore metric outperforms all other, in many cases more complex, evaluation metrics in terms of correlation to human evaluation. These findings indicate the utility of our proposed metric for the evaluation of instruction-tuned LLMs.

研究の動機と目的

時間のかかる手動判断を置換するため、instruction-tuned LLM のスケーラブルで自動化された評価を動機づける。
さまざまな指示追従タスクを評価する際の従来のn-gram指標の限界を評価する。
シンプルで効果的な意味的類似性ベースの指標（SemScore）を提案し、人間のランキングと既存の指標を比較する。
モデルとタスク全体にわたる SemScore の頑健性について洞察を提供する。

提案手法

SemScore を計算するには、モデル出力とターゲット応答を sentence transformer (all-mpnet-base-v2) で埋め込み、コサイン類似度を取る。
252 の指示に対して、12モデル（GPT-4、GPT-3.5-turbo、text-davinci 系、LLaMA、Alpaca）について人間評価を収集する。
8 つのベースラインのテキスト生成指標（BLEU、ROUGE-L、BERTScore、BLEURT、BARTScore、BARTScore para、DiscoScore、G-Eval）と SemScore を評価する。
Kendall’s tau と Pearson r を用いて自動指標スコアと人間のランキングとの相関を相関付ける。
アブレーション: 異なる pooling 戦略（CLS vs mean-pooling）および代替のトランスフォーマーを用いた SemScore を比較する。

実験結果

リサーチクエスチョン

RQ1SemScore は 8 個の既存指標と比較して人間の判断との相関にどの程度一致するか？
RQ2単純な埋め込みベースの STS アプローチは、多様なタスクにおける instruction-tuned LLM の出力を評価するのに十分か？
RQ3基盤となるトランスフォーマーと pooling 戦略が SemScore の性能に与える影響は？
RQ4instruction-tuned モデルは、人間の評価における非 instruction-tuned ベースラインと比較してどのようにランク付けされるか？

主な発見

指標	Kendall τ	Pearson r
SemScore	0.879	0.970
G-Eval-4 *	0.855	0.863
G-Eval-3.5 *	0.855	0.831
BERTScore	0.848	0.944
G-Eval-3.5-instruct	0.840	0.911
ROUGE-L	0.788	0.933
BARTScore	0.788	0.621
BARTScore para	0.697	0.884
BLEU	0.667	0.865
BLEURT	0.485	0.485
DiscoScore	0.364	0.583

SemScore は、検証されたすべての指標の中で最も人間の判断との相関が高い（ Kendall τ = 0.879, Pearson r = 0.970）。
SemScore は、報告された設定下で G-Eval のような LLM ベースの評価者より人間のランキングとの相関で上回る。
埋め込みベースの指標の中では、SemScore は評価データセットに対して BertScore をわずかに上回る。
アブレーションは、all-mpnet-base-v2 と通常の pooling を用いた SemScore が DeBERTa 系よりも良い性能を示すことを示した。
G-Eval と BertScore も高い相関を示すが、本研究では SemScore がトップパフォーマーのままである。
方法はシンプルで再現性が高く、専有的な評価者への特別なアクセスを必要としない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。