Skip to main content
QUICK REVIEW

[論文レビュー] The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters for Implicature Resolution by LLMs

Laura Ruis, Akbir Khan|arXiv (Cornell University)|Oct 26, 2022
Natural Language Processing Techniques被引用数 21
ひとこと要約

本論文は、微調整戦略が大規模言語モデル(LLM)の会話上の含意を解決する能力に与える影響を評価し、例レベルの指示調整が最良の語用理解をもたらすことを示し、GPT-4がチェーン・オブ・思考 promptingを用いると平均的な人間レベルの性能に達する。

ABSTRACT

Despite widespread use of LLMs as conversational agents, evaluations of performance fail to capture a crucial aspect of communication: interpreting language in context -- incorporating its pragmatics. Humans interpret language using beliefs and prior knowledge about the world. For example, we intuitively understand the response "I wore gloves" to the question "Did you leave fingerprints?" as meaning "No". To investigate whether LLMs have the ability to make this type of inference, known as an implicature, we design a simple task and evaluate four categories of widely used state-of-the-art models. We find that, despite only evaluating on utterances that require a binary inference (yes or no), models in three of these categories perform close to random. However, LLMs instruction-tuned at the example-level perform significantly better. These results suggest that certain fine-tuning strategies are far better at inducing pragmatic understanding in models. We present our findings as the starting point for further research into evaluating how LLMs interpret language in context and to drive the development of more pragmatic and useful models of human discourse.

研究の動機と目的

  • コミュニケーションにおける含意理解を、重要で過小評価されがちな側面として位置づける。
  • 人間と複数のモデルクラスを含む堅牢な評価プロトコルを用いた含意解決タスクを設計する。
  • 多様なモデルファミリーに対してゼロショットおよびFew-shot性能を評価する。
  • LLMsにおける語用理解を最も促進する微調整戦略を特定する。

提案手法

  • 自然な会話含意のデータセットを用いた二値の含意解決タスクを定義する。
  • ベースの事前学習モデル、対話微調整モデル、ベンチマーク指示チューニングモデル、例レベル指示チューニングモデルの4グループで評価する。
  • 六つのテンプレートを用いたゼロショットおよびFew-shot(k = 1,5) prompting でプロンプトの感度を検証する。
  • インコンテキスト prompting とチェーン・オブ・思考 prompting を適用し、スケーリングと推論効果を評価する。
  • 人間のアノテーション(平均 86.2%)とモデルの性能を比較する。
  • モデルサイズとプロンプトタイプに応じて改善が持続するかを評価する。

実験結果

リサーチクエスチョン

  • RQ1LLMsは会話の含意を解決できるのか、ヒトと比べて性能はどうか?
  • RQ2異なる微調整戦略(ベース、対話FT、ベンチマークIT、例IT)が語用理解にどう影響するか?
  • RQ3Few-shot学習とチェーン・オブ・思考 prompting が含意解決に与える影響は?
  • RQ4各微調整カテゴリ内でモデルサイズが含意解決に与える影響はどのようか?

主な発見

  • 例レベルの指示調整モデルは、含意解決において他の全てのモデル群を一貫して上回る。
  • GPT-4 はチェーン・オブ・思考 prompting を用いた場合に平均的な人間レベルの性能に達し(約86.5%)、人間の平均86.2% に近い。
  • ベースモデルと非例レベル調整モデルはランダムに近い状態が多く、0-shot は約60%、多くのケースで50-60%付近。
  • スケーリングの恩恵は例レベルの指示調整モデルで最も顕著で、いくつかのベースモデルはサイズに応じた利得を示す一方、他は頭打ちになる。
  • チェーン・オブ・思考 prompting はいくつかのモデルの性能を引き上げ、特にGPT-4で人間レベルの性能を達成する。この設定で。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。