[論文レビュー] Evaluating Human-Language Model Interaction
HALIEは、ターゲット、視点、基準を横断する対話的な人間-LM 相互作用を評価するフレームワークであり、より良い非対話的LMパフォーマンスが5つのタスクにおいて必ずしもより良い対話的成果を生むわけではないことを示します。
Many real-world applications of language models (LMs), such as writing assistance and code autocomplete, involve human-LM interaction. However, most benchmarks are non-interactive in that a model produces output without human involvement. To evaluate human-LM interaction, we develop a new framework, Human-AI Language-based Interaction Evaluation (HALIE), that defines the components of interactive systems and dimensions to consider when designing evaluation metrics. Compared to standard, non-interactive evaluation, HALIE captures (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality (e.g., enjoyment and ownership). We then design five tasks to cover different forms of interaction: social dialogue, question answering, crossword puzzles, summarization, and metaphor generation. With four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21 Labs' Jurassic-1), we find that better non-interactive performance does not always translate to better human-LM interaction. In particular, we highlight three cases where the results from non-interactive and interactive metrics diverge and underscore the importance of human-LM interaction for LM evaluation.
研究の動機と目的
- 最終出力を超えた人間-LM相互作用を評価する多次元フレームワーク(HALIE)を定義する。
- 相互作用を、状態、行動、プロンプトを含むシステムとしてモデル化し、対話プロセスを捉える。
- 相互作用の痕跡を評価するため、3つの次元(targets、perspectives、criteria)にわたる指標を開発する。
- HALIEを5つのタスクで実装し、対話的な設定でのLMの性能を検討する。
- 将来の対話的LM評価を支援するためのガイドラインとデータの公開を提供する。
提案手法
- Promptsを作成しLMを呼び出すLM + UI + システムロジックとしてのシステムを定義する。
- インタラクションを、ユーザーとシステムのプロンプトとLMの応答によって生成される状態-アクション対の軌跡として表現する。
- HALIEの3つの評価次元を提案する:targets(プロセスと出力)、perspectives(ファーストパーソンのユーザー対第三者)、criteria(quality対 preference)
- 5つの対話タスク(社会的対話、質問応答、クロスワード、要約、比喩生成)を設計し、タスク別の対話システムを実装する。
- 4つのLM(TextDavinci, TextBabbage, Davinci, Jumbo)を評価して、対話的パフォーマンスを非対話的パフォーマンスと比較する。
- インタラクションの痕跡を分析して、非対話的な優位性が対話的パフォーマンスの向上に必ずしも結びつかないケースを特定する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 非対話的パフォーマンスの最適化は、実使用の対話的設定においてより良い対話的パフォーマンスへとつながるのか?
- RQ2RQ2: 対話型LM相互作用において、ファーストパーソン(ユーザー)の評価は第三者の評価とどのように比較されるか?
- RQ3RQ3: 品質指標は対話的利用におけるユーザーの好みと一致するか、それとも好みは品質と乖離することがあるのか?
- RQ4社会的対話から比喩生成まで、さまざまなタスクが対話的評価と非対話的評価の乖離をどのように示すか?
主な発見
| モデル | 流暢さ | 妥当性 | 特異性 | 人間らしさ | 興味深さ | 傾向 | 再利用 |
|---|---|---|---|---|---|---|---|
| TextDavinci | 93 \u00b1 1.0 | 94 \u00b1 1.0 * * | 83 \u00b1 1.6 * | 37 \u00b1 2.0 | 36 \u00b1 2.0 | 91 \u00b1 1.2 | 4.09 \u00b1 .14 * * |
| TextBabbage | 90 \u00b1 1.4 | 84 \u00b1 1.7 * | 81 \u00b1 1.8 * | 29 \u00b1 2.1 | 30 \u00b1 2.1 | 88 \u00b1 1.5 | 3.35 \u00b1 .16 * |
| Davinci | 92 \u00b1 1.3 | 89 \u00b1 1.4 * | 92 \u00b1 1.3 * * | 24 \u00b1 2.0 | 27 \u00b1 2.0 | 91 \u00b1 1.3 | 3.80 \u00b1 .17 |
| Jumbo | 89 \u00b1 1.3 | 86 \u00b1 1.5 | 84 \u00b1 1.5 | 24 \u00b1 1.8 | 32 \u00b1 2.0 | 87 \u00b1 1.4 | 3.21 \u00b1 .20 * |
- 非対話的な優れた性能が、タスクをまたいで必ずしも対話的性能の向上につながるとは限らない。
- QAでは、非対話的な正確性が低いモデルが、特定の領域で対話的役割で他を上回ることがある。
- 要約などの出力で、ファーストパーソンのユーザー評価は第三者の注釈と乖離することがある。
- ユーザーは、実際にはタスクの性能を向上させる以上にモデルを有用だと感じることがある(例:クロスワード)。
- 指示調整済みモデルは多くの品質指標で高得点を取ることが多いが、特異性を失うことがある。
- 対話では、ユーザーは多くの指標でTextDavinciを好んだ一方、特異性にはDavinciを好み、好みに基づくモデル選択を浮き彫りにしている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。