Skip to main content
QUICK REVIEW

[論文レビュー] Evaluating Verifiability in Generative Search Engines

Nelson F. Liu, Tianyi Zhang|arXiv (Cornell University)|Apr 19, 2023
Misinformation and Its Impacts被引用数 14
ひとこと要約

この論文は四つの商用生成検索エンジンの検証可能性を評価し、流暢さは高いが引用リコール(51.5%)と引用精度(74.5%)が低く、正確性の問題が信頼に影響する。

ABSTRACT

Generative search engines directly generate responses to user queries, along with in-line citations. A prerequisite trait of a trustworthy generative search engine is verifiability, i.e., systems should cite comprehensively (high citation recall; all statements are fully supported by citations) and accurately (high citation precision; every cite supports its associated statement). We conduct human evaluation to audit four popular generative search engines -- Bing Chat, NeevaAI, perplexity.ai, and YouChat -- across a diverse set of queries from a variety of sources (e.g., historical Google user queries, dynamically-collected open-ended questions on Reddit, etc.). We find that responses from existing generative search engines are fluent and appear informative, but frequently contain unsupported statements and inaccurate citations: on average, a mere 51.5% of generated sentences are fully supported by citations and only 74.5% of citations support their associated sentence. We believe that these results are concerningly low for systems that may serve as a primary tool for information-seeking users, especially given their facade of trustworthiness. We hope that our results further motivate the development of trustworthy generative search engines and help researchers and users better understand the shortcomings of existing commercial systems.

研究の動機と目的

  • 定義 citation recall と citation precision を、生成系検索エンジンにおける検証可能性の評価指標として用いる。
  • 多様なクエリ分布にわたり、四つの商用エンジンを対象とする大規模な人間評価を実施する。
  • 流暢さ、知覚される有用性、検証可能性が実践でどのように相互作用するかを分析する。
  • 信頼できる生成系検索エンジンに関するさらなる研究を支援する公開注釈を提供する。

提案手法

  • 検証指標を定義する:引用リコール、引用精度、および引用F1。
  • 各回答を声明と関連する引用に分割し、支えを測定する。
  • 識別された出典に帰属した AIS 判断を用いて、声明が引用によって完全に裏付けられているかを評価する。
  • 流暢さと知覚的有用性を5段階リッカート尺度で評価する。
  • 四つのエンジンにまたがる合計1450クエリで、12のクエリ分布を評価する。
  • 再現性を促進するために注釈データを公開する。)

実験結果

リサーチクエスチョン

  • RQ1人気のある生成系検索エンジンでの引用リコールと引用精度の水準はどのくらいか。
  • RQ2実践で流暢さと知覚的有用性は検証可能性指標とどのように関連するか。
  • RQ3システムはリコールと精度のトレードオフを示すか、そしてそれがユーザーの認識にどう影響するか。
  • RQ4より高い引用精度は引用元へのより高い類似性と関連があるのか、そしてそれが知覚的有用性とどう関係するか。

主な発見

  • エンジン全体で、生成文のうち引用によって完全に裏付けられているのは51.5%(リコール)にすぎない。
  • 引用の74.5%のみが関連する声明を完全に裏付ける(精度)。
  • 知覚的有用性は引用精度と負の相関を示す(r = -0.96)。
  • Perplexity.ai が最も高い平均引用リコール(68.7)を達成し、Bing Chat が最も高い平均精度(89.5)を達成。
  • Bing Chat はしばしば出典からテキストをコピーするため、精度は高いが非関連性のため知覚的有用性が低い。
  • YouChat は引用精度が低い一方で知覚的有用性は高く、忠実さと有用性のトレードオフを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。