[論文レビュー] Comparing Traditional and LLM-based Search for Consumer Choice: A Randomized Experiment
本研究は、従来の検索とLLMベースの検索ツールをランダム化実験で比較し、LLMの方がタスク完了が速く、満足度も高い一方、ハイライトによる対策がなければ誤情報への過度の依存リスクが生じることを指摘する。
Recent advances in the development of large language models are rapidly changing how online applications function. LLM-based search tools, for instance, offer a natural language interface that can accommodate complex queries and provide detailed, direct responses. At the same time, there have been concerns about the veracity of the information provided by LLM-based tools due to potential mistakes or fabrications that can arise in algorithmically generated text. In a set of online experiments we investigate how LLM-based search changes people's behavior relative to traditional search, and what can be done to mitigate overreliance on LLM-based output. Participants in our experiments were asked to solve a series of decision tasks that involved researching and comparing different products, and were randomly assigned to do so with either an LLM-based search tool or a traditional search engine. In our first experiment, we find that participants using the LLM-based tool were able to complete their tasks more quickly, using fewer but more complex queries than those who used traditional search. Moreover, these participants reported a more satisfying experience with the LLM-based search tool. When the information presented by the LLM was reliable, participants using the tool made decisions with a comparable level of accuracy to those using traditional search, however we observed overreliance on incorrect information when the LLM erred. Our second experiment further investigated this issue by randomly assigning some users to see a simple color-coded highlighting scheme to alert them to potentially incorrect or misleading information in the LLM responses. Overall we find that this confidence-based highlighting substantially increases the rate at which users spot incorrect information, improving the accuracy of their overall decisions while leaving most other measures unaffected.
研究の動機と目的
- 消費者意思決定タスクにおいて、LLMベースの検索が従来の検索と比較してユーザーの行動をどのように変えるかを評価する。
- LLMベースの検索と従来の検索の下でタスク完了時間とクエリの特性を評価する。
- LLMの応答が信頼できる場合と誤っている場合における意思決定の正確さを検討する。
- LLMの出力への過度の依存を緩和するための単純なエラー alerting / highlighting 手法を test する。
提案手法
- 製品比較タスクを解決する参加者を対象にオンラインのランダム化実験を実施する。
- 参加者をLLMベースの検索条件または従来の検索条件に割り当てる。
- タスク完了時間、クエリの複雑さ、ユーザー満足度を測定する。
- LLMの情報信頼性に対する意思決定の正確さを評価する。
- 潜在的に誤っている情報を示すカラーコード付きのハイライトを導入し、その効果を評価する。
実験結果
リサーチクエスチョン
- RQ1LLMベースの検索は従来の検索と比べてタスク完了時間を短縮しますか?
- RQ2情報が信頼できる場合、ユーザーは従来の検索よりLLMの出力を多く頼りにしますか?
- RQ3警告/ハイライト機構はLLMsへの過度の依存を減らすことによって正確性を向上させますか?
- RQ4検索モード間でユーザー満足度とクエリ特性はどのように異なりますか?
主な発見
- LLMベースの検索は従来の検索よりもタスク完了を速くする。
- LLMを使用する参加者はより少ないがより複雑なクエリを使用する。
- LLM情報が信頼できる場合、意思決定の正確さは従来の検索と同程度である。
- LLMが誤情報を出す場合、LLM利用者は誤情報へ過度に依存する。
- 潜在的に誤っている情報を示すカラーコード付きハイライトは誤り検出を高め、意思決定の正確性を向上させる。
- ハイライト手法は他の指標には限定的な影響しか及ぼさない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。