[論文レビュー] Evaluating Hallucinations in Chinese Large Language Models
Hall uQAは、450の adversarial 質問を用いて、模倣的虚偽と事実誤リを評価する中国語の LLM 24モデルを GPT-4 を評価者として用いて評価するベンチマークで、結果は多くのモデルが苦戦しており、特に知識ベースではないハルシネーションに弱い。
In this paper, we establish a benchmark named HalluQA (Chinese Hallucination Question-Answering) to measure the hallucination phenomenon in Chinese large language models. HalluQA contains 450 meticulously designed adversarial questions, spanning multiple domains, and takes into account Chinese historical culture, customs, and social phenomena. During the construction of HalluQA, we consider two types of hallucinations: imitative falsehoods and factual errors, and we construct adversarial samples based on GLM-130B and ChatGPT. For evaluation, we design an automated evaluation method using GPT-4 to judge whether a model output is hallucinated. We conduct extensive experiments on 24 large language models, including ERNIE-Bot, Baichuan2, ChatGLM, Qwen, SparkDesk and etc. Out of the 24 models, 18 achieved non-hallucination rates lower than 50%. This indicates that HalluQA is highly challenging. We analyze the primary types of hallucinations in different types of models and their causes. Additionally, we discuss which types of hallucinations should be prioritized for different types of models.
研究の動機と目的
- Hall uQA を開発する。450問の adversarial 質問を歴史、文化、科学、芸術にまたがって中国語 LLM のハルシネーションを測定する。
- 中国語モデルにおけるハルシネーションの二つのタイプとして、模倣的虚偽と事実誤りを区別する。
- GPT-4 を用いた自動評価プロトコルを提供し、モデル出力のハルシネーションを判断する。
- 事前学習済み、チャット、リトリーブ・アジュメンテッドなど、幅広い中国語 LLM を評価する。
- モデル種別とアラインメントがハルシネーションのタイプに与える影響を分析し、異なるモデルに対する優先順位の指針を提案する。
提案手法
- ハルuQA を二つのデータ部で構築する。模倣的虚偽のための誤解を招く質問と、知識的誤りのための知識質問。
- GLM-130B と ChatGPT を用いて adversarial な質問を生成し、人間のライターが 30 領域にわたり合計 450 問を作成。
- 各質問につき four correct and four incorrect の回答を含め、正解を支持する外部知識リンクを提供。
- 自動評価者として GPT-4(gpt-4-0613)を使用し、5 判断の投票方式と固定プロンプト形式を採用。
- 評価対象 24 モデルのうち、回答がハルシネーションを起こさない割合を非ハルシネーション率として評価。
- 事前学習済み、チャット、リトリーブ・アジュメンテッド・チャットのカテゴリ横断でモデルの性能を分析し、異なる質問タイプに対するアラインメント効果を検討する。
実験結果
リサーチクエスチョン
- RQ1中国語 LLM が文化的・言語的に特化した質問に直面したとき、支配的なハルシネーションのタイプは何か。
- RQ2モデル種別(事前学習済み、チャット、リトリーブ・アジュメンテッド)とアラインメントは、模倣的虚偽と事実誤りの発生率にどう影響するか。
- RQ3GPT-4 は中国語 LLM 出力のハルシネーションの信頼できる自動評価者になり得るか、ヒトの判断とどれくらい一致するか。
- RQ4Hall uQA の結果に基づき、異なるモデルカテゴリに対してハルシネーションの緩和の優先順位をどう設定すべきか。
主な発見
- Hall uQA は非常に難しく、24モデル中18モデルの非ハルシネーション率が50%未満。
- リトリーブ・アジュメンテッドモデルは、特に知識ベースの質問で非ハルシネーション率が高い傾向。
- アラインメントは誤解を招く質問のパフォーマンスを改善する一方、知識ベースの質問では一部のモデルでパフォーマンスがわずかに低下する可能性。
- クローズドソースモデルは、ユーザーのフィードバックによる追加最適化の影響を受け、平均的にオープンソースより上回る傾向。
- 事前学習モデルは誤解を招く質問で著しくハルシネーションを示す一方、チャットモデルは誤解を招く質問で改善するが、知識質問では苦戦する場合がある。
- GPT-4ベースの評価は人間の評価者との一貫性が高く、ランダム性は一貫性に有意な影響を及ぼさない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。