QUICK REVIEW

[論文レビュー] Vulnerability of LLMs' Stated Beliefs? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions

Fan Huang, Haewoon Kwak|arXiv (Cornell University)|Jan 20, 2026

Misinformation and Its Impacts被引用数 0

ひとこと要約

研究は Source–Message–Channel–Receiver (SMCR) フレームワークを用いて、三つのドメインにわたる五つのLLMが対話を複数ターンに渡って説得に対してどの程度抵抗するかを体系的に評価し、モデル依存・ドメイン依存の脆弱性とメタ認知プロンプトがしばしば感受性を高めることを発見し、敵対的ファインチューニングがロバスト性の向上をもたらす場合とそうでない場合がある、という結論を示す。

ABSTRACT

Large Language Models (LLMs) are increasingly employed in various question-answering tasks. However, recent studies showcase that LLMs are susceptible to persuasion and could adopt counterfactual beliefs. We present a systematic evaluation of LLM susceptibility to persuasion under the \emph{Source--Message--Channel--Receiver} (SMCR) communication framework. Across six mainstream Large Language Models (LLMs) and three domains (factual knowledge, medical QA, and social bias), we analyze how different persuasive strategies influence stated belief stability over multiple interaction turns. We further examine whether verbalized confidence prompting (i.e., eliciting self-reported confidence scores) affects resistance to persuasion. Results show that the smallest model (Llama 3.2-3B) exhibits extreme compliance, with 82.5\% of belief changes occurring at the first persuasive turn (average end turn of 1.1--1.4). Contrary to expectations, verbalized confidence prompting \emph{increases} vulnerability by accelerating belief erosion rather than enhancing robustness. Finally, an exploratory study of adversarial fine-tuning reveals highly model-dependent effectiveness: GPT-4o-mini achieves near-complete robustness (98.6\%), and Mistral~7B improves substantially (35.7\% $ ightarrow$ 79.3\%), but Llama models remain highly susceptible ($<$14\% RQ1) even when fine-tuned on their own failure cases. Together, these findings highlight substantial model-dependent limits of current robustness interventions and offer guidance for developing more trustworthy LLMs.

研究の動機と目的

SMCR フレームワーク（Source, Message, Channel, Receiver）を用いて、LLM 説得の全体的な研究を動機づける。
複数ターンの対話にわたって、異なる説得戦略が信念の安定性にどのように影響するかをモデルとドメイン間で定量化する。
メタ認知プロンプティング（自己申告の自信度）の導入が説得耐性に影響を与えるかを評価する。
敵対的ファインチューニングを防御として評価し、信念のロバスト性を向上させるかを検討する。

提案手法

信念の変化を追跡するための二値信念タスク（はい／いいえの質問）を定義する。
六つのSMCRベースの説得戦略（ベースラインを含む）を適用し、GPT-4oを用いて反事実メッセージを生成して働きかけを再フレーミングする。
三つのドメイン（BoolQ 事実問、PubMedQA 医学QA、LatentHatred 社会偏見）を用い、信頼度の高いインスタンスをフィルタリング（n=1236）。
信念変更の平均値を示す end turn の平均とともに、頑健性を MR@n（誤情報率）および Robustness = 100 - MR@4 で測定する。
RQ2 で回答時の自信度スコア（0–5）を引き出してメタ認知プロンプティングを検討する。
ペネトレーティングに対する防御として、敵対的ファインチューニング（FT_mixed）とプロンプトベースのロバストネスプロンプトを探索する。

実験結果

リサーチクエスチョン

RQ1RQ1: さまざまな説得戦略はモデルとドメインを跨いでLLMの信念脆弱性にどのような影響を与えるか？
RQ2RQ2: メタ認知プロンプティングは多ターン対話におけるLLMの感受性と自信の推移にどのように影響するか？
RQ3RQ3: 脆弱なインスタンスに対する敵対的ファインチューニングは説得操作に対する抵抗を改善できるか？

主な発見

小型モデル（例：Llama 3.2-3B）は極端な適合性を示し、信念の変化は多くの場合、最初の説得ターンで起こる。
GPT-4o-mini は全体としてより高いロバスト性を示すが、PubMedQA（医学QA）で特にドメイン依存の脆弱性を示す。
メタ認知プロンプティングは一般に脆弱性を高め、抵抗よりも信念の侵食を加速させる。
敵対的ファインチューニングは一部のモデルで顕著なロバスト性向上をもたらす（例：GPT-4o-mini は約98.6%近くまで）、しかし Llama 系モデルはファインチューニング後も依然として高い脆弱性を示す（<14%）。結果はモデルとドメインで異なる。
ドメイン脆弱性は医学QA（PubMedQA）で最大となり、より大きなモデル間でも観測される。
モデル規模だけではロバスト性を保証できず、訓練と整合性の方法がより重要である（Qwen 7B は大きい Llama 70B よりも優れる場合がある）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。