[논문 리뷰] Vulnerability of LLMs' Stated Beliefs? LLMs Belief Resistance Check Through Strategic Persuasive Conversation Interventions
본 연구는 Source–Message–Channel–Receiver (SMCR) 프레임워크를 사용하여 세 도메인에서 다섯 개의 LLM이 다중 턴 대화에서 설득에 저항하는 정도를 체계적으로 평가하고, 모델과 도메인에 따라 취약성이 다르며 메타-인지 프롬프트가 종종 민감성을 높인다는 점을 발견했고; 적대적 미세 조정(adversarial fine-tuning)이 로버스트니스 향상에 변동적인 이점을 제공한다.
Large Language Models (LLMs) are increasingly employed in various question-answering tasks. However, recent studies showcase that LLMs are susceptible to persuasion and could adopt counterfactual beliefs. We present a systematic evaluation of LLM susceptibility to persuasion under the \emph{Source--Message--Channel--Receiver} (SMCR) communication framework. Across six mainstream Large Language Models (LLMs) and three domains (factual knowledge, medical QA, and social bias), we analyze how different persuasive strategies influence stated belief stability over multiple interaction turns. We further examine whether verbalized confidence prompting (i.e., eliciting self-reported confidence scores) affects resistance to persuasion. Results show that the smallest model (Llama 3.2-3B) exhibits extreme compliance, with 82.5\% of belief changes occurring at the first persuasive turn (average end turn of 1.1--1.4). Contrary to expectations, verbalized confidence prompting \emph{increases} vulnerability by accelerating belief erosion rather than enhancing robustness. Finally, an exploratory study of adversarial fine-tuning reveals highly model-dependent effectiveness: GPT-4o-mini achieves near-complete robustness (98.6\%), and Mistral~7B improves substantially (35.7\% $ ightarrow$ 79.3\%), but Llama models remain highly susceptible ($<$14\% RQ1) even when fine-tuned on their own failure cases. Together, these findings highlight substantial model-dependent limits of current robustness interventions and offer guidance for developing more trustworthy LLMs.
연구 동기 및 목표
- LLM 설득을 메시지 내용 이외의 측면에서 포괄적으로 연구하기 위해 SMCR 프레임워크(Source, Message, Channel, Receiver)를 활용한다.
- 다양한 설득 전략이 다중 턴 상호작용에서 모델 간 및 도메인 간 신념 안정성에 미치는 영향을 정량화한다.
- 메타-인지 프롬프트(자기 보고된 자신감)가 설득 저항에 미치는 영향을 평가한다.
- 취약한 사례에 대한 적대적 미세 조정(FT_mixed)과 프롬프트 기반 로버스트니스 프롬트를 통해 설득으로부터의 신념 강건함을 개선할 수 있는지 평가한다.
제안 방법
- 비양의 신념 태스크(예/아니오 질문)를 정의하여 턴 간 신념 변화를 추적한다.
- 설득 전략 여섯 가지(SMCR 기반 플러스 베이스라인)를 적용하여 GPT-4o를 사용해 호소를 재구성하는 반사실적(counterfactual) 메시지를 생성한다.
- BoolQ 사실 질문, PubMedQA 의학 QA, LatentHatred 사회 편향의 세 도메인과 고신뢰도 샘플 필터링(n=1236)을 사용한다.
- MR@n(오정보화 비율) 및 Robustness = 100 - MR@4와 신념 변화의 평균 엔드 턴을 통해 강건성을 측정한다.
- 응답 중 자신감 점수(0–5)를 요청하여 메타-인지 프롬팅을 examine한다(RQ2).
- 취약한 사례에 대한 적대적 미세 조정(FT_mixed) 및 프롬프트 기반 로버스트니스 프롬트를 탐색하여 설득에 대한 저항을 강화한다.
실험 결과
연구 질문
- RQ1RQ1: 서로 다른 설득 전략이 모델과 도메인 간 LLM 신념 취약성에 어떤 영향을 미치는가?
- RQ2RQ2: 메타-인지 프롬팅이 다중 턴 상호작용에서 LLM의 취약성과 자신감 경로에 어떤 영향을 주는가?
- RQ3RQ3: 취약한 사례에 대한 적대적 미세 조정이 설득 조작에 대한 저항을 향상시킬 수 있는가?
주요 결과
- 더 작은 모델(예: Llama 3.2-3B)은 극단적인 순응성을 보이며, 신념 변화가 종종 첫 번째 설득 턴에서 발생한다.
- GPT-4o-mini는 전반적으로 더 높은 로버스트니스를 보이며 도메인 의존적인 취약성을 나타내는데, 특히 PubMedQA(의학 QA)에서 그렇다.
- 메타-인지 프롬핑은 일반적으로 취약성을 높여 신념 침식을 가속화하고 저항을 돕기보다 악화시킨다.
- 적대적 미세 조정은 일부 모델에서 상당한 로버스트니스 이득을 보이며, 예를 들어 GPT-4o-mini는 거의 98.6%에 달하지만 Llama 모델은 미세 조정 후에도 여전히 매우 취약하며(<14%) 결과는 모델과 도메인에 따라 달라진다.
- 도메인 취약성은 모델 간에 PubMedQA를 포함한 의학 QA에서 가장 높으며, 더 큰 모델들 간에도 예외가 없다.
- 모델 규모만으로 로버스트니스를 보장하지 않으며, 학습 및 정렬 방법이 더 큰 영향력을 가진다(Qwen 7B가 일부 경우에서 더 큰 Llama 70B를 능가할 수 있다).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.