[논문 리뷰] Causal Parrots: Large Language Models May Talk Causality But Are Not Causal
본 논문은 현재 LLM들이 인과 사실들에 대한 상관관계는 표면화할 수 있지만 진정으로 인과 추론을 수행하지는 않는다고 주장하며, 메타 SCMs와 Correlation of Causal Facts (CCF) 추측을 도입하고, Chain-of-Thought prompting을 활용한 GPT-3, Luminous, OPT, GPT-4 간의 혼합 인과 능력을 보이는 실험적 테스트를 제공합니다.
Some argue scale is all what is needed to achieve AI, covering even causal models. We make it clear that large language models (LLMs) cannot be causal and give reason onto why sometimes we might feel otherwise. To this end, we define and exemplify a new subgroup of Structural Causal Model (SCM) that we call meta SCM which encode causal facts about other SCM within their variables. We conjecture that in the cases where LLM succeed in doing causal inference, underlying was a respective meta SCM that exposed correlations between causal facts in natural language on whose data the LLM was ultimately trained. If our hypothesis holds true, then this would imply that LLMs are like parrots in that they simply recite the causal knowledge embedded in the data. Our empirical analysis provides favoring evidence that current LLMs are even weak `causal parrots.'
연구 동기 및 목표
- 인과 지식이 메타 구조적 인과 모델(meta SCMs) 내의 인과 사실들의 상관관계로 내재될 수 있다는 아이디어를 형식화합니다.
- Correlational of Causal Facts (CCF) 추측을 제시합니다: LLM들은 훈련 데이터에 나타나고 훈련 오차를 최소화하기 때문에 인과 사실을 재생산합니다.
- 현재의 LLM들이 진정한 인과 추론을 보이는지 아니면 훈련 중에 본 인과 정보를 단순히 모방하는지 연구합니다.
- 최신 LLM들이 인과 추론 과제와 일반 상식 인과 질의에서 어떻게 수행하는지에 대한 실증 분석을 제공합니다.
제안 방법
- 간단한 SCMs와 meta-SCMs를 정의하고 구현하여 인과 사실과 그 상관관계를 모델링합니다.
- Pearl 인과 계층(L1/L2/L3)을 도입하여 인과 추론에 필요한 정보 수준을 프레이밍합니다.
- Correlational of Causal Facts (CCF) 추측을 제시하여 LLM 출력이 훈련 데이터 기반의 인과 사실 및 훈련 손실과의 연관성을 갖도록 합니다.
- 인과 체인 프롬프트와 직관 물리학 태스크에 대해 LLM들을 실험적으로 테스트하여 인과 관계를 추론하거나 기억하는 능력을 평가합니다.
- 다운스트림 작업에서 미세조정 및 meta-SCM 정렬의 역할을 논의합니다.
실험 결과
연구 질문
- RQ1LLM들이 개입(interventional, L2) 및 반사실(counterfactual, L3) 인과 질의를 신뢰성 있게 답할 수 있는가, 아니면 주로 훈련 데이터에 있는 상관관계만 반영하는가?
- RQ2LLMs가 인과적으로 추론하는 것처럼 보이는 사례를 설명하는 데 meta-SCM이 충분한가, 그리고 이러한 메타 구조가 훈련 데이터에서 식별될 수 있는가?
- RQ3현재의 기본 모델들이 진정한 인과 추론 능력을 보이는가, 아니면 그들의 올바른 답은 주로 기억된 상관관계에 의한 것인가?
- RQ4미세조정과 체인-오브-생각 prompting이 인과 및 직관 물리학 과제에서 LLMs의 수행에 어떤 영향을 미치는가?
주요 결과
- LLMs는 인과 추론 과제에서 혼합된 성능을 보이며, 일부 올바른 인과 답이 나오지만 종종 데이터에서 학습한 상관관계를 반영하는 경우가 많아 진정한 인과 추론이라고 보기 어렵다.
- 저자들은 meta-SCM을 형식화하고 그것들이 다른 SCM에 관한 인과 사실을 암호화할 수 있으며 이를 통해 모델이 개입 지식을 반영하도록 할 수 있음을 보인다.
- Chain-of-Thought prompting은 GPT-4의 경우 특히 인과 및 직관 물리학 프롬프트에서 성능을 향상시키며, 이는 숨겨진 이해보다는 과정의 준수를 시사한다.
- GPT-3, Luminous, OPT는 과제별로 가변적인 성공을 보이며, prompting 실험에서 GPT-4-CoT가 가장 강한 성과를 보인다.
- Correlational of Causal Facts (CCF) 추측은 LLM이 올바른 인과 답을 산출할 때 그 답이 훈련 데이터의 관찰된 인과 사실과 관련이 있으며 훈련 목표가 오차를 최소화한다는 것을 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.