[논문 리뷰] The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"
A는 B인으로 학습된 자기회귀 LLM은 B는 A인으로 일반화하는 데 실패한다; 역방향 일반화는 거의 제로에 가깝고 데이터 증강으로도 개선되지 않으며, 모델 크기나 계열에 걸쳐 그렇다.
We expose a surprising failure of generalization in auto-regressive large language models (LLMs). If a model is trained on a sentence of the form "A is B", it will not automatically generalize to the reverse direction "B is A". This is the Reversal Curse. For instance, if a model is trained on "Valentina Tereshkova was the first woman to travel to space", it will not automatically be able to answer the question, "Who was the first woman to travel to space?". Moreover, the likelihood of the correct answer ("Valentina Tershkova") will not be higher than for a random name. Thus, models do not generalize a prevalent pattern in their training set: if "A is B" occurs, "B is A" is more likely to occur. It is worth noting, however, that if "A is B" appears in-context, models can deduce the reverse relationship. We provide evidence for the Reversal Curse by finetuning GPT-3 and Llama-1 on fictitious statements such as "Uriah Hawthorne is the composer of Abyssal Melodies" and showing that they fail to correctly answer "Who composed Abyssal Melodies?". The Reversal Curse is robust across model sizes and model families and is not alleviated by data augmentation. We also evaluate ChatGPT (GPT-3.5 and GPT-4) on questions about real-world celebrities, such as "Who is Tom Cruise's mother? [A: Mary Lee Pfeiffer]" and the reverse "Who is Mary Lee Pfeiffer's son?". GPT-4 correctly answers questions like the former 79% of the time, compared to 33% for the latter. Code available at: https://github.com/lukasberglund/reversal_curse.
연구 동기 및 목표
- 자동회귀 LLM이 A는 B에서 B는 A로 일반화하는 데 실패한다(역전 저주).
- 이 역전 실패가 모델 규모와 계열에 걸쳐 지속되며 데이터 증강으로 해결되지 않는다는 것을 보인다.
- 합성 파인튜닝 데이터와 실제 세계의 유명인 사실에 대해 현상(역전 저주)의 실용적 영향력을 평가한다.
제안 방법
- <name>는 <description>인 형태의 합성 사실에 대해 GPT-3 및 Llama-1 모델을 파인튜닝하고 '<description>은 <name>'으로의 역방향 일반화를 테스트한다.
- 정확 일치 정확도와 설명이 주어졌을 때 올바른 이름의 가능성 증가의 두 가지 프롬프트 형식을 평가한다.
- 의역어를 포함한 데이터 증강과 메타학습을 촉진하는 '두 가지 순서(Both orders)' 하위집합으로 데이터 증강한 다음 결과를 비교한다.
실험 결과
연구 질문
- RQ1합성 데이터로 파인튜닝한 후 자동회귀 LLM이 'A is B'에서 역방향 'B is A'로 일반화하는가?
- RQ2유명인 부모-자식 관계와 같은 실제 지식에서 Reversal Curse를 관찰할 수 있는가?
- RQ3데이터 증강이나 혼합 순서 학습이 역전 실패를 완화할 수 있는가?
- RQ4역전 효과가 모델 크기나 계열(GPT-3, Llama 등)에 따라 달라지는가?
주요 결과
| Subset | Same direction | Reverse direction |
|---|---|---|
| NameToDescription | 50.0 ± 2.1 | 0.0 ± 0.0 |
| DescriptionToName | 96.7 ± 1.2 | 0.1 ± 0.1 |
- 테스트 프롬프트가 파인튜닝 순서와 일치할 때는 일반화되지만 역방향에서는 완전히 실패한다(정확도는 거의 0에 근접).
- DescriptionToName 사실의 경우, 정밀 일치 정확도는 순방향 96.7%, 역방향은 GPT-3-175B에서 0.1%이다.
- NameToDescription 사실의 경우, 순방향 정밀 일치는 50.0%, 역방향은 GPT-3-175B에서 0.0%이다.
- 가능성 증가(test)에서는 순서를 역으로 할 때 올바른 이름과 무작위 이름의 로그 확률 차이가 검출되지 않는 것으로 나타났다.
- 실제 유명인 사례를 사용한 실험 2는 상당한 비대칭성을 보인다: GPT-4가 부모 관련 질의에 잘 대답하지만 부모로부터 그 유명인을 식별하는 데 어려움을 겪어 Reversal Curse의 실용적 표현을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.