Skip to main content
QUICK REVIEW

[논문 리뷰] Measuring Systematic Generalization in Neural Proof Generation with Transformers

Nicolas Gontier, Koustuv Sinha|PolyPublie (École Polytechnique de Montréal)|2020. 09. 30.
Topic Modeling참고 문헌 26인용 수 28
한 줄 요약

이 논문은 변환기 언어 모델(TLMs)이 일阶논리 문제에 대해 자연어 증명을 생성하도록 훈련시켰을 때, 논리적 추론 작업에서 얼마나 잘 일반화되는지 조사한다. 훈련된 증명 길이에서는 뛰어난 성능을 보이나, 길이 일반화에서는 어려움을 겪지만, 특히 뒤에서부터 추론하는 전략을 사용해 더 긴 전면적인 증명으로 훈련할 경우 성능이 크게 향상된다. 반면, 직접 답변을 생성하도록 훈련한 모델는 증명을 생성하도록 훈련한 모델보다 성능이 뛰어나다.

ABSTRACT

We are interested in understanding how well Transformer language models (TLMs) can perform reasoning tasks when trained on knowledge encoded in the form of natural language. We investigate their systematic generalization abilities on a logical reasoning task in natural language, which involves reasoning over relationships between entities grounded in first-order logical proofs. Specifically, we perform soft theorem-proving by leveraging TLMs to generate natural language proofs. We test the generated proofs for logical consistency, along with the accuracy of the final inference. We observe length-generalization issues when evaluated on longer-than-trained sequences. However, we observe TLMs improve their generalization performance after being exposed to longer, exhaustive proofs. In addition, we discover that TLMs are able to generalize better using backward-chaining proofs compared to their forward-chaining counterparts, while they find it easier to generate forward chaining proofs. We observe that models that are not trained to generate proofs are better at generalizing to problems based on longer proofs. This suggests that Transformers have efficient internal reasoning strategies that are harder to interpret. These results highlight the systematic generalization behavior of TLMs in the context of logical reasoning, and we believe this work motivates deeper inspection of their underlying reasoning strategies.

연구 동기 및 목표

  • TLMs의 자연어 논리 추론 작업에서의 체계적 일반화 능력을 평가하기 위해.
  • 다양한 증명 구조(앞에서부터 추론 vs. 뒤에서부터 추론)에 대한 훈련이 일반화에 미치는 영향을 조사하기 위해.
  • 증명 길이와 훈련 목표(증명 생성 vs. 직접 답변 생성)가 일반화 성능에 미치는 영향을 평가하기 위해.
  • TLMs가 재사용 가능한 추론 전략을 학습하는지, 아니면 훈련 데이터의 표면적인 패턴에 의존하는지 확인하기 위해.
  • 복잡한 추론 작업을 위한 해석 가능하고 논리적으로 일관된 증명을 TLMs가 안정적으로 생성할 수 있는지 탐색하기 위해.

제안 방법

  • CLUTRR 벤치마크에서 TLMs를 미세조정하여 자연어 문장과 일阶논리 증명을 제공받는다.
  • 언어 모델링 목표를 사용해 모델이 전체 자연어 증명을 생성하도록 훈련시킨다.
  • 생성된 증명의 논리 일관성과 최종 추론의 정확도를 평가한다.
  • 앞에서부터 추론, 뒤에서부터 추론, 증명 없이 직접 답변 생성하는 전략 간의 일반화를 비교한다.
  • 훈련 분포를 초월한 외삽을 테스트하기 위해 다양한 증명 길이를 가진 제어 실험을 실시한다.
  • 주의 패턴과 위치 의존성 분석을 통해 모델의 행동을 이해한다.

실험 결과

연구 질문

  • RQ1TLMs는 훈련 중에 본 바보다 더 긴 증명 시퀀스로 체계적으로 일반화할 수 있는가?
  • RQ2짧은 증명보다 더 긴 전면적인 증명으로 훈련하면 일반화 성능이 향상되는가?
  • RQ3앞에서부터 추론하는 증명보다 뒤에서부터 추론하는 증명이 일반화에 더 효과적인가?
  • RQ4증명 생성을 훈련으로 삼는 것보다 직접 답변을 예측하도록 훈련하는 것이 일반화에 더 좋게 작용하는가?
  • RQ5증명 시퀀스 내에서 답변의 위치가 모델의 일반화 및 추론 신뢰성에 어떤 영향을 미치는가?

주요 결과

  • TLMs는 길이 일반화 실패를 보이며, 훈련 중에 본 바보다 더 긴 증명 시퀀스로의 일반화에 어려움을 겪는다.
  • 더 긴 전면적인 증명으로 훈련한 모델는 짧은 증명으로 훈련한 모델보다 일반화 성능이 뚜렷이 향상된다.
  • 뒤에서부터 추론하는 증명은 앞에서부터 추론하는 증명보다 일반화 성능이 뛰어나지만, 생성이 더 어려운 편이다.
  • 증명 생성을 훈련으로 삼는 것보다 직접 답변을 생성하도록 훈련한 모델가 더 잘 일반화되며, 이는 추론과 설명 간의 분리가 가능함을 시사한다.
  • 증명 시퀀스 내에서 답변의 위치는 성능에 강한 영향을 미치며, 뒤에서부터 추론하는 방식은 답변을 처음에 놓기 때문에 모델가 더 신뢰성 있게 처리한다.
  • 생성된 증명의 논리 일관성은 종종 손상되며, 이는 모델가 타당하지 않은 추론 체인을 설득력 있게 들리는 방식으로 생성할 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.