Skip to main content
QUICK REVIEW

[논문 리뷰] Neural Logic Rule Layers

Jan Reimann, Andreas Schwung|arXiv (Cornell University)|2019. 01. 01.
Bayesian Modeling and Causal Inference참고 문헌 14인용 수 5
한 줄 요약

이 논문은 신경망 아키텍처에 논리 규칙—특히 합연산 및 논리합 표준형을 포함—을 통합하는 가분성 있는 신경망 모듈인 신경 논리 규칙 레이어(Neural Logic Rule Layers, NLRL)를 소개한다. 가역성 있는 부정 게이트, 공유 가중치를 가진 AND/OR 연결장치, 규칙 선택을 위한 게이팅 메커니즘을 결합함으로써 NLRL은 해석 가능한 논리 규칙의 엔드 투 엔드 학습을 가능하게 하며, 합성 논리 및 산술 작업에서 높은 정확도를 달성하면서도 인간이 이해할 수 있는 해석 가능성과 지식 주입을 지원한다.

ABSTRACT

Despite their great success in recent years, deep neural networks (DNN) are mainly black boxes where the results obtained by running through the network are difficult to understand and interpret. Compared to e.g. decision trees or bayesian classifiers, DNN suffer from bad interpretability where we understand by interpretability, that a human can easily derive the relations modeled by the network. A reasonable way to provide interpretability for humans are logical rules. In this paper we propose neural logic rule layers (NLRL) which are able to represent arbitrary logic rules in terms of their conjunctive and disjunctive normal forms. Using various NLRL within one layer and correspondingly stacking various layers, we are able to represent arbitrary complex rules by the resulting neural network architecture. The NLRL are end-to-end trainable allowing to learn logic rules directly from available data sets. Experiments show that NLRL-enhanced neural networks can learn to model arbitrary complex logic and perform arithmetic operation over the input values.

연구 동기 및 목표

  • 딥 뉴럴 네트워크(DNN)의 낮은 해석 가능성 문제를 해결하기 위해 논리 규칙을 직접 네트워크 아키텍처에 통합하는 것.
  • 역전파를 사용하여 논리 규칙의 엔드 투 엔드 학습을 가능하게 하되, 인간이 이해할 수 있는 추론 구조를 유지하는 것.
  • 전문가 지식을 사전 정의된 논리 규칙의 형태로 직접 신경망에 통합할 수 있도록 하는 것.
  • 규칙 기반 의사결정을 통해 미지의 입력에 대한 잘못된 양성 결과를 줄임으로써 모델의 강건성을 향상시키는 것.
  • 신경층의 표현 능력이 논리적 함수뿐 아니라 비선형 함수에도 어떻게 작용하는지 탐구하는 것.

제안 방법

  • NLRL 아키텍처는 세 개의 블록으로 구성되며, 부정 게이트는 시그모이드 게이팅 메커니즘을 사용하여 ¬x = (1−σ(gu))◦x + σ(gu)◦(1−x)로 계산된다.
  • AND 및 OR 연결장치는 가중치를 공유하며, 대수적 형태로 정의된다: AND = exp(A(log(|ˆx|+ϵ))), OR = ((1−anˆxn)⊙…⊙(1−a2ˆx2)⊙(−1a1ˆx1))1+1.
  • 출력 게이팅 유닛 σ(gr)은 y = (1−σ(gr))◦AND + σ(gr)◦OR를 통해 AND 및 OR 출력 간 선택을 수행한다.
  • 전체적인 구조는 역전파를 사용하여 엔드 투 엔드로 훈련 가능하며, 규칙 파라미터와 네트워크 가중치의 공동 최적화를 가능하게 한다.
  • 이 방법은 합연산 및 논리합 표준형을 통해 임의의 논리 함수를 표현할 수 있으며, 적절한 활성화 함수와 조합될 경우 비선형 함수도 모델링할 수 있다.
  • 전문가가 정의한 논리 표현식을 기반으로 규칙 파라미터를 초기화함으로써 지식 주입이 가능하며, 이후 역전파를 통해 미세조정이 가능하다.

실험 결과

연구 질문

  • RQ1신경망이 합연산 및 논리합 표준형으로 표현되는 임의의 논리 규칙을 유지하면서도 가분성 있고 훈련 가능한 방식으로 구성될 수 있는가?
  • RQ2학습 가능한 논리 레이어의 포함 여부가 합성 논리 및 산술 작업에서의 훈련 수렴성과 성능에 어떤 영향을 미치는가?
  • RQ3NLRL이 사전 정의된 논리 규칙의 형태로 전문가 지식을 얼마나 잘 통합하고 데이터 기반으로 미세조정할 수 있는가?
  • RQ4기본적인 소프트맥스 출력 레이어에 비해 NLRL 아키텍처는 미지의 입력에 대해 더 강건한가?
  • RQ5NLRL은 순수한 논리 외에도 산술 연산과 같은 비선형 함수를 효과적으로 모델링할 수 있는가?

주요 결과

  • AND 및 OR 모두 구현된 AND-OR 네트워크는 더 높은 계산 비용에도 불구하고, 오직 AND 기능만 갖춘 네트워크보다 더 빠르게 수렴하고 더 뛰어난 성능을 보였다.
  • 중복된 부정 게이트를 포함한 AND-NEG 네트워크는 깊이 있는 아키텍처에서 특히, 순환적인 훈련 행동과 파라미터 중복으로 인해 AND-NONEG 네트워크보다 훨씬 느리게 수렴하였다.
  • 성능이 연결 크기(CS)가 8일 때 포화 상태에 도달하여, 네트워크의 폭을 더 늘려도 성능 향상이 없음을 확인하였으며, 이는 테스트된 작업에 대해 최적의 용량을 의미한다.
  • 손실 함수는 단계적 감소 패턴을 보였으며, 이는 최적화의 조합적 성격과 시그모이드 도함수의 행동으로 인해 개별 논리 규칙이 이산 단계로 수렴했을 가능성이 있음을 시사한다.
  • 학습된 표면의 정성적 시각화 결과, 높은 성능을 보인 네트워크가 훈련 데이터의 기저 논리 및 산술 다양체를 정확히 포착하고 있음을 확인하였다.
  • AND-OR 네트워크는 AND 및 OR 경로를 동시에 평가해야 하므로 복잡도가 높아, 계산 시간이 상당히 증가하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.