Skip to main content
QUICK REVIEW

[논문 리뷰] The Convolutional Tsetlin Machine

Ole‐Christoffer Granmo, Sondre Glimsdal|arXiv (Cornell University)|2019. 05. 23.
Machine Learning and Algorithms참고 문헌 43인용 수 48
한 줄 요약

Convolutional Tsetlin Machine (CTM)가 해석 가능한 Tsetlin Machine을 이미지 데이터로 확장하여 위치 인식 패치를 갖는 절 기반 합성곱 필터를 사용하고, MNIST, Kuzushiji-MNIST, Fashion-MNIST 및 2D Noisy XOR에서 경쟁력 있는 정확도를 달성한다.

ABSTRACT

Convolutional neural networks (CNNs) have obtained astounding successes for important pattern recognition tasks, but they suffer from high computational complexity and the lack of interpretability. The recent Tsetlin Machine (TM) attempts to address this lack by using easy-to-interpret conjunctive clauses in propositional logic to solve complex pattern recognition problems. The TM provides competitive accuracy in several benchmarks, while keeping the important property of interpretability. It further facilitates hardware-near implementation since inputs, patterns, and outputs are expressed as bits, while recognition and learning rely on straightforward bit manipulation. In this paper, we exploit the TM paradigm by introducing the Convolutional Tsetlin Machine (CTM), as an interpretable alternative to CNNs. Whereas the TM categorizes an image by employing each clause once to the whole image, the CTM uses each clause as a convolution filter. That is, a clause is evaluated multiple times, once per image patch taking part in the convolution. To make the clauses location-aware, each patch is further augmented with its coordinates within the image. The output of a convolution clause is obtained simply by ORing the outcome of evaluating the clause on each patch. In the learning phase of the TM, clauses that evaluate to 1 are contrasted against the input. For the CTM, we instead contrast against one of the patches, randomly selected among the patches that made the clause evaluate to 1. Accordingly, the standard Type I and Type II feedback of the classic TM can be employed directly, without further modification. The CTM obtains a peak test accuracy of 99.4% on MNIST, 96.31% on Kuzushiji-MNIST, 91.5% on Fashion-MNIST, and 100.0% on the 2D Noisy XOR Problem, which is competitive with results reported for simple 4-layer CNNs, BinaryConnect, Logistic Circuits and an FPGA-accelerated Binary CNN.

연구 동기 및 목표

  • Introduce the Convolutional Tsetlin Machine (CTM) as an interpretable alternative to CNNs.
  • Adapt the TM learning rules to operate over image patches via convolution-like filtering.
  • Demonstrate CTM’s recognition and learning performance on standard benchmarks and a 2D XOR task.

제안 방법

  • 이미지를 이진 입력으로 표현하고 크기 W×W×Z×2의 절 기반 합성곱 필터를 정의합니다.
  • 각 이미지 패치를 위치 정보를 인코딩하여 절이 위치를 인식하도록 보강합니다.
  • 각 절을 모든 패치에서 평가하고 OR로 집계하여 이미지당 절 출력을 생성합니다.
  • 클래식 TM의 Type I 및 Type II 피드백을 CTM 설정에 맞게 절 안의 Tsetlin Automata 업데이트로 적용하되, 절을 활성화한 패치들 중 임의의 패치를 선택합니다.
  • 선택적으로 정수 절 가중치를 도입하여 절 간 가중치 투표를 수행합니다.
  • 비트 수준 입력과 간단한 비트 조작으로 병렬화 가능하고 하드웨어 친화적 연산을 시연합니다.

실험 결과

연구 질문

  • RQ1CTM이 해석 가능성을 유지하면서 이미지 분류에 대해 경쟁력 있는 정확도를 달성할 수 있는가?
  • RQ2TM 학습 피드백(Type I 및 Type II)을 합성곱 기반의 패치 설정에 어떻게 적용할 수 있는가?
  • RQ3위치 인식 및 패치별 절 출력이 인식 성능에 미치는 영향은 무엇인가?
  • RQ4절 가중치가 CTM의 정확도와 계산 효율성에 어떤 영향을 미치는가?

주요 결과

  • CTM은 MNIST에서 99.4%, Kuzushiji-MNIST에서 96.31%, Fashion-MNIST에서 91.5%, 2D Noisy XOR에서 100.0%의 최고 테스트 정확도를 달성하며 경쟁 벤치와 비교된 성능을 보여준다.
  • CTM은 절의 수와 이미지 패치 수에 대해 선형적으로 증가하는 계산으로 작동하며 병렬화가 가능한 업데이트의 이점을 얻는다.
  • 위치 정보를 도입하면 필터가 이미지 작업에 적합한 위치 인식 패턴으로 작용하는 데 도움이 된다.
  • 절 가중치는 성능과 효율을 더욱 개선하여 여러 절 대신 단일 가중 투표를 가능하게 한다.
  • CTM은 선택된 데이터셋에서 간단한 CNN, BinaryConnect, Logistic Circuits, FPGA 가속 Binary CNN 대비 경쟁력 있는 결과를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.