[논문 리뷰] NBDT: Neural-Backed Decision Trees
NBDTs는 신경망의 마지막 계층을 구분 가능하고 비정형 직교 결정 트리로 대체하여 높은 정확도와 해석 가능하고 경로 기반 설명을 제공한다.
Machine learning applications such as finance and medicine demand accurate and justifiable predictions, barring most deep learning methods from use. In response, previous work combines decision trees with deep learning, yielding models that (1) sacrifice interpretability for accuracy or (2) sacrifice accuracy for interpretability. We forgo this dilemma by jointly improving accuracy and interpretability using Neural-Backed Decision Trees (NBDTs). NBDTs replace a neural network's final linear layer with a differentiable sequence of decisions and a surrogate loss. This forces the model to learn high-level concepts and lessens reliance on highly-uncertain decisions, yielding (1) accuracy: NBDTs match or outperform modern neural networks on CIFAR, ImageNet and better generalize to unseen classes by up to 16%. Furthermore, our surrogate loss improves the original model's accuracy by up to 2%. NBDTs also afford (2) interpretability: improving human trustby clearly identifying model mistakes and assisting in dataset debugging. Code and pretrained NBDTs are at https://github.com/alvinwan/neural-backed-decision-trees.
연구 동기 및 목표
- 이미지 분류 작업에서 예측 정확도와 해석 가능성을 공동으로 향상시키는 것을 목표로 한다.
- 신경망의 마지막 선형 계층을 차별화 가능한 oblique 의사결정 트리로 대체한다.
- 트리 감독 손실과 유도된 계층 구조를 도입하여 고수준 개념을 학습한다.
- 경로 확률 기반 추론을 가능하게 하여 불확실한 중간 결정들을 허용한다.
- 보지 않은 클래스에 대한 일반화 성능 향상과 더 신뢰할 수 있는 설명을 입증한다.
제안 방법
- 마지막 선형 계층을 leaf 가중치를 클래스 예측에 연결된 차별화 가능한 oblique 의사결정 트리로 대체한다.
- 소프트(확률적) 경로 탐색을 사용하여 초기 결정이 불확실할 때도 회복이 가능하도록 한다(소프트 추론).
- 해당하는 신경망 가중치로 노드 가중치를 초기화하고 소프트맥스 내적을 통해 자식 확률을 계산한다.
- 사전 학습된 클래스 가중치 벡터에서 계층적 클러스터링을 수행하고 잎 가중치를 평균화하여 내부 노드 가중치를 형성함으로써 유도된 계층 구조를 구성한다.
- 가능한 경우 의미론적 의미를 제공하기 위해 WordNet 개념을 사용하여 내부 노드에 레이블을 부여한다.
- 표준 교차 엔트로피와 계층 경로 분포에 대한 경로 확률 기반 교차 엔트로피를 결합한 트리 감독 손실로 학습하며, 가변 시간 가중치를 부여한다.
실험 결과
연구 질문
- RQ1뉴럴 백드 의사결정 트리(NBDT)가 CIFAR, TinyImageNet, ImageNet에서 현대 신경망과 동등하거나 더 높은 정확도를 달성할 수 있는가?
- RQ2모델 가중치를 기반으로 한 유도된 계층 구조가 데이터 기반이나 WordNet 기반 계층 구조보다 NBDTs에 대해 더 나은 성능을 보이는가?
- RQ3트리 감독 손실이 원래 모델의 정확도를 향상시키고 고수준 의사 결정을 학습하는 데 도움이 되는가?
- RQ4NBDT가 오해소지 있는 라벨과 잘못 분류된 사례를 식별하는 데 있어 중요도 맵보다 더 유용하고 신뢰할 수 있는 설명을 제공하는가?
- RQ5NBDTs가 표준 신경망에 비해 보지 않은 클래스에 대해 더 잘 일반화하는가?
주요 결과
- NBDTs는 CIFAR, TinyImageNet, ImageNet에서 정확도 면에서 현대 네트워크와 대등하거나 우수하다.
- NBDTs는 보지 못한 클래스에 대해 최대 16%까지 일반화하며 원래 모델의 정확도를 최대 2%까지 향상시킬 수 있다.
- 사전 학습된 가중치에서 생성된 유도된 계층 구조가 WordNet 및 데이터 기반 계층 구조보다 정확도에서 우수하다.
- 트리 감독은 경로 확률로 학습을 개선하고 계층 소프트맥스보다 더 나은 성능을 보인다.
- NBDT의 설명은 사용자가 모델의 실수를 더 정확하게 식별하도록 돕고 도전적인 작업에서 신뢰를 높인다.
- 제로샷 상위 클래스 일반화에서 NBDT가 백본보다 여러 상위 클래스 구분에서 우수한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.