QUICK REVIEW

[논문 리뷰] Rethinking Concept Bottleneck Models: From Pitfalls to Solutions

Merve Tapli, Quentin Bouniot|arXiv (Cornell University)|2026. 03. 05.

Explainable Artificial Intelligence (XAI)인용 수 0

한 줄 요약

CBM-Suite는 엔트로피 기반 개념 관련성 지표를 제시하고 비선형 개념 인코더를 도입하며 교사 가이드 디스틸레이션으로 정확도 격차를 줄이고, CBMs의 해석 가능성과 성능을 개선하기 위한 광범위한 백본–VLM 평가를 수행합니다.

ABSTRACT

Concept Bottleneck Models (CBMs) ground predictions in human-understandable concepts but face fundamental limitations: the absence of a metric to pre-evaluate concept relevance, the "linearity problem" causing recent CBMs to bypass the concept bottleneck entirely, an accuracy gap compared to opaque models, and finally the lack of systematic study on the impact of different visual backbones and VLMs. We introduce CBM-Suite, a methodological framework to systematically addresses these challenges. First, we propose an entropy-based metric to quantify the intrinsic suitability of a concept set for a given dataset. Second, we resolve the linearity problem by inserting a non-linear layer between concept activations and the classifier, which ensures that model accuracy faithfully reflects concept relevance. Third, we narrow the accuracy gap by leveraging a distillation loss guided by a linear teacher probe. Finally, we provide comprehensive analyses on how different vision encoders, vision-language models, and concept sets interact to influence accuracy and interpretability in CBMs. Extensive evaluations show that CBM-Suite yields more accurate models and provides insights for improving concept-based interpretability.

연구 동기 및 목표

Concept Bottleneck Models (CBMs)가 해석 가능성과 정확도에서 왜 어려움을 겪는지 평가한다.
의미 있는 개념을 선택하기 위한 사전 학습 개념 관련성 메트릭을 개발하여 의미 있는 개념을 선택한다.
비선형성과 개념 의존성을 강제하기 위한 아키텍처 변경을 도입한다.
디스틸레이션 기반 학습 체계를 통해 정확도 격차를 해소한다.
다양한 비전 인코더와 비전-언어 모델이 CBM 성능에 미치는 영향을 체계적으로 연구한다.

제안 방법

훈련 전에 개념 집합의 관련성을 평가하기 위해 VLM 이미지/텍스트 임베딩에서 계산된 엔트로피 기반 메트릭으로 Goodness of Concepts를 정의한다.
개념 병목 사용을 보장하기 위해 두 개의 선형 층 사이에 ReLU를 삽입하여 비선형 개념 인코더를 구현한다.
정답 백본 프로브(교사)로부터 CBM 분류기에 지식 증류 손실을 적용하여 정확도 격차를 줄인다.
최종 분류기에 대해 엘라스틱넷 정규화로 훈련하여 해석 가능하고 희소한 개념 사용을 촉진한다.
다양한 비전 백본 및 VLM에 대해 평가하여 인코더 선택이 정확도와 해석 가능성에 미치는 영향을 분석한다.

실험 결과

연구 질문

RQ1CBM 훈련 전에 주어진 개념 집합의 내재적 관련성을 어떻게 정량화할 수 있는가?
RQ2개념 인코더에 비선형성을 추가하면 개념 병목의 우회가 방지되는가?
RQ3지식 증류를 통한 불투명한 교사 모델이 해석 가능성을 유지하면서 CBM의 정확도 격차를 줄일 수 있는가?
RQ4다른 비전 인코더와 비전-언어 모델이 CBM의 정확도와 해석 가능성에 어떤 상호 작용을 보이는가?

주요 결과

작업에 독립적이고 작업 특이적인 엔트리로라- 기반 Goodness of Concepts 메트릭은 관련 개념 집합과 무관하거나 무작위인 것을 신뢰성 있게 구분한다.
순수하게 선형적인 CBMs는 관련 없는 개념이 있어도 높은 정확도를 달성하여 개념 누출과 해석 가능성 저하를 나타낸다.
개념 인코더에 비선형 인코더가 필요하며, 관련 없는 개념을 사용할 때 성능 저하가 발생한다.
교사 모델로부터의 지식 증류는 CBM의 정확도를 크게 향상시키고 불투명한 기본선과의 격차를 좁힌다.
더 강한 비전 백본 및 특정 VLM(예: Perc. Enc. with SigLIP 또는 CLIP 변형)이 데이터셋 전반에서 CBM 성능을 높인다.
CBM-Suite는 여러 데이터셋(CUB200, CIFAR100, Places365)에서 경쟁력 있거나 우수한 결과를 달성하며 백본-VLM 페어링의 중요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.