QUICK REVIEW

[논문 리뷰] Building Efficient Universal Classifiers with Natural Language Inference

Moritz Laurer, Wouter van Atteveldt|arXiv (Cornell University)|2023. 12. 29.

Topic Modeling인용 수 10

한 줄 요약

논문은 자연어 포함추론(NLI)이 보편적이고 효율적인 분류 작업으로 작용할 수 있음을 보여주고, 33개 데이터세트에 대해 389개 클래스로 학습된 실용적 파이프라인과 보편 분류기를 제공하며, NLI 전용 모델 대비 제로샷 성능을 9.4% 향상시킨다.

ABSTRACT

Generative Large Language Models (LLMs) have become the mainstream choice for fewshot and zeroshot learning thanks to the universality of text generation. Many users, however, do not need the broad capabilities of generative LLMs when they only want to automate a classification task. Smaller BERT-like models can also learn universal tasks, which allow them to do any text classification task without requiring fine-tuning (zeroshot classification) or to learn new tasks with only a few examples (fewshot), while being significantly more efficient than generative LLMs. This paper (1) explains how Natural Language Inference (NLI) can be used as a universal classification task that follows similar principles as instruction fine-tuning of generative LLMs, (2) provides a step-by-step guide with reusable Jupyter notebooks for building a universal classifier, and (3) shares the resulting universal classifier that is trained on 33 datasets with 389 diverse classes. Parts of the code we share has been used to train our older zeroshot classifiers that have been downloaded more than 55 million times via the Hugging Face Hub as of December 2023. Our new classifier improves zeroshot performance by 9.4%.

연구 동기 및 목표

NLI가 제로샷 및 소수샷 학습을 위한 보편적인 분류 작업으로 작용할 수 있음을 보여준다.
NLI와 비-NLI 데이터를 결합한 보편 분류기를 구축하는 실용적이고 재현 가능한 파이프라인을 제공한다.
다양한 데이터세트로 학습된 보편 분류기를 공개하고 새로운 작업 및 도메인에 이를 적용하기 위한 가이드를 제공한다.

제안 방법

다섯 개의 NLI 데이터셋과 28개의 비-NLI 데이터셋을 단일 이진 함축(entailment) 형식으로 조화시킨다.
비-NLI 클래스를 가설 문장으로 변환하고 평가를 위해 텍스트를 모든 클래스 가설과 쌍으로 매칭한다.
결합된 가설–전제 데이터에 이진 함축 목표로 encoder-only 트랜스포머(DeBERTaV3)를 미세조정한다.
28개의 보류된 작업과 도메인 내 작업에서 균형 정확도로 모델을 평가한다.
보편 분류기를 학습, 평가 및 적응시키기 위한 노트북과 도구를 제공하고; 추천 모델로 deberta-v3-zeroshot-v1.1-all-33를 공개한다.

Figure 1: Illustration of universal classification with BERT-NLI based on Laurer et al., 2023a

실험 결과

연구 질문

RQ1NLI를 작업별 미세 조정 없이도 다양한 태스크 간 제로샷 분류를 수행하는 보편한 태스크로 사용할 수 있는가?
RQ2NLI 데이터와 비-NLI 분류 데이터를 혼합하는 것이 NLI 데이터만 사용하는 것보다 제로샷 및 소수샷 일반화를 개선하는가?
RQ3다중 클래스 분류에 NLI를 사용할 때의 계산 비용의 트레이드오프는 무엇이며, 클래스 수에 따라 어떻게 확장되는가?

주요 결과

NLI와 비-NLI 데이터를 혼합한 훈련 세트가 NLI 전용 훈련보다 제로샷 성능을 더 높이며 평균 9.4%의 향상을 보인다.
33개 데이터세트와 389개 클래스에서 학습된 보편 분류기가 더 넓은 태스크 범위를 보이고 일반화가 더 좋으며 보류 데이터세트도 포함한다.
다운스트림 제로샷 분류 작업에는 deberta-v3-zeroshot-v1.1-all-33 모델을 권장한다.
한 번의 실행당 대략 900만 개의 가설–전제 쌍으로 학습하는 데 최신 GPU에서 수 시간 걸리며, 보류 평가를 위해서는 여러 차례의 실행이 필요하다.
혼합 작업 모델이 특정 데이터세트에서 NLI-전용 모델보다 성능이 떨어지는 부정적 전달 사례가 있지만, 전반적인 이득은 견고하다.

Figure 3: Mean performance across 28 classification tasks.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.