Skip to main content
QUICK REVIEW

[논문 리뷰] Train Once, Test Anywhere: Zero-Shot Learning for Text Classification

Pushpankar Kumar Pushp, Muktabh Mayank Srivastava|arXiv (Cornell University)|2017. 12. 16.
Domain Adaptation and Few-Shot Learning참고 문헌 2인용 수 75
한 줄 요약

이 논문은 재학습 없이도 교차 데이터셋 일반화를 가능하게 하는 이진 설정에서 문장-태그 관련성을 예측하여 텍스트 분류를 위한 제로샷 학습 프레임워크를 제시한다. SEO 태그가 있는 웹 헤드라인의 소스 데이터셋을 사용한 세 가지 신경망 아키텍처를 제시하고 교차 데이터셋 전이를 시연한다.

ABSTRACT

Zero-shot Learners are models capable of predicting unseen classes. In this work, we propose a Zero-shot Learning approach for text categorization. Our method involves training model on a large corpus of sentences to learn the relationship between a sentence and embedding of sentence's tags. Learning such relationship makes the model generalize to unseen sentences, tags, and even new datasets provided they can be put into same embedding space. The model learns to predict whether a given sentence is related to a tag or not; unlike other classifiers that learn to classify the sentence as one of the possible classes. We propose three different neural networks for the task and report their accuracy on the test set of the dataset used for training them as well as two other standard datasets for which no retraining was done. We show that our models generalize well across new unseen classes in both cases. Although the models do not achieve the accuracy level of the state of the art supervised models, yet it evidently is a step forward towards general intelligence in natural language processing.

연구 동기 및 목표

  • 텍스트 분류를 문장과 태그 사이의 이진 관련성 문제로 제로샷 학습 프레임워크로 소개한다.
  • 모델이 하나의 데이터셋에서 학습되어도 다른 데이터셋의 데이터를 재학습 없이 분류할 수 있도록 교차 데이터셋 일반화를 가능하게 한다.
  • 제로샷 텍스트 분류를 위한 세 가지 신경망 아키텍처를 제안하고 평가한다.
  • 노이즈가 많고 대규모 데이터로의 학습이 일반화 능력을 개선할 수 있음을 보여 준다.

제안 방법

  • 작업을 이진 분류로 모델링한다: 주어진 문장이 주어진 태그와 관련이 있는지 예측한다.
  • 이진 교차 엔트로피 손실을 사용하여 SEO 태그가 달린 대규모 소스 데이터셋의 뉴스 헤드라인에서 학습한다.
  • 세 가지 아키텍처를 개발한다: Architecture 1은 평균 풀링된 단어 임베딩을 태그 임베딩과 연결(concatenated)한 것; Architecture 2는 문장 단어에 대한 LSTM을 사용하고 마지막 은닉 상태를 태그 임베딩과 연결한 것; Architecture 3은 [tag embedding : word] 입력에 대한 LSTM을 사용하고 마지막 은닉 상태를 예측에 사용한다.
  • 단어 임베딩은 사전 학습된 Google News 임베딩으로 초기화한다.
  • 카테고리 트리 접근법을 사용하여 태그를 더 넓은 클래스로 매핑하는 방식으로 소스 데이터셋의 보지 않은 태그뿐만 아니라 UCI News Aggregator 및 Tweet Classification 데이터셋에 대해 평가한다.

실험 결과

연구 질문

  • RQ1제로샷 학습이 재학습 없이 보지 못한 태그와 데이터셋 간의 문장-태그 관련성을 예측할 수 있는가?
  • RQ2문장 및 태그 임베딩을 활용하는 신경망 아키텍처가 새로운 데이터셋 및 카테고리의 세분화 수준에 일반화될 수 있는가?
  • RQ3교차 데이터셷 평가를 위해 카테고리 트리와 직접 태그 이름을 사용할 때 성능 차이가 있는가?

주요 결과

  • 아키텍처는 이진 관련성 태스크의 소스 데이터셋 테스트 세트에서 최대 74%의 정확도를 달성한다.
  • 아키텍처 3의 경우 소스 데이터셋의 보지 않은 태그에 대해 정확도가 78%로 향상된다.
  • UCI News Aggregator 데이터셋에서 카테고리 트리 접근법은 아키텍처에 따라 61.73%–64.21%의 정확도를 보이며, 감독 학습의 최첨단 수준보다는 낮지만 재학습 없이 교차 데이터셇 일반화를 시현한다.
  • Tweet Classification 데이터셋에서 카테고리 트리 기반 결과는 Architecture 3에 대해 약 64.5%이고, 직접 클래스 이름 분류는 Architecture 3에서 49%이다.
  • 전반적으로 모델은 문장과 태그 간의 관련성을 학습하고 보지 못한 데이터셋과 개념으로 일반화하는 능력을 보이나 개선의 여지가 있다.
  • 본 연구는 노이즈가 많은 웹 소스 데이터 학습이 더 일반화된 표현을 낳을 수 있음을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.