[논문 리뷰] Learning and Evaluating General Linguistic Intelligence
이 논문은 언어 작업에 대한 일반적인 언어 지능을 정의하고, 빠른 적응을 측정하기 위한 온라인 프리퀼 코딩 지표를 제안하며, 여러 NLP 작업에 걸쳐 전이, 일반화 및 망각에 대해 최첨단 모델을 실증적으로 감사합니다. 현재 모델은 여전히 상당한 도메인 내 데이터가 필요하고 재앙적 망각을 겪으며, 일반적인 언어 작업을 해결하기보다 특정 데이터셋에 과적합하는 경향이 있습니다.
We define general linguistic intelligence as the ability to reuse previously acquired knowledge about a language's lexicon, syntax, semantics, and pragmatic conventions to adapt to new tasks quickly. Using this definition, we analyze state-of-the-art natural language understanding models and conduct an extensive empirical investigation to evaluate them against these criteria through a series of experiments that assess the task-independence of the knowledge being acquired by the learning process. In addition to task performance, we propose a new evaluation metric based on an online encoding of the test data that quantifies how quickly an existing agent (model) learns a new task. Our results show that while the field has made impressive progress in terms of model architectures that generalize to many tasks, these models still require a lot of in-domain training examples (e.g., for fine tuning, training task-specific modules), and are prone to catastrophic forgetting. Moreover, we find that far from solving general tasks (e.g., document question answering), our models are overfitting to the quirks of particular datasets (e.g., SQuAD). We discuss missing components and conjecture on how to make progress toward general linguistic intelligence.
연구 동기 및 목표
- 일반적인 언어 지능을 이전의 언어 지식을 재사용하여 새로운 작업에 신속하게 적응하는 능력으로 정의한다.
- 최신 NLP 모델의 작업 독립성과 지식 재사용을 평가한다.
- 새로운 작업에 대한 빠른 학습을 정량화하기 위한 온라인 프리퀼 코딩 지표를 제안하고 검증한다.
- 연속 학습 환경에서 전이 학습, 데이터셋 간 일반화, 그리고 망각을 분석한다.
제안 방법
- 두 가지 주요 모델 클래스: 트랜스포머 기반(BERT)과 순환형(ELMo+BiDAF) 아키텍처를 사용한다.
- 사전학습은 비지도 목표와/또는 다른 감독 학습 과제로 수행한 뒤, SQuAD 및 MNLI와 같은 대상 작업에 미세조정한다.
- 새로운 작업을 학습하기 위해 모델이 필요한 학습 예제 수를 측정하기 위해 프리퀼 코딩 기반의 온라인 코덜길이를 도입한다.
- SQuAD로 학습된 모델을 TriviaQA, QuAC, QA-SRL, QA-ZRE 데이터셋에서 일반화 시험으로 평가한다.
- 비지도→SQuAD→MNLI/TriviaQA와 같은 작업 시퀀스를 학습하여 지속적 학습에서의 망각과 커리큘럼 효과를 연구한다.
- 메모리 모듈, 메타 학습, 향상된 커리큘럼을 통한 개선 가능성에 대해 논의한다.
실험 결과
연구 질문
- RQ1 existing 모델이 prior training을 바탕으로 새로운 언어 작업에 얼마나 빨리 적응하는가?
- RQ2동일 작업 내에서 추가 미세조정 없이도 프리트레인된 모델이 데이터셋 간에 얼마나 일반화하는가?
- RQ3관련 작업에 대한 프리트레이닝이 표본 효율성과 대상 작업의 최종 성능에 어떤 영향을 미치는가?
- RQ4지속적 학습에서 커리큘럼이 이전에 학습한 작업의 망각에 어떤 영향을 미치는가?
- RQ5메모리 또는 메타 학습 접근법이 도메인 시프트와 재앙적 망각에 대한 강건성을 개선할 수 있는가?
주요 결과
- 사전학습은 도메인 내 데이터의 필요성을 크게 줄이지만, SQuAD와 MNLI에서 수렴적 성능에 다가가려면 여전히 약 4만 예제가 필요하다.
- 다른 감독 학습 과제로 사전학습된 모델은 온라인 코덜길이가 더 좋게 나타나는 경우가 많아, 최종 정확도는 비슷하더라도 실제 학습 속도가 빠르다.
- 높은 성능의 SQuAD 모델은 추가 학습 데이터가 그 데이터셋에서 아닌 TriviaQA, QuAC, QA-SRL, QA-ZRE로는 일반화되지 않는다.
- 지속적 학습은 이전 작업의 망각을 빠르게 초래하며, 작업별 최종 계층이 존재하더라도 더 나은 전이 및 메모리 메커니즘의 필요성을 강조한다.
- 랜덤 멀티태스크 커리큘럼은 망각을 완화하고 작업 간 경쟁력 있는 성능을 달성할 수 있지만, 시작 시 모든 작업을 보거나 재학습이 필요할 수 있다.
- 논문은 탄력적 가중치 통합, 메모리 모듈, 메타 학습 등 일반적인 언어 지능으로의 경로로서의 potential 개선점을 논의한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.