[논문 리뷰] Structured Prediction as Translation between Augmented Natural Languages
TANL은 다양한 구조화 예측 작업을 증강된 자연어 간의 번역으로 재구성하고, 단일 생성 모델이 공유 아키텍처와 입력으로 여러 NLP 과제에서 최첨단 결과를 달성하도록 한다.
We propose a new framework, Translation between Augmented Natural Languages (TANL), to solve many structured prediction language tasks including joint entity and relation extraction, nested named entity recognition, relation classification, semantic role labeling, event extraction, coreference resolution, and dialogue state tracking. Instead of tackling the problem by training task-specific discriminative classifiers, we frame it as a translation task between augmented natural languages, from which the task-relevant information can be easily extracted. Our approach can match or outperform task-specific models on all tasks, and in particular, achieves new state-of-the-art results on joint entity and relation extraction (CoNLL04, ADE, NYT, and ACE2005 datasets), relation classification (FewRel and TACRED), and semantic role labeling (CoNLL-2005 and CoNLL-2012). We accomplish this while using the same architecture and hyperparameters for all tasks and even when training a single model to solve all tasks at the same time (multi-task learning). Finally, we show that our framework can also significantly improve the performance in a low-resource regime, thanks to better use of label semantics.
연구 동기 및 목표
- 다양한 구조화된 예측 작업을 단일 생성 프레임워크로 통합하려는 동기.
- 작업별 판별기가 아닌 증강된 자연어를 사용하여 잠재 레이블 시맨틱스를 활용한다.
- 같은 아키텍처와 하이퍼파라미터로 다수의 SP 태스크에서 경쟁력 있거나 최첨단 성능을 보여준다.
- 향상된 레이블 시맨틱 전이를 통해 저자원 상황에서 이점을 보여준다.
- 여러 SP 태스크에 걸쳐 다중태스크 및 단일 모델 학습을 탐구한다.
제안 방법
- 구조화된 정보를 입력/출력 텍스트에 인코딩하는 증강된 자연어를 설계한다.
- 사전에 학습된 Transformer 모델(T5-base)을 사용하고 태스크 간 동일한 아키텍처로 텍스트-투-텍스트 번역으로 SP 태스크를 구성한다.
- 출력 구조를 입력 토큰에 강건하게 매핑하기 위한 DP 기반 정렬(Needleman-Wunsch)을 구현한다.
- NER, 공동 엔터티/관계 추출, SRL, 코어퍼런스, DST 등과 같은 태스크별 출력 형식을 단일 번역 패러다임 내에서 제공한다.
- 데이터셋/태스크 식별자(예: ‘ade:’)로 입력을 접두어 multi-task 학습을 허용하여 단일 모델을 여러 데이터셋에서 학습시킨다.
실험 결과
연구 질문
- RQ1단일 생성 모델이 태스크별 모듈 없이 다수의 구조화된 예측 작업을 해결할 수 있는가?
- RQ2증강된 자연어를 통한 태스크 시맨틱 인코딩이 전이 학습을 향상시키는가, 특히 저자원 설정에서?
- RQ3다양한 SP 태스크에서의 다중태스크 학습이 단일 태스크 모델 대비 성능이 어떤가?
- RQ4생성적 TANL 접근법이 중첩 엔터티나 임의의 관계 그래프와 같은 복잡한 구조를 효과적으로 지원할 수 있는가?
주요 결과
- TANL은 공동 엔터티 및 관계 추출(CoNLL04, ADE, NYT, ACE2005)에서 최첨단 결과를 달성한다.
- TANL은 관계 분류(FewRel 및 TACRED) 및 시맨틱 롤 레이블링(CoNLL-2005 및 CoNLL-2012)에서도 최첨단 결과를 달성한다.
- 다수의 태스크에서 학습된 단일 모델(다중태스크)은 평가된 데이터셋에서 단일태스크 모델과 비교해 동등하거나 더 나은 성능을 보인다.
- 저자원 체제에서 TANL은 레이블 시맨틱스를 더 잘 활용해 상당한 향상을 보인다.
- 생성된 시퀀스의 출력 가능도는 판별적 평가 시나리오에서 클래스 점수의 강력한 대리 지표로 작용할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.