QUICK REVIEW

[논문 리뷰] Autoregressive Structured Prediction with Language Models

Tianyu Liu, Yuchen Jiang|arXiv (Cornell University)|2022. 01. 01.

Topic Modeling인용 수 6

한 줄 요약

이 논문은 구조적 예측 작업—이름 있는 실체 인식, 관계 추출, 공명 해결—을 평탄화된 문자열이 아닌 구조 구축 동작의 시퀀스를 생성하는 방식으로 모델링하는 자기회귀적 구조적 예측(ASP) 프레임워크를 제안한다. 스파나이징 생성, 괄호 쌍 지정, 레이블링과 같은 동작를 통해 의도적으로 의존성을 모델링함으로써, 작업 전용 특징이나 데이터 증강 없이 사전 훈련된 언어 모델을 사용하여 세 작업 모두에서 최신 기준 성능을 달성한다.

ABSTRACT

Recent years have seen a paradigm shift in NLP towards using pretrained language models ({PLM}) for a wide range of tasks. However, there are many difficult design decisions to represent structures (e.g. tagged text, coreference chains) in a way such that they can be captured by PLMs. Prior work on structured prediction with PLMs typically flattens the structured output into a sequence, which limits the quality of structural information being learned and leads to inferior performance compared to classic discriminative models. In this work, we describe an approach to model structures as sequences of actions in an autoregressive manner with PLMs, allowing in-structure dependencies to be learned without any loss. Our approach achieves the new state-of-the-art on all the structured prediction tasks we looked at, namely, named entity recognition, end-to-end relation extraction, and coreference resolution.

연구 동기 및 목표

구조적 출력을 문자열로 평탄화하는 것의 한계를 해결하기 위해, 언어 모델 기반의 구조적 예측에서 내부 구조 간 의존성이 은폐되는 문제를 해결한다.
장거리 및 중첩 의존성이 흔한 공명 해결 및 엔드 투 엔드 관계 추출과 같은 고도로 구조화된 자연어 처리 작업의 성능을 향상시키기 위해 노력한다.
사전 훈련된 언어 모델과 호환되며, 해석 가능한 동작의 시퀀스를 통해 구조 제약 조건과 의존성을 명시적으로 모델링하는 프레임워크를 개발한다.
데이터 증강 또는 작업 전용 특징 공학 없이도 이름 있는 실체 인식, 엔드 투 엔드 관계 추출, 공명 해결에서 최신 기준 성능을 달성한다.

제안 방법

목표 구조를 구조 구축 동작, 괄호 쌍 지정 동작, 스팬 레이블링 동작로 구성된 삼중조 ⟨an, bn, zn⟩로 구성된 동작 시퀀스로 표현한다.
입력 토큰에서 스팬을 구축할 수 있도록 [∗ (좌괄호), ] (우괄호), copy와 같은 구조 구축 동작을 사용하여 복잡하고 중첩된 구조를 단계적으로 구축한다.
좌괄호와 우괄호를 매칭하기 위해 괄호 쌍 지정 동작 Bn = {m | m < n ∧ am = [∗}를 활용하여 문법적 잘 구성된 구조를 보장하고 검색 공간을 줄인다.
스패닝 레이블링 동작 Zn = {m | m < n ∧ am = ]} × L을 도입하여 스팬과 스팬 간의 관계를 레이블링함으로써, 이전에 구축된 스팬 기반으로 레이블을 예측할 수 있도록 한다.
강력한 문맥 표현을 가능하게 하기 위해 사전 훈련된 조건부 언어 모델(예: T5)을 사용해 동작 시퀀스를 자기회귀적으로 예측한다.
탐색 전략으로 그리디 디코딩을 적용하며, 향후 작업에서 빔 서치 또는 비자기회귀 디코딩을 통해 성능 향상을 기대할 수 있다.

실험 결과

연구 질문

RQ1구조적 예측을 해석 가능한 구조 구축 동작의 시퀀스로 모델링하는 것이, 구조를 문자열로 평탄화하는 것보다 성능 향상에 기여하는가?
RQ2스패닝 동작을 통한 내부 구조 간 의존성의 명시적 모델링이 공명 해결과 같이 장거리 또는 중첩 의존성이 흔한 작업에서 성능에 어떤 영향을 미치는가?
RQ3사전 훈련된 언어 모델 기반의 통합 프레임워크가 작업 전용 특징이나 데이터 증강 없이 다양한 구조적 예측 작업에서 최신 기준 성능을 달성할 수 있는 정도는 어느 정도인가?
RQ4자기회귀적 동작 생성 프로세스가 복잡한 구조 제약 조건을 포착하는 데서 판별 모델보다 어떻게 다를까?

주요 결과

ASP는 T5-base 모델을 사용하여 ACE-05 공동 실체 및 관계 추출 작업에서 새로운 최신 기준 성능을 달성했으며, 실체의 테스트 F1 스코어는 91.3, 관계의 테스트 F1 스코어는 72.7을 기록했다.
CoNLL-12 공명 해결 벤치마크에서 FLAN-T5-XXL 모델을 사용하여 평균 F1 스코어 82.5를 달성했으며, 이는 이전 최신 기준 성능보다 1.5 F1 포인트 높은 성능이다.
동일한 사전 훈련된 언어 모델 기반 백본을 사용하는 판별 모델보다 ASP는 뚜렷이 뛰어난 성능을 보이며, 블랙박스 예측보다 명시적 구조 모델링의 이점이 있음을 입증한다.
ASP는 데이터 증강이나 작업 전용 특징 공학 없이도 이름 있는 실체 인식, 엔드 투 엔드 관계 추출, 공명 해결 세 작업 모두에서 뛰어난 성능을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.