QUICK REVIEW

[논문 리뷰] AdaPrompt: Adaptive Prompt-based Finetuning for Relation Extraction

Xiang Chen, Xin Xie|arXiv (Cornell University)|2021. 04. 15.

Topic Modeling참고 문헌 13인용 수 35

한 줄 요약

AdaPrompt는 관계 추출 작업을 마스킹된 언어 모델링으로 재정의함으로써, 가변 길이 레이블 토큰을 동적으로 선택하고 보조 엔티티 식별자 모델을 통합함으로써 적응형 프롬프트 기반 미세조정 방법을 제안한다. 이는 벤치마크 데이터셋에서 소수의 샘플(파인드셋) 및 감독 학습 설정 모두에서 최신 기술 성능을 달성한다.

ABSTRACT

In this paper, we reformulate the relation extraction task as mask language modeling and propose a novel adaptive prompt-based finetuning approach. We propose an adaptive label words selection mechanism that scatters the relation label into variable number of label tokens to handle the complex multiple label space. We further introduce an auxiliary entity discriminator object to encourage the model to focus on context representation learning. Extensive experiments on benchmark datasets demonstrate that our approach can achieve better performance on both the few-shot and supervised setting.

연구 동기 및 목표

복잡하고 다중 관계 레이블 공간에 도전하기 위해 끈기 있고 적응 가능한 레이블 표현 방식을 제공함으로써 관계 추출 문제를 해결하는 것.
보조 엔티티 식별자 모델을 통해 관계 추출 모델의 맥락 표현 학습을 향상시키는 것.
레이블 복잡도에 맞게 프롬프트 설계를 적응시킴으로써 자원이 제한된(소수의 샘플) 상황에서 모델의 일반화 능력을 향상시키는 것.
프롬프트 기반 미세조정을 마스킹된 언어 모델링과 통합하여 사전 훈련된 언어 모델의 인덕티브 바이어스와 더 잘 일치시키는 것.

제안 방법

입력 시퀀스 주변에 학습 가능한 프롬프트 토큰을 삽입함으로써 관계 추출 작업을 마스킹된 언어 모델링 작업으로 재정의한다.
레이블 복잡도에 따라 각 관계 레이블을 가변 길이의 토큰 시퀀스로 매핑하는 적응형 레이블 단어 선택 메커니즘을 도입한다.
모델이 엔티티 명시어와 그 주변 맥락에 더 효과적으로 집중하도록 유도하기 위해 보조 엔티티 식별자 손실을 활용한다.
마스킹된 언어 모델링 손실과 엔티티 식별자 손실을 조합한 목적함수를 사용하여 모델을 종합적으로 훈련한다.
프롬프트 임베딩과 레이블 워드 임베딩을 함께 최적화하는 방식으로 사전 훈련된 언어 모델(예: BERT)을 백본으로 사용한다.
고정 길이 프롬프트 설계보다 장시간 토큰을 포함한 레이블이나 다중 토큰 관계 레이블을 더 효과적으로 다룰 수 있도록 동적 레이블 토큰화를 적용한다.

실험 결과

연구 질문

RQ1고정 길이 프롬프트 설계에 비해 적응형 가변 길이 레이블 토큰이 관계 추출 성능 향상에 기여하는가?
RQ2보조 엔티티 식별자 모델을 도입함으로써 프롬프트 기반 미세조정에서 맥락 표현 학습에 어떤 영향을 미치는가?
RQ3AdaPrompt는 얼마나 잘 소수의 샘플 관계 추출 설정으로 일반화되는가?
RQ4마스킹된 언어 모델링과 적응형 프롬프트 튜닝의 조합이 사전 훈련된 모델의 인덕티브 바이어스와 더 잘 일치하는가?

주요 결과

AdaPrompt는 소수의 샘플 및 감독 학습 설정 모두에서 표준 벤치마크 데이터셋에서 최신 기술 성능을 달성한다.
적응형 레이블 워드 선택 메커니즘이 복잡하고 다중 토큰 관계 레이블을 레이블 복잡도에 따라 동적으로 토큰 수를 조절함으로써 효과적으로 처리한다.
보조 엔티티 식별자 모델은 예측 과정에서 관련 맥락과 엔티티 스팬에 집중할 수 있는 모델의 능력을 크게 향상시킨다.
자원이 제한된 상황에서도 강력한 일반화 능력을 보이며, 소수의 샘플 평가 프로토콜에서 베이스라인들을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.