[논문 리뷰] Exploring Domain Shift in Extractive Text Summarization
이 논문은 도메인을 기사 출판물로 정의하고, 도메인 간 차이를 연구하기 위해 멀티-도메인 SUM 데이터셋(MULTI-SUM)을 구축하며, 추출 요약에서 교차 도메인 일반화를 위한 메타 학습을 포함한 네 가지 학습 전략을 분석한다.
Although domain shift has been well explored in many NLP applications, it still has received little attention in the domain of extractive text summarization. As a result, the model is under-utilizing the nature of the training data due to ignoring the difference in the distribution of training sets and shows poor generalization on the unseen domain. With the above limitation in mind, in this paper, we first extend the conventional definition of the domain from categories into data sources for the text summarization task. Then we re-purpose a multi-domain summarization dataset and verify how the gap between different domains influences the performance of neural summarization models. Furthermore, we investigate four learning strategies and examine their abilities to deal with the domain shift problem. Experimental results on three different settings show their different characteristics in our new testbed. Our source code including extit{BERT-based}, extit{meta-learning} methods for multi-domain summarization learning and the re-purposed dataset extsc{Multi-SUM} will be available on our project: \url{http://pfliu.com/TransferSum/}.
연구 동기 및 목표
- 요약을 위한 도메인 개념을 범주에서 데이터 소스(게시물 소스)로 확장하여 도메인 간 분포 차이를 연구한다.
- MULTI-SUM 데이터셋을 재목적으로 도메인 간 테스트베드를 생성하고 도메인 내/도메인 외 설정으로 분할한다.
- 추출 요약에서 도메인 시프트를 다루는 다양한 학습 전략을 평가하고 멀티-도메인 학습에 대한 실용적 지침을 제공한다.
제안 방법
- CNN 문장 인코더와 Transformer 문서 인코더(CNN-Transformer)를 사용하여 추출 요약을 문장 레이블링으로 모델링한다.
- 멀티도메인 요약을 위한 네 가지 학습 전략 정의: (I) 기본 멀티도메인 학습, (II) 멀티도메인 학습을 위한 BERT 강화 사전 학습, (III) 도메인 태그 임베딩으로 모델을 도메인 인식 가능하게 만들기, (IV) 도메인 간 그래디언트 업데이트를 정렬하기 위한 메타 학습.
- 도메인 시프트 완화를 수식으로 형식화: L^(k)_I = L(Basic(S^(k), θ^(s)), Y^(k)); L^(k)_III = L(Basic(S^(k), C^(k), θ^(s)), Y^(k)); L^(k)_IV = γ L^(k) + (1-γ) ∑_{j≠k} L^{k←j}, ∀ γ ∈ [0,1].
- Newsroom에서 상위 10개 출판물을 선택하고 학습/테스트 도메인으로 분할하여 MULTI-SUM을 생성; 도메인 내, 도메인 외 및 크로스데이터셋 전이(CNN/DM)로 평가한다.
- ROUGE 지표를 사용하여 벤치마크와 이전 모델과 비교하고 도메인 전이 성능을 평가한다.
실험 결과
연구 질문
- RQ1보지 않은 출판물(도메인)로의 시도가 추출 요약 성능에 어떤 영향을 미치는가?
- RQ2도메인 인식 또는 메타 학습 접근법이 단일 모델 대비 출판물과 데이터셋 간 일반화를 개선할 수 있는가?
- RQ3사전 학습 모델(예: BERT)이 멀티도메인 요약 및 교차 도메인 전이에 어떤 영향을 미치는가?
- RQ4도메인 시프트가 도메인 내-도메인 외-크로스데이터셋 설정에서 추출 요약에 어떻게 나타나는가?
주요 결과
- 추출 요약의 도메인 시프트는 매우 크다: 하나의 출판물에서 학습된 모델이 보지 않은 출판물에서 저성능을 보인다.
- 도메인 인식 모델링(도메인 태그 사용)이 도메인 내 및 도메인 외 ROUGE 성능을 기본 멀티도메인 모델보다 향상시킨다.
- 메타 학습(모델 IV)이 교차 도메인 일반화에 가장 우수하며 도메인 내 성능의 이득은 작지만 보이지 않는 도메인에서 더 큰 이득을 준다.
- 사전 학습된 BERT는 강력한 특징 추출을 제공하고 MULTI-SUM 내에서 도움을 주지만 교차 도메인 전이에서 도메인 인식 또는 메타 학습 전략보다 저조할 수 있다.
- CNN/DailyMail에서 출판물 태그와 BERT를 결합한 구성이 테스트된 설정 중 가장 좋은 성능을 보여주며, 데이터셋 특성에 따른 도메인 신호의 중요성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.