[논문 리뷰] Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering
이 논문은 질문에 대한 모든 문단 간 점수를 정규화함으로써 답변 선택을 향상시키는 전역 정규화 BERT 모델인 Multi-passage BERT를 제안한다. 슬라이딩 윈도우 기반의 문단 분할(100자 단위), BERT 기반의 문단 랭커, 그리고 전역 정규화를 조합함으로써, 이 모델은 OpenSQuAD에서 이전의 모든 모델보다 21.4% EM과 21.5% F1을 향상시켜 최신 기준 성능을 달성한다.
BERT model has been successfully applied to open-domain QA tasks. However, previous work trains BERT by viewing passages corresponding to the same question as independent training instances, which may cause incomparable scores for answers from different passages. To tackle this issue, we propose a multi-passage BERT model to globally normalize answer scores across all passages of the same question, and this change enables our QA model find better answers by utilizing more passages. In addition, we find that splitting articles into passages with the length of 100 words by sliding window improves performance by 4%. By leveraging a passage ranker to select high-quality passages, multi-passage BERT gains additional 2%. Experiments on four standard benchmarks showed that our multi-passage BERT outperforms all state-of-the-art models on all benchmarks. In particular, on the OpenSQuAD dataset, our model gains 21.4% EM and 21.5% $F_1$ over all non-BERT models, and 5.8% EM and 6.5% $F_1$ over BERT-based models.
연구 동기 및 목표
- BERT 기반 개방형 QA에서 학습 시 각 문단가 독립적으로 취급되면서도 답변 점수가 상호 비교 불가능한 문제를 해결한다.
- 특히 장문의 기사를 더 짧은 문단으로 나누는 것이 성능 향상에 기여하는지 여부를 포함해, 개방형 QA의 최적의 문단 크기(granularity)를 조사한다.
- BERT 기반 모델에서 고품질의 문단을 선별하는 데 효과적인 문단 랭커의 유효성을 평가한다.
- BERT가 이미 교차 시퀀스 어텐션을 내재적으로 캡처하므로, 명시적인 문장 간 매칭 메커니즘이 여전히 필요한지 확인한다.
- 전체 질문에 대해 동일한 질문에 대한 모든 문단의 점수를 활용하여 답변 선택을 향상시키는 전역 정규화 다중 문단 BERT 모델을 개발하고 검증한다.
제안 방법
- 제안된 Multi-passage BERT는 주어진 질문에 대해 모든 문단의 답변 스패닝 점수에 대해 전역 소프트맥스 정규화를 적용하여, 문단 간 점수 비교가 가능하도록 보장한다.
- 성능 향상과 더불어 더 많은 관련 맥락을 포착하기 위해, 100자 단위의 슬라이딩 윈도우를 사용해 장문의 기사를 문단으로 분할한다.
- 각 문단에 대해 [CLS] 토큰 표현을 기반으로 단일 점수를 할당하고, 소프트맥스를 사용해 전역적으로 문단을 랭킹하는 BERT 기반 문단 랭커를 도입한다.
- 동일한 질문-문단 쌍을 사용하여 정답을 포함한 문단의 로그우도를 최대화하도록 문단 랭커를 훈련한다.
- 공유된 BERT 인코더를 사용하여 모든 문단의 예측을 조합하고, 문단 간 모든 스팬 점수에 대해 소프트맥스를 적용함으로써 답변 점수에 전역 정규화를 적용한다.
- 문단 랭킹과 답변 스팬 예측에 모두 공유된 BERT 인코더를 사용하며, 종합 목표를 최적화하기 위해 피지컬 테이닝을 수행하여 종단 간 성능을 향상시킨다.
실험 결과
연구 질문
- RQ1동일한 질문에 대해 여러 문단의 답변 점수를 전역적으로 정규화하면, 개방형 QA에서 모델의 안정성과 성능이 향상되는가?
- RQ2개방형 QA에서 최적의 문단 크기는 무엇인가? 특히 100자 슬라이딩 윈도우로 기사를 분할하면 성능 향상이 이루어지는가?
- RQ3BERT 기반 문단 랭커는 저품질 문단을 걸러내는 데 효과적이며, 답변 예측에 BERT를 사용하는 경우에도 여전히 성능 향상에 기여하는가?
- RQ4BERT의 멀티헤드 자기어텐션 기능이 이미 질문과 문단 간 교차 어텐션을 캡처하므로, 명시적인 문장 간 매칭 메커니즘은 여전히 필요한가?
- RQ5전역 정규화 다중 문단 BERT 모델은 여러 개방형 QA 벤치마크에서 기존 최신 기준 모델을 초월할 수 있는가?
주요 결과
- 10개 이상의 문단을 사용할 경우, 답변 점수를 전역적으로 정규화하면 점수의 비합리적 비교 문제를 방지함으로써 모델의 안정성과 성능이 크게 향상된다.
- 100자 슬라이딩 윈도우를 사용해 기사를 문단으로 분할하면 OpenSQuAD 벤치마크에서 성능이 4% 향상된다.
- BERT 기반 문단 랭커를 활용하면 OpenSQuAD에서 추가로 2%의 성능 향상이 이루어지며, 이는 저품질 문단을 걸러내는 데서 유의미한 가치를 지닌다.
- BERT 기반 모델에서는 명시적인 문장 간 매칭 메커니즘이 유익하지 않으며, BERT의 자기어텐션 기능이 이미 질문과 문단 간 필수적인 교차 어텐션을 캡처하고 있기 때문이다.
- Multi-passage BERT는 OpenSQuAD에서 비-BERT 모델보다 21.4% EM과 21.5% F1을 향상시키며, BERT 기반 모델들 역시 5.8% EM과 6.5% F1을 초월한다.
- 이 모델은 네 가지 표준 벤치마크에서 일관된 성능 향상을 보이며, 비-BERT 및 BERT 기반 기준 모델을 모두 능가하는 최신 기준 성능을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.