[논문 리뷰] Explaining Question Answering Models through Text Generation
본 논문은 언어-model 기반 생성기가 텍스트 가설을 출력하고 이를 분류기가 사용하여 정답을 선택하는_generator–classifier_ QA 모델을 제시하여, LM이 사용하는 지식의 해석 가능성을 경쟁력 있는 성능을 희생하지 않고 확보한다.
Large pre-trained language models (LMs) have been shown to perform surprisingly well when fine-tuned on tasks that require commonsense and world knowledge. However, in end-to-end architectures, it is difficult to explain what is the knowledge in the LM that allows it to make a correct prediction. In this work, we propose a model for multi-choice question answering, where a LM-based generator generates a textual hypothesis that is later used by a classifier to answer the question. The hypothesis provides a window into the information used by the fine-tuned LM that can be inspected by humans. A key challenge in this setup is how to constrain the model to generate hypotheses that are meaningful to humans. We tackle this by (a) joint training with a simple similarity classifier that encourages meaningful hypotheses, and (b) by adding loss functions that encourage natural text without repetitions. We show on several tasks that our model reaches performance that is comparable to end-to-end architectures, while producing hypotheses that elucidate the knowledge used by the LM for answering the question.
연구 동기 및 목표
- 답변에 사용된 지식을 밝히기 위해 다지선다형 QA에서 설명 가능한 LM 기반 모델을 조사한다.
- 질문에 조건화된 사람에게 해석 가능한 텍스트 가설을 출력하는 생성기를 개발한다.
- 생성된 가설에 의존하는 분류기를 학습시키고 가설이 의미 있고 자연스럽도록 제약한다.
제안 방법
- 질문으로부터 텍스트 가설을 생성하기 위해 사전 학습된 자기회귀 LM(GPT-2 또는 XLNet)을 생성기로 사용한다.
- 질문, 가설, 정답 선택지를 이용해 올바른 정답을 예측하는 분류기와 생성기를 연결한다.
- 이산 생성의 비미분 가능성을 직통(straight-through) Gumbel-Softmax로 해결하여 엔드 투 엔드 학습을 가능하게 한다.
- 의미 있는 가설을 장려하기 위해 유사성 분류기(단어 임베딩 기반)를 도입하여 다운스트림 모델이 이 가설을 활용하도록 한다.
- 가설이 의사결정에 정보를 주도록 강력한 LM 기반 분류기와 유사성 분류기를 함께 학습시킨다.
- KL-발산 규제, 반복 페널티, Top-K 디코딩 등 추가 설명 가능성 메커니즘을 적용해 가설의 질과 다양성을 향상시킨다.
실험 결과
연구 질문
- RQ1질문 답변 태스크에서 언어 모델에 내재된 어떤 지식이 실제로 답을 내는 데 사용되는가?
- RQ2언어 모델의 내부 지식을 반영하는 인간이 해석 가능한 텍스트 가설을 생성하면서도 경쟁력 있는 QA 성능을 달성할 수 있는가?
- RQ3학습 목표와 디코딩 전략이 생성된 가설의 유용성과 해석 가능성에 어떤 영향을 미치는가?
- RQ4공동 학습 및 보조 손실이 분류기가 생성된 가설을 무시하는 것을 방지하는가?
- RQ5이 접근법이 다른 QA 도메인이나 제로샷 전이로 일반화될 수 있는가?
주요 결과
- 제안된 생성기–분류기 구성은 CSQA에서 엔드투엔드 모델과 비견될 만한 QA 성능을 달성하고 제로샷 환경에서 QASC로의 전이 가능성을 보인다.
- 생성된 가설은 LM의 지식을 들여다보는 창을 제공한다; 누락된 지식, 의미적 오류, 그리고 가설이 예측에 미치는 영향을 보여줄 수 있다.
- 간단한 유사성 분류기가 의미 있는 가설을 장려하고 LM 기반 분류기가 가설을 예측에 활용하도록 돕는다.
- LM 기반 분류기와의 공동 학습은 가설에 대한 의존성을 유지하게 하지만, 유사성 분류기에만 의존하면 가설을 무시하는 예측으로 이어질 수 있다.
- Top-K ST 디코딩은 약한 지도 학습 생성기들 중 종종 최고 QA 정확도를 제공하면서 다양하고 인간이 해석하기 쉬운 가설도 제시한다; 과도한 목적 함수 압력은 정확도를 떨어뜨리지만 자연스러움을 향상시킬 수 있다.
- 사람 평가에 따르면 트레이드오프가 존재한다: QA에 최적화된 가설은 덜 ‘자연스러워’ 보이고, 더 자연스러운 가설은 정확도가 다소 떨어지더라도 해석 가능성을 높인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.