[논문 리뷰] General-Purpose Question-Answering with Macaw
Macaw는 다용도, 제로샷, T5 기반 QA 시스템으로, 다각 입력/출력 기능과 설명을 제공하며 Challenge300과 ARC에서 제로샷 성능이 강하고 커뮤니티 사용을 위해 공개적으로 제공된다.
Despite the successes of pretrained language models, there are still few high-quality, general-purpose QA systems that are freely available. In response, we present Macaw, a versatile, generative question-answering (QA) system that we are making available to the community. Macaw is built on UnifiedQA, itself built on T5, and exhibits strong performance, zero-shot, on a wide variety of topics, including outperforming GPT-3 by over 10% (absolute) on Challenge300, a suite of 300 challenge questions, despite being an order of magnitude smaller (11 billion vs. 175 billion parameters). In addition, Macaw allows different permutations ("angles") of its inputs and outputs to be used, for example Macaw can take a question and produce an answer; or take an answer and produce a question; or take an answer and question, and produce multiple-choice options. We describe the system, and illustrate a variety of question types where it produces surprisingly good answers, well outside the training setup. We also identify question classes where it still appears to struggle, offering insights into the limitations of pretrained language models. Macaw is freely available, and we hope that it proves useful to the community. Macaw is available at https://github.com/allenai/macaw
연구 동기 및 목표
- 높은 품질의 범용 QA 시스템이 자유롭게 이용 가능하다는 필요를 해결한다.
- ,
- ],
- objective?
- note
제안 방법
- 다양한 QA 데이터 세트에서 다각 입력/출력 각도를 만들어내기 위해 UnifiedQA의 다각 버전을 학습한다.
- 각도 입력/출력 쌍을 슬롯/값 문자열로 간단한 텍스트 형식으로 인코딩한다.
- 모델을 여러 크기(11B, 3B, large)로 학습시키고 주로 기본 각도에서 평가한다.
- WorldTree에서 retrieved context 및 설명을 추가하여 ARC 및 ARC-DA에서 Macaw를 미세 조정한다.
- 결정적 출력을 위한 탐욕적 디코딩(선택적으로 빔 탐색 포함) 및 개방형 슬롯에 대한 샘플링을 사용한다.
- 정답, 질문, 객관식 옵션, 설명 등 여러 출력 형식을 제공한다.
실험 결과
연구 질문
- RQ1Macaw는 대형 언어 모델과 비교하여 다양한 QA 작업에서 제로샷 성능을 어떻게 발휘하는가?
- RQ2다각 학습이 QA 성능과 다재능성에 어떤 영향을 미치는가?
- RQ3새로운 도메인으로 일반화를 극대화하는 데이터 세트와 각도는 무엇인가?
- RQ4설명 및 입력-출력 순열이 정확도와 신뢰성에 어떤 영향을 미치는가?
주요 결과
- Macaw는 Challenge300에서 강력한 제로샷 성능을 달성하여 GPT-3를 절대 정확도에서 10포인트 이상 능가하는 반면, 규모가 훨씬 작다(11B 대 175B).
- Macaw는 여러 입력/출력 각도를 지원하여 다양한 입력으로 질문 생성, 설명 또는 MC 옵션과 같은 작업을 가능하게 한다.
- 입력 각도에 설명을 포함하면 ARC에서 정답 정확도가 향상되며, 데이터셋에 설명이 있는 경우 더 큰 이득이 발생한다.
- 다각 UnifiedQA는 단일 각도 모델에 비해 성능에는 뒤지지 않으면서 BoolQ, NarrativeQA, SQuAD 2.0, ARC, MCTest, OBQA, RACE 등 데이터셋에서 더 넓은 기능을 가능하게 한다.
- Macaw의 ARC 결과는 강력한 성능을 보이며, 더 큰 모델이 더 높은 정확도를 달성하고 설명을 사용하여 점수를 높일 수 있다.
- Challenge300 결과는 Macaw가 대안들보다 부정확한 응답이 적고 더 나은 성능을 발휘함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.