[논문 리뷰] RealTime QA: What's the Answer Right Now?
RealTime QA는 시의성 있는 질문에 대한 동적 주간 QA 벤치마크를 제안하고 오픈-북 및 클로즈드-북 베이스라인을 평가하며, 성능의 핵심으로 검색 결과의 신선도 여부를 강조합니다.
We introduce REALTIME QA, a dynamic question answering (QA) platform that announces questions and evaluates systems on a regular basis (weekly in this version). REALTIME QA inquires about the current world, and QA systems need to answer questions about novel events or information. It therefore challenges static, conventional assumptions in open-domain QA datasets and pursues instantaneous applications. We build strong baseline models upon large pretrained language models, including GPT-3 and T5. Our benchmark is an ongoing effort, and this paper presents real-time evaluation results over the past year. Our experimental results show that GPT-3 can often properly update its generation results, based on newly-retrieved documents, highlighting the importance of up-to-date information retrieval. Nonetheless, we find that GPT-3 tends to return outdated answers when retrieved documents do not provide sufficient information to find an answer. This suggests an important avenue for future research: can an open-domain QA system identify such unanswerable cases and communicate with the user or even the retrieval module to modify the retrieval results? We hope that REALTIME QA will spur progress in instantaneous applications of question answering and beyond.
연구 동기 및 목표
- 새로 보도된 뉴스를 기반으로 주간 실시간 QA 벤치마크를 도입하여 시의성 높은 정보 요구를 강조한다.
- 실시간 질의 응답 제출에 대한 주석 부여 및 평가 워크플로우를 개발한다.
- GPT-3, T5, BART를 활용한 오픈-북 및 클로즈드-북 구성에서 강력한 베이스라인을 확립한다.
- 최신 검색이 QA 성능에 미치는 영향을 분석하고 검색 누락과 관련된 실패 모드를 식별한다.
제안 방법
- CNN, USA Today, THE WEEK에서 매주 약 30개의 객관식 질문을 추출한다.
- Google Custom Search가 상위 10개 문서를 검색하고 문서는 구문 분석되어 참가자들이 사용할 수 있도록 저장된다.
- 오픈-북 베이스라인은 문서 검색과 답변 생성을 결합한다(RAG 또는 GPT-3 프롬프트).
- 클로즈드-북 베이스라인은 외부 문서 없이 Natural Questions에 대해 미세조정된 T5와 GPT-3 프롬프트를 사용한다.
- 평가는 Original 및 NOTA를 포함한 객관식과 정확일치 및 토큰 F1을 갖는 생성 설정을 다룬다.
- 날짜 정보 삽입과 프롬프트 및 베이스라인에 미치는 영향을 살펴보는 차등 분석을 수행한다.
실험 결과
연구 질문
- RQ1최신 검색 결과를 활용해 새로운 시의성 있는 사건에 대한 질문에 실시간 QA 시스템이 답할 수 있는가?
- RQ2검색 소스가 최신인지 구식인지에 따라 오픈-북과 클로즈드-북 모델은 어떻게 비교되는가?
- RQ3실시간 QA에서 주요 오류 원인(검색 vs. 독해)은 무엇인가?
- RQ4프롬프트의 시간적 맥락(날짜)이 OpenGPT-3 성능을 향상시키는가, 그리고 그것이 ClosedGPT-3에 어떤 영향을 미치나?
- RQ5시의성 QA에서 NOTA 설정이 모델 성능에 미치는 영향은 무엇인가?
주요 결과
- Open-book GPT-3 with Google Custom Search retrieval substantially outperforms closed-book baselines and past-Wikipedia-retrieval baselines in both exact-match and F1 scores.
- Performance drops notably when NOTA is used, indicating reliance on provided choices and uncertainty handling remains a challenge.
- Retrieval errors account for a large portion of mistakes, highlighting the importance of fast, up-to-date information retrieval for real-time QA.
- Appending temporal date context to prompts generally improves open-book GPT-3 performance, but can hurt some closed-book prompts.
- Timed evaluation shows best performance within about 24 hours after question announcement before temporal gaps degrade results.
- The best overall configuration among the baselines is GCS retrieval with GPT-3 prompting, achieving the highest original EM/F1 and generation scores.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.