[논문 리뷰] Internet-augmented language models through few-shot prompting for open-domain question answering
요약: 이 논문은 retrieved web 증거를 few-shot 프롬프트로 대형 언어 모델에 조건화하는 것이 개방 도메인 QA 성능을 향상시키며, 때로는 훨씬 더 큰 폐쇄형 모델을 능가하고, 추론 시 컴퓨트 시간을 늘려 다중 증거 재순위가 추가 이득을 낸다는 것을 보여준다.
In this work, we aim to capitalize on the unique few-shot capabilities of large-scale language models (LSLMs) to overcome some of their challenges with respect to grounding to factual and up-to-date information. Motivated by semi-parametric language models (LMs), which ground their decisions in external retrieved evidence, we use few-shot prompting to learn to condition LMs on information returned from the web using Google Search, a broad and constantly updated knowledge source. Our approach does not involve fine-tuning or learning additional parameters, thus making it applicable to any LM, offering therefore a strong baseline. Indeed, we find that LMs conditioned on the web surpass performance of closed-book models of similar, or even larger, model sizes in open-domain question answering. Finally, we find that increasing the inference-time compute of models, achieved via using multiple retrieved evidences to generate multiple answers followed by a reranking stage that uses scores generated by the same LMs, leads to better performance and alleviates lower performance of smaller few-shot LMs. All in all, our findings suggest that it might be beneficial to slow down the race towards the biggest model and instead shift attention towards finding more effective ways to use models, including but not limited to, better prompting or increasing inference-time compute.
연구 동기 및 목표
- 최신 웹 정보를 바탕으로 대형 언어 모델(LLM)을 few-shot 프롬프트로 고정시키는 방법을 활용한다.
- 웹 조건부 LLM이 유사하거나 더 큰 크기의 폐쇄형 베이스라인을 개방 도메인 QA에서 능가할 수 있음을 입증한다.
- 위키피디아를 넘어 구글 등 쿼리 기반의 웹 검색이 보편적 지식 원천으로 작용하는 효과를 탐구한다.
- 다수의 검색 결과 문단 및 재랭킹을 통한 추론 시간 증가가 QA 성능을 개선하는지 조사한다.
제안 방법
- 각 문제에 대해 Google Search(상위 20개 URL)를 사용해 관련 웹 패시지 검색.
- 검색된 문서를 여섯 문장 단락으로 분할하고 TF-IDF 코사인 유사도 기반으로 발췌를 선택해 증거 세트 P를 형성한다.
- 증거 문단으로 보강된 15-shot 인-컨텍스트 예제로 LLM을 프롬프트한다(세부 미세조정 없음).
- 문단당 4개의 후보 정답을 생성하고 직접 추론, 노이즈 채널, PoE 등 스코어링 함수를 통해 최종 답을 선택한다.
- 답의 샘플링을 다수로 시도(n은 최대 50개 문단)하고 재랭크를 통해 정확도를 높인다(RAG, Noisy Channel, PoE).
- 데이터세트(NQ, HotpotQA, Fever, StrategyQA)와 모델 크기(44m–280B)를 평가해 확장성 및 추론 시간 간의 trade-off를 분석한다.
실험 결과
연구 질문
- RQ1few-shot 프롬프트를 통한 웹 증거 조건화가 개방 도메인 QA 성능을 폐쇄형 프롬프트와 비교해 향상시키는가?
- RQ2Google 검색을 통한 검색 품질이 단일 히프(single-hop)와 다중 히프(multi-hop) QA 작업에 어떻게 영향을 미치는가?
- RQ3다중 문단 샘플링 및 재랭킹을 통해 추론 시간 계산을 증가시키면 작은 개방형 모델과 큰 폐쇄형 모델 간의 격차를 좁힐 수 있는가?
- RQ4미세조정 없이도 인터넷 검색으로 LLM을 최신 상태로 유지하는 것이 가능한가?
- RQ5커머셜 검색 엔진을 검색 백본으로 사용할 때의 한계점과 안전성 고려사항은 무엇인가?
주요 결과
| Dataset | SOTA | CB | OB_Google_no_reranking | CB | OB_Gold | OB_Google_a|q,p | OB_Google_PoE | Retrieval performance@50 |
|---|---|---|---|---|---|---|---|---|
| NQ | 51.4 [ 8 ] | 21.7 | 23.1 | 25.8 | 61.7 | 32.7 | 38.4 | 85.0 |
| HotpotQA | 65.2 [ 28 ] | 20.7 | 24.5 | 21.2 | 54.8 | 26.3 | 30.3 | 55.5 |
| Fever | 73.2 [ 31 ] | 44.5 | 52.2 | 44.5 | 66.6 a | 52.0 | 57.2 | 43.3 |
| StrategyQA | 63.6 [ 29 ] | 61.0 | 61.1 | 61.0 | 80.4 | 64.6 | 66.2 | 34.9 |
- Google로 검색된 증거에 Gopher-280B를 조건화하면 네 가지 데이터셋 전반에 걸쳐 폐쇄형 베이스라인보다 일관되게 개방 도메인 QA 성능이 향상된다.
- 생성 태스크에서의 이익이 가장 크며(NQ에서 상대적 개선 약 30%까지), 더 작은 모델에서도 개방형이 더 큰 폐쇄형 모델을 능가하는 경우가 지속된다.
- 다중으로 검색된 문단을 재랭킹(PoE, Noisy Channel, RAG)으로 활용하면 단일 증거 조건화보다 추가 이익이 발생하며, 재랭킹 전략 중 PoE가 종종 최상으로 작동한다.
- 구글 기반 검색은 재현 가능한 회귀율을 보이며, 특정 데이터셋에서 위키피디아 기반 밀집 retriever보다 우수할 때도 있어 웹을 유연한 지식 소스로 활용 가능함을 시사한다.
- 웹 증거와 더 높은 추론 시간 컴퓨트로 보강된 작은 모델은 때때로 훨씬 큰 폐쇄형 모델을 능가하는 강력한 성과를 낸다.
- 올드리 골드-증거 조건화는 상한을 나타내며, 프롬프트 최적화 및 제약된 디코딩을 통한 개선 여지가 있음을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.