[논문 리뷰] Make Your LLM Fully Utilize the Context
이 논문은 In2 훈련을 도입하여 LLM이 긴 맥락에서 어떤 위치에서든 정보를 추출하고 통합하도록 가르치며, FilM-7B를 생성하고 이는 길이 맥락 탐색 및 실제 작업에서 기준선보다 우수하며 짧은 맥락 성능도 유지합니다.
While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.
연구 동기 및 목표
- 긴 맥락 LLM에서 중간 맥락 정보가 충분히 활용되지 않는 문제인 '중간에서 잃어버림(lost-in-the-middle)'를 동기를 부여하고 해결한다.
- 정보가 긴 맥락 전체에 분산될 수 있음을 명시적으로 가르치는 순수 데이터 기반의 In2 훈련 방법을 제안한다.
- 짧은 세그먼트로 합성된 긴 맥락 QA 데이터가 프로빙과 실제 작업 모두를 개선할 수 있음을 보여준다.
- FilM-7B가 긴 맥락 처리를 향상시키면서도 짧은 맥락 능력을 유지함을 입증한다.
제안 방법
- 일반 코퍼스에서 긴 맥락(4K–32K 토큰) 안의 하나 이상의 128-token 세그먼트에서 정보를 요구하는 질문을 생성해 데이터세트 D를 구성한다.
- GPT-4-Turbo로 QA 쌍을 생성하고 세그먼트를 연결하고 섞어서 긴 맥락을 구성한다.
- 정밀한 단일 세그먼트 인식과 다중 세그먼트 통합/추론의 두 가지 QA 유형을 만든다.
- 4K–32K 토큰의 맥락 길이를 거부 샘플링으로 균형 있게 조정하고 잊어버림을 방지하기 위해 짧은 맥락 및 일반 지시 학습 데이터를 혼합한다.
- In2 훈련을 사용해 FilM-7B를 얻기 위해 Mistral-7B-Instruct-v0.2를 지시 학습으로 미세조정하고, 약 14K 스텝, 128 사이즈 배치, 16 노드에서 FSDP로 수행한다.
실험 결과
연구 질문
- RQ1정보 집약적(In2) 학습 패러다임이 긴 맥락 어디에나 중요한 정보가 있을 수 있음을 강조함으로써 '중간에서 잃어버림' 현상을 감소시킬 수 있는가?
- RQ2합성된 긴 맥락 QA 데이터로의 학습이 문서, 코드, 구조화 데이터 맥락에서의 프로빙 강건성에 어떤 영향을 미치는가?
- RQ3FilM-7B가 짧은 맥락 성능을 해치지 않으면서 실제 장-맥락 작업을 개선하는가?
주요 결과
- FilM-7B는 중간에서 잃어버림을 크게 완화하고 32K 맥락 창의 여러 위치에서 VaL 프로빙 작업에 대해 견고한 성능을 보인다.
- FilM-7B는 프로빙 작업에서 GPT-4-Turbo에 필적하거나 더 나은 성능을 달성하고 문서 및 코드 맥락에서 견고함을 보인다.
- FilM-7B는 실제 장-맥락 작업(예: NarrativeQA)에서 현저한 개선을 보이면서도 짧은 맥락 성능(MMLU)과 비등한 수준을 유지한다.
- 합성된 긴 맥락 데이터로의 학습은 실제 상황으로 일반화되며 FilM-7B는 약 7B 오픈소스 모델 중 긴 맥락 벤치마크에서 SOTA 수준의 결과를 얻는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.