[논문 리뷰] LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding
LongBench는 긴 컨텍스트 이해를 위한 최초의 이중언어 다중작업 벤치마크로, 영어와 중국어를 대상으로 21개 작업과 약 4,750개의 테스트 사례를 검토하여 길고 문서에 대해 LLM을 평가하고, 자동화된 ROUGE-L 및 F1 지표를 사용합니다. 이 논문은 모델 성능, 컨텍스트 길이 영향, 회수/요약 기반 컨텍스트 압축을 분석합니다.
Although large language models (LLMs) demonstrate impressive performance for many language tasks, most of them can only handle texts a few thousand tokens long, limiting their applications on longer sequence inputs, such as books, reports, and codebases. Recent works have proposed methods to improve LLMs' long context capabilities by extending context windows and more sophisticated memory mechanisms. However, comprehensive benchmarks tailored for evaluating long context understanding are lacking. In this paper, we introduce LongBench, the first bilingual, multi-task benchmark for long context understanding, enabling a more rigorous evaluation of long context understanding. LongBench comprises 21 datasets across 6 task categories in both English and Chinese, with an average length of 6,711 words (English) and 13,386 characters (Chinese). These tasks cover key long-text application areas including single-doc QA, multi-doc QA, summarization, few-shot learning, synthetic tasks, and code completion. All datasets in LongBench are standardized into a unified format, allowing for effortless automatic evaluation of LLMs. Upon comprehensive evaluation of 8 LLMs on LongBench, we find that: (1) Commercial model (GPT-3.5-Turbo-16k) outperforms other open-sourced models, but still struggles on longer contexts. (2) Scaled position embedding and fine-tuning on longer sequences lead to substantial improvement on long context understanding. (3) Context compression technique such as retrieval brings improvement for model with weak ability on long contexts, but the performance still lags behind models that have strong long context understanding capability. The code and datasets are available at https://github.com/THUDM/LongBench.
연구 동기 및 목표
- 다수의 작업 및 도메인에 걸친 긴 컨텍스트 이해를 위한 포괄적인 이중언어 벤치마크 정의.
- 데이터를 자동 평가를 위한 통합 포맷으로 표준화한다.
- 현행 LLM이 긴 문서에서 어떻게 작동하는지와 컨텍스트 길이가 성능에 어떤 영향을 미치는지 평가한다.
제안 방법
- 영어와 중국어로, 6개 범주(단일 문서 QA, 다중 문서 QA, 요약, 소수 샷 학습, 합성 과제, 코드 완성)에서 21개 작업을 구성한다.
- 자동 지표(ROUGE-L, F1, EM, CLS 정확도)가 포함된 통합 평가 형식으로 데이터 세트를 표준화한다.
- 컨텍스트 길이에 따른 성능 연구를 위해 더 고른 길이 분포를 가진 LongBench-E를 생성한다.
- GPT-3.5-Turbo-16k를 포함한 다양한 공개 모델을 대상으로 0-shot 및 few-shot 설정에서 여덟 개의 긴 컨텍스트 LLM을 평가한다.
- 검색 기반 및 요약 기반 컨텍스트 압축 기법과 이것들이 모델 전반에 미치는 영향을 조사한다.
- 제공된 맥락이 있거나 없는 경우를 비교하여 기억화(memory)와 실제 긴 컨텍스트 이해를 구분해 살펴본다.
실험 결과
연구 질문
- RQ1다양한 언어와 도메인에 걸친 긴 컨텍스트 작업에서 현행 LLM은 어떻게 작동하는가?
- RQ2LongBench와 LongBench-E에서 컨텍스트 길이 증가가 모델 성능에 미치는 영향은 무엇인가?
- RQ3검색 기반 또는 요약 기반 컨텍스트 압축 방법이 지속적으로 긴 컨텍스트 이해를 개선하는가, 그리고 어떤 모델에서 그런가?
- RQ4모델이 긴 문서 작업에서 기억화에 의존하는 정도와 진정한 긴 컨텍스트 이해에 의한 정도는 어느 정도인가?
주요 결과
- 상용 GPT-3.5-Turbo-16k는 일반적으로 오픈 모델보다 우수하지만 여전히 매우 긴 컨텍스트에서 어려움을 겪는다.
- 일부 모델에서 위치 임베딩 확장과 더 긴 시퀀스에 대한 미세조정은 긴 컨텍스트 이해에 상당한 이득을 준다.
- 검색 기반 컨텍스트 압축은 약한 긴 컨텍스트 모델에 도움을 주지만 강한 긴 컨텍스트 능력과의 격차를 완전히 메우지는 못한다.
- 요약 기반 압축은 특정 긴 및 매우 긴 작업에 도움이 될 수 있지만 벤치마크 전반에서의 이점은 제한적이다.
- LongBench-E는 긴 컨텍스트에서 학습되었거나 긴 컨텍스트에 대해 미세조정된 모델조차도 컨텍스트 길이가 증가함에 따라 성능이 급격히 떨어질 수 있음을 보여주며, 진정한 긴 컨텍스트의 어려움을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.