QUICK REVIEW

[논문 리뷰] NoLiMa: Long-Context Evaluation Beyond Literal Matching

Ali Modarressi, Hanieh Deilamsalehy|ArXiv.org|2025. 02. 07.

Speech and dialogue systems인용 수 4

한 줄 요약

NoLiMa는 최소한의 문자적 중복으로 질문과 바늘 사이를 매치하는 벤치마크를 만들어, 컨텍스트 길이가 증가함에 따라 12개의 인기 있는 긴 컨텍스트 LLM의 은닉 연관 추론 한계를 드러낸다.

ABSTRACT

Recent large language models (LLMs) support long contexts ranging from 128K to 1M tokens. A popular method for evaluating these capabilities is the needle-in-a-haystack (NIAH) test, which involves retrieving a "needle" (relevant information) from a "haystack" (long irrelevant context). Extensions of this approach include increasing distractors, fact chaining, and in-context reasoning. However, in these benchmarks, models can exploit existing literal matches between the needle and haystack to simplify the task. To address this, we introduce NoLiMa, a benchmark extending NIAH with a carefully designed needle set, where questions and needles have minimal lexical overlap, requiring models to infer latent associations to locate the needle within the haystack. We evaluate 13 popular LLMs that claim to support contexts of at least 128K tokens. While they perform well in short contexts (<1K), performance degrades significantly as context length increases. At 32K, for instance, 11 models drop below 50% of their strong short-length baselines. Even GPT-4o, one of the top-performing exceptions, experiences a reduction from an almost-perfect baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the increased difficulty the attention mechanism faces in longer contexts when literal matches are absent, making it harder to retrieve relevant information. Even models enhanced with reasoning capabilities or CoT prompting struggle to maintain performance in long contexts. We publicly release the dataset and evaluation code at https://github.com/adobe-research/NoLiMa.

연구 동기 및 목표

표면적 문자 매칭을 넘어서는 긴 컨텍스트 이해 평가를 고무한다.
질문과 바늘 사이의 어휘 중복을 최소화하는 바늘 세트를 설계하여 은닉 연관 추론을 시험한다.
컨텍스트 길이가 짧은 것에서 매우 긴 것(최대 32K 토큰)으로 확장될 때 최첨단 LLM의 성능을 평가한다.
은닉 홉, 바늘 배치, 문자-일치 제거 등 길이 일반화에 영향을 주는 요인을 분석한다.

제안 방법

질문이 연상 연결(원홉 및 이홉)을 통해 바늘과 연결되도록 NoLiMa 바늘 세트를 구성한다.
열려 있는 책에서 만든 긴 건초더미에 바늘을 삽입하고 주의가 산만하거나 충돌하는 정보를 제거하기 위해 건초더미를 필터링한다.
58개의 질문-바늘 쌍과 길이당 5개의 건초더미를 사용하여 여러 컨텍스트 길이에서 12개의 모델(≥128K 토큰 지원)을 평가한다.
짧은 컨텍스트(1K 이하)에서 계산된 기본 점수로 더 긴 컨텍스트 성능을 정규화한다.
지연 홉의 효과, 역전(질문 구조), 체인 오브 생각(CoT) 프롬프트가 성능에 미치는 영향을 분석한다.
직접 매칭(Direct, MC 설정)으로 인한 문자 일치가 작업 난이도에 미치는 영향을 보여주기 위한 제거 실험(ablations)을 수행한다.

실험 결과

연구 질문

RQ1컨텍스트 길이가 증가함에 따라 문자 중복이 최소화된 상태에서 긴 컨텍스트 조회에 대한 모델 성능이 어떻게 저하되는가?
RQ2은닉 추론 단계(원홉 vs 이홉)와 컨텍스트 내 바늘 배치가 NoLiMa 정확도에 미치는 영향은 무엇인가?
RQ3CoT 프롬프트 및 추론 기반 모델이 길이 일반화 격차를 어느 정도 완화하는가?
RQ4문자 일치나 산만 요소가 긴 컨텍스트 연상 과제에서 모델의 성공에 어떤 영향을 미치는가?

주요 결과

모델	주장된 길이	유효 길이	기초 점수	1K	2K	4K	8K	16K	32K
GPT-4o	128K	8K	99.3 (84.4)	98.1	98.0	95.7	89.2	81.6	69.7
Llama 3.3 70B	128K	2K	97.3 (82.7)	94.2	87.4	81.5	72.1	59.5	42.7
Llama 3.1 405B	128K	2K	94.7 (80.5)	89.0	85.0	74.5	60.1	48.4	38.0
Llama 3.1 70B	128K	2K	94.5 (80.3)	91.0	81.8	71.2	62.7	51.8	43.2
Gemini 1.5 Pro	2M	2K	92.6 (78.7)	86.4	82.7	75.4	63.9	55.5	48.2
Jamba 1.5 Mini	256K	<1K	92.4 (78.6)	76.3	74.1	70.8	62.2	52.7	43.6
Command R+	128K	<1K	90.9 (77.3)	77.0	73.5	66.3	39.5	21.3	7.4
Mistral Large 2	128K	2K	87.9 (74.7)	86.1	85.5	73.3	51.5	32.6	18.7
Claude 3.5 Sonnet	200K	4K	87.6 (74.4)	85.4	84.0	77.6	61.7	45.7	29.8
Gemini 1.5 Flash	1M	<1K	84.7 (72.0)	68.6	61.6	51.0	44.4	35.5	28.6
GPT-4o mini	128K	<1K	84.9 (72.2)	67.7	58.2	44.1	32.6	20.6	13.7
Llama 3.1 8B	128K	1K	76.7 (65.2)	65.7	54.4	44.1	31.9	22.6	14.2

대다수 모델은 짧은 컨텍스트에서 높은 기초 점수를 보이나, 효과적 길이(성능이 기초 점수의 85% 이상인 경우)는 대개 2K 토큰 이하이며, GPT-4o가 주목할 만한 예외로 나타난다.
32K 컨텍스트 길이에서 성능이 크게 하락하며, 12개 모델 중 10개가 32K에서 기초 점수의 절반 이하로 떨어진다.
2홉 작업이 1홉보다 어렵고, 더 긴 컨텍스트일수록 이 차이가 벌어진다.
역전된 바늘 템플릿(Inverted needle templates)은 기본 템플릿보다 더 도전적이다.
CoT 프롬프트는 성능을 향상시키지만, 특히 16K 토큰을 넘는 이홉 작업에서 긴 컨텍스트의 격차를 완전히 좁히지 못한다.
문자 매칭의 직접성(Direct 및 MC 설정)이 문제 해결을 크게 용이하게 하며, 많은 벤치마크에서 표면 단서에 의존하는 경향을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.