Skip to main content
QUICK REVIEW

[논문 리뷰] Understanding LLM Performance Degradation in Multi-Instance Processing: The Roles of Instance Count and Context Length

Jingxuan Chen, Mohammad Taher Pilehvar|arXiv (Cornell University)|2026. 03. 23.
Topic Modeling인용 수 0
한 줄 요약

이 논문은 LLM이 다중 인스턴스 처리에서 어떻게 저하되는지 평가하고, 작은 인스턴스 수에서의 저하 패턴과 더 큰 수에서의 붕괴를 보이며, 인스턴스 수가 컨텍스트 길이보다 더 강하게 영향을 미친다.

ABSTRACT

Users often rely on Large Language Models (LLMs) for processing multiple documents or performing analysis over a number of instances. For example, analysing the overall sentiment of a number of movie reviews requires an LLM to process the sentiment of each review individually in order to provide a final aggregated answer. While LLM performance on such individual tasks is generally high, there has been little research on how LLMs perform when dealing with multi-instance inputs. In this paper, we perform a comprehensive evaluation of the multi-instance processing (MIP) ability of LLMs for tasks in which they excel individually. The results show that all LLMs follow a pattern of slight performance degradation for small numbers of instances (approximately 20-100), followed by a performance collapse on larger instance counts. Crucially, our analysis shows that while context length is associated with this degradation, the number of instances has a stronger effect on the final results. This finding suggests that when optimising LLM performance for MIP, attention should be paid to both context length and, in particular, instance count.

연구 동기 및 목표

  • LLM이 여러 문서를 분석해야 하는 다중 인스턴스 처리(MIP) 작업을 어떻게 다루는지 동기화하고 이해한다.
  • 인스턴스 수가 증가할 때 LLM의 성능 저하 패턴을 특성화한다.
  • MIP 성능에 대한 컨텍스트 길이 대비 인스턴스 수의 상대적 영향을 정량화한다.

제안 방법

  • 각 인스턴스가 개별 분석을 위해 처리된 후 집계되도록 하는 다중 인스턴스 처리 작업에서 LLM을 종합적으로 평가한다.
  • 작은 규모에서 큰 규모로 인스턴스 수가 증가할 때의 성능 경향을 분석한다.
  • 저하와 관련된 컨텍스트 길이와 인스턴스 수 간의 연관성을 조사하고, 그 영향을 인스턴스 수와 비교한다.

실험 결과

연구 질문

  • RQ1다중 인스턴스 처리 작업에서 인스턴스 수가 증가함에 따라 LLM 성능은 어떻게 바뀌는가?
  • RQ2저하를 촉진하는 요인으로서 컨텍스트 길이의 역할은 인스턴스 수에 비해 어떤가?
  • RQ3모델과 작업 전반에 걸쳐 두 단계의 저하 패턴(초기 소폭 저하 다음에 붕괴)을 LLM이 보이는가?
  • RQ4최종 MIP 성능을 더 강하게 예측하는 요인은 인스턴스 수인가, 컨텍스트 길이인가?

주요 결과

  • LLMs는 작은 인스턴스 수(대략 20–100)에서 약간의 성능 저하 패턴을 보인다.
  • 더 큰 인스턴스 수에서 모델 전반에 걸쳐 성능이 붕괴한다.
  • 컨텍스트 길이는 저하와 연관이 있지만, 최종 결과에 대한 인스턴스 수의 영향이 더 강하다.
  • MIP 성능을 최적화할 때 컨텍스트 길이와 특히 인스턴스 수에 주의를 기울이는 것이 중요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.