Skip to main content
QUICK REVIEW

[論文レビュー] Understanding LLM Performance Degradation in Multi-Instance Processing: The Roles of Instance Count and Context Length

Jingxuan Chen, Mohammad Taher Pilehvar|arXiv (Cornell University)|Mar 23, 2026
Topic Modeling被引用数 0
ひとこと要約

論文はLLMが多重インスタンス処理でどのように劣化するかを評価し、小さなインスタンス数では劣化パターンを示し、より大きな数では崩壊が生じることを示す。インスタンス数が文脈長よりも効果を強く及ぼす。

ABSTRACT

Users often rely on Large Language Models (LLMs) for processing multiple documents or performing analysis over a number of instances. For example, analysing the overall sentiment of a number of movie reviews requires an LLM to process the sentiment of each review individually in order to provide a final aggregated answer. While LLM performance on such individual tasks is generally high, there has been little research on how LLMs perform when dealing with multi-instance inputs. In this paper, we perform a comprehensive evaluation of the multi-instance processing (MIP) ability of LLMs for tasks in which they excel individually. The results show that all LLMs follow a pattern of slight performance degradation for small numbers of instances (approximately 20-100), followed by a performance collapse on larger instance counts. Crucially, our analysis shows that while context length is associated with this degradation, the number of instances has a stronger effect on the final results. This finding suggests that when optimising LLM performance for MIP, attention should be paid to both context length and, in particular, instance count.

研究の動機と目的

  • LLMが複数の文書を分析する必要がある多重インスタンス処理(MIP)タスクをどのように扱うかを動機づけ、理解する。
  • インスタンス数が増加するにつれてLLMの性能劣化パターンを特徴づける。
  • MIPの性能に対する文脈長とインスタンス数の相対的影響を定量化する。

提案手法

  • 各インスタンスを個別に分析した後に集約する多重インスタンス処理タスクでのLLMの包括的な評価を実施する。
  • 小規模から大規模へとインスタンス数が増加するにつれて性能傾向を分析する。
  • 文脈長と劣化との関連を調べ、それの影響をインスタンス数と比較する。

実験結果

リサーチクエスチョン

  • RQ1多重インスタンス処理タスクにおいてインスタンス数が増えるとLLMの性能はどのように変化するか?
  • RQ2文脈長はインスタンス数と比較して性能劣化を引き起こす上でどの程度の役割を果たすか?
  • RQ3モデルとタスクを跨いで、LLMsは二段階の劣化パターン(初期の小さな劣化の後の崩壊)を示すか?
  • RQ4最終的なMIP性能を予測する要因として、インスタンス数と文脈長のどちらがより強く影響するか?

主な発見

  • 少数のインスタンス(約20–100)に対してはLLMの性能がわずかに劣化するパターンを示す。
  • モデル全体でより大きなインスタンス数で性能崩壊が発生する。
  • 文脈長は劣化と関連するが、最終結果にはインスタンス数の方が強い影響を及ぼす。
  • MIPの性能を最適化する際には、文脈長と特にインスタンス数の両方に注意することが重要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。