Skip to main content
QUICK REVIEW

[論文レビュー] Panini: Continual Learning in Token Space via Structured Memory

Shreyas Rajesh, Pavan Holur|arXiv (Cornell University)|Feb 16, 2026
Topic Modeling被引用数 0
ひとこと要約

Panini は、構造化メモリ(GSW)を書き込み、連鎖ベースの検索(RICR)を使用して、より少ないトークンでより高い正確性を持つ質問に回答する非パラメトリック連続学習フレームワークを提案します。

ABSTRACT

Language models are increasingly used to reason over content they were not trained on, such as new documents, evolving knowledge, and user-specific data. A common approach is retrieval-augmented generation (RAG), which stores verbatim documents externally (as chunks) and retrieves only a relevant subset at inference time for an LLM to reason over. However, this results in inefficient usage of test-time compute (LLM repeatedly reasons over the same documents); moreover, chunk retrieval can inject irrelevant context that increases unsupported generation. We propose a human-like non-parametric continual learning framework, where the base model remains fixed, and learning occurs by integrating each new experience into an external semantic memory state that accumulates and consolidates itself continually. We present Panini, which realizes this by representing documents as Generative Semantic Workspaces (GSW) -- an entity- and event-aware network of question-answer (QA) pairs, sufficient for an LLM to reconstruct the experienced situations and mine latent knowledge via reasoning-grounded inference chains on the network. Given a query, Panini only traverses the continually-updated GSW (not the verbatim documents or chunks), and retrieves the most likely inference chains. Across six QA benchmarks, Panini achieves the highest average performance, 5%-7% higher than other competitive baselines, while using 2-30x fewer answer-context tokens, supports fully open-source pipelines, and reduces unsupported answers on curated unanswerable queries. The results show that efficient and accurate structuring of experiences at write time -- as achieved by the GSW framework -- yields both efficiency and reliability gains at read time. Code is available at https://github.com/roychowdhuryresearch/gsw-memory.

研究の動機と目的

  • 過去の忘却と過剰な再訓練を避けるための非パラメトリック連続学習の動機づけ。
  • 推論のためにエンティティ、イベント、QAペアをエンコードする構造化メモリ表現(GSW)の提案。
  • 推論-grounded な回答を得るために GSW を横断する連鎖ベース検索手法(RICR)の導入。
  • 精度、効率、放棄の観点から、マルチホップおよびシングルホップ QA ベンチマークで Panini を実証的に評価。
  • 読み出し時の構造化メモリの書き込みが、効率と信頼性の両方の利益をもたらすことを実証。

提案手法

  • 各文書ごとにエンティティノード、動詞句/イベントノード、イベントをエンティティに結びつける QA エッジ対を含む Generative Semantic Workspace (GSW) を作成。
  • 候補の効率的な取得のため、疎な BM25 エンティティ索引と密な QA ペア索引の二重取得設定で GSW をインデックス化。
  • Reasoning Inference Chain Retrieval (RICR) を適用:クエリをサブ質問に分解し、GSW 間の QA チェーンをビーム探索で実行し、各ホップのスコアの幾何平均でチェーンを評価。
  • ビーム幅 B を用いてチェーンを剪定・多様化して複数の推論経路を構築し、証拠をデデュプリケーションし、取得した QA チェーンから最終回答を生成。
  • 6 つの QA ベンチマークに対して評価(シングルホップおよびマルチホップのタスクを含む)し、チャンクベース、構造拡張、エージェント型ベースラインと比較。
Figure 1 : A non-parametric continual learning (NPCL) framework schematics (1) Continual experience : incoming documents are processed asynchronously, potentially by different agents. (2) Individual workspaces : each experience is encoded into a Generative Semantic Workspace (GSW). (3) Continually l
Figure 1 : A non-parametric continual learning (NPCL) framework schematics (1) Continual experience : incoming documents are processed asynchronously, potentially by different agents. (2) Individual workspaces : each experience is encoded into a Generative Semantic Workspace (GSW). (3) Continually l

実験結果

リサーチクエスチョン

  • RQ1GSW の外部構造化メモリを備えた固定ベースモデルは再訓練なしで継続学習を支援できるか?
  • RQ2構造化メモリ上のチェーンベース検索はマルチホップ質問の正確で効率的な推論をもたらすか?
  • RQ3Panini はより少ない回答コンテキストトークンで事実的正確性を高め、答えられない質問への信頼できる放棄を可能にするか?

主な発見

  • Panini は6つの QA ベンチマークで平均 F1 が最高となり、強力なベースラインを上回る。
  • Panini は競合手法より 2–30× 少ない回答コンテキスト トークンを使用する。
  • Panini は証拠欠如時の信頼性が高く、Platinum 分割で回答可能性の高い正確性と放棄の高い正確性を示す。
  • アブレーション研究は Panini の性能が GSW/タスク分解やモデル選択に対して堅牢であることを示す。
  • オープンソース設定は、モデルが小さくなっても Panini の利点を維持する。
Figure 2 : System overview of PANINI at inference time. Step 1: Planning: A decomposition LLM converts the user query into an ordered sequence of single-hop sub-questions. Step 2: RICR: We perform chain-based retrieval by expanding candidate paths hop-by-hop. The initial seed set is obtained via emb
Figure 2 : System overview of PANINI at inference time. Step 1: Planning: A decomposition LLM converts the user query into an ordered sequence of single-hop sub-questions. Step 2: RICR: We perform chain-based retrieval by expanding candidate paths hop-by-hop. The initial seed set is obtained via emb

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。