[論文レビュー] Clustering-driven Memory Compression for On-device Large Language Models
本論文は、オンデバイスの LLM に対して、クラスタリングを用いてメモリをグループ化・統合するクラスタリングベースのメモリ圧縮手法を提案し、個人化品質を保ちつつ文脈使用量を削減し、mean および concatenation のベースラインを上回る。
Large language models (LLMs) often rely on user-specific memories distilled from past interactions to enable personalized generation. A common practice is to concatenate these memories with the input prompt, but this approach quickly exhausts the limited context available in on-device LLMs. Compressing memories by averaging can mitigate context growth, yet it frequently harms performance due to semantic conflicts across heterogeneous memories. In this work, we introduce a clustering-based memory compression strategy that balances context efficiency and personalization quality. Our method groups memories by similarity and merges them within clusters prior to concatenation, thereby preserving coherence while reducing redundancy. Experiments demonstrate that our approach substantially lowers the number of memory tokens while outperforming baseline strategies such as naive averaging or direct concatenation. Furthermore, for a fixed context budget, clustering-driven merging yields more compact memory representations and consistently enhances generation quality.
研究の動機と目的
- 限られた文脈窓を持つオンデバイス LLM における個人化の動機づけ。
- ユーザ履歴から生じるメモリの成長に対処するため、メモリを効率的に圧縮する。
- 文脈効率と個人化品質のバランスを取るためのクラスタリングベースのメモリ圧縮を提案する。
- 複数のモデル/データセットにおいて、単純な平均や連結ベースのベースラインを上回る経験的利得を示す。
提案手法
- BM25 を用いてトップ-N の関連メモリを取得する。
- LoRA 微調整を用いた凍結済み LLM で、各メモリを固定数のメモリトークンにエンコードする。
- 類似性に基づいてメモリを K 個のクラスタにクラスタリングする(K-Means)。
- 各クラスタ内のメモリを平均化してクラスタレベルの表現を計算する。
- クラスタ表現を連結し、LLM 推論前の入力プロンプトに追加する。
実験結果
リサーチクエスチョン
- RQ1クラスタリングベースのメモリ結合は、オンデバイス LLM において個人化性能を犠牲にすることなくトークン使用量を削減できるか?
- RQ2固定文脈予算の下で、クラスタ数とメモリあたりのトークン数は性能にどう影響するか?
- RQ3クラスタリングベースの表現は、異なるモデル全体で平均ベースや単純な連結アプローチを上回るか?
- RQ4個人化メモリを圧縮する際の文脈効率と生成品質のトレードオフはどうなるか?
主な発見
| 方法 | メモリ トークン | Qwen2.5 1.5B ROUGE-L | Gemma3 1B ROUGE-L | StableLM2 1.6B ROUGE-L | 平均 ROUGE-L |
|---|---|---|---|---|---|
| Mean | 0,128 | 12.79 | 12.37 | 12.05 | 12.40 |
| Concat | 1,024 | 15.34 | 13.91 | 12.14 | 13.80 |
| Clustering (ours) | 0,512 | 15.16 | 13.45 | 13.36 | 13.99 |
- クラスタリングベースのメモリ圧縮は、連結に比べてメモリトークンを削減しつつ ROUGE-L の性能を維持または向上させる。
- 固定文脈予算の下で、クラスタリングは単純な平均化よりも生成品質が高い、よりコンパクトなメモリ表現を提供する。
- モデル間(Qwen2.5 1.5B、Gemma3 1B、StableLM2 1.6B)で、クラスタリングは ROUGE-L で平均および連結ベースのベースラインを上回る。
- 連結よりもはるかに少ないメモリトークンで性能向上が得られる(例:クラスタリングはより少ないトークン数で)。
- クラスタ数を増やすと概して性能が向上するが、クラスタ数を一定点を超えると利得は縮小する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。