[論文レビュー] Memory Augmented Large Language Models are Computationally Universal
本論文は、固定された大規模言語モデル(Flan-U-PaLM 540B)を、連想的な読み書きメモリを搭載することで、モデルの重みを変更せずに普遍的なチューリング機械を模倣できることを示している。 promptsとメモリとの相互作用を通じてストアド命令機械を構築し、普遍性を達成する。
We show that transformer-based large language models are computationally universal when augmented with an external memory. Any deterministic language model that conditions on strings of bounded length is equivalent to a finite automaton, hence computationally limited. However, augmenting such models with a read-write memory creates the possibility of processing arbitrarily large inputs and, potentially, simulating any algorithm. We establish that an existing large language model, Flan-U-PaLM 540B, can be combined with an associative read-write memory to exactly simulate the execution of a universal Turing machine, $U_{15,2}$. A key aspect of the finding is that it does not require any modification of the language model weights. Instead, the construction relies solely on designing a form of stored instruction computer that can subsequently be programmed with a specific set of prompts.
研究の動機と目的
- 境界長の文字列で条件付けられたトランスフォーマーベースの言語モデルは、メモリ拡張なしでは計算的に制限されることを示す。
- 外部連想メモリとストアド命令機を提案して任意の計算を可能にする。
- Flan-U-PaLM 540B が prompts-driven memory interactions のみを用いて universal Turing machine U15,2 を正確にシミュレートできることを示す。
提案手法
- 外部連想 MEMORY を導入し、キーを値にマッピングし、RAM として LLM とインタフェースする。
- LLM が CPU として動作し、メモリは正規表現を用いた代入と更新の後処理で有限状態で更新される計算サイクルを定義する。
- boot prompt と instruction prompts のセットを設計し、MEMORY と LLM プロンプト内で U15,2 の状態機械を実装する。
- memory location op を命令レジスタとして使用し、現在のメモリ記号を読むための splice patterns によるプロンプトの前処理を行う。
- ストアド命令機が U15,2 の各計算ステップを、有限のプロンプト-結果挙動セットを通じて模倣できることを示す。
実験結果
リサーチクエスチョン
- RQ1外部メモリを追加した固定事前学習済みLLMは普遍計算を達成できるか。
- RQ2普遍的チューリング機を模倣するのに十分な最小限の prompts ベースのストアド命令アーキテクチャは何か。
- RQ3Flan-U-PaLM 540B は、テューリング機の挙動を再現するために必要なプロンプトプログラム命令を信頼性高く実行するか。
主な発見
- メモリ拡張LLMは、プロンプトでプログラムされた有限の命令セットを用いて普遍的なチューリング機を模倣できる。
- 相互作用サイクルは、次のプロンプトをメモリから取得し、LLM を実行し、解析された結果に基づいてメモリを更新することで、フォン・ノイマン型の計算ループを達成する。
- 本論文は、Flan-U-PaLM 540B が 29 の (state, symbol) ケースを実行して U15,2 を模倣できることを具体的に検証している。
- LLM の重みの再訓練は不要であり、普遍性はプロンプト設計とメモリ解析によって達成される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。