[論文レビュー] The Pneuma Project: Reifying Information Needs as Relational Schemas to Automate Discovery, Guide Preparation, and Align Data with Intent
Pneuma-Seeker は、関係スキーマとして進化する情報ニーズを言語化し、データ発見と準備を導く導体型プランナーと共有状態の収束によって、適合用途の文書を作成する。
Data discovery and preparation remain persistent bottlenecks in the data management lifecycle, especially when user intent is vague, evolving, or difficult to operationalize. The Pneuma Project introduces Pneuma-Seeker, a system that helps users articulate and fulfill information needs through iterative interaction with a language model-powered platform. The system reifies the user's evolving information need as a relational data model and incrementally converges toward a usable document aligned with that intent. To achieve this, the system combines three architectural ideas: context specialization to reduce LLM burden across subtasks, a conductor-style planner to assemble dynamic execution plans, and a convergence mechanism based on shared state. The system integrates recent advances in retrieval-augmented generation (RAG), agentic frameworks, and structured data preparation to support semi-automatic, language-guided workflows. We evaluate the system through LLM-based user simulations and show that it helps surface latent intent, guide discovery, and produce fit-for-purpose documents. It also acts as an emergent documentation layer, capturing institutional knowledge and supporting organizational memory.
研究の動機と目的
- あいまいで進化するユーザーの情報ニーズを明示的な関係スキーマと SQL クエリへ変換するフレームワークを提供する。
- 異種データソース間で半自動的に、言語ガイド付きのデータ発見と準備を実現する。
- タスクを専門的なコンテキストに分解し、動的に行動を計画してユーザー負荷を軽減する。
- ユーザーの意図とシステムの状態を収束させ、潜在的な情報ニーズを満たす実用的な文書へと結びつける。
- 文書化された相互作用と成果物を通じて組織的知識と機関記憶を捉える。
提案手法
- 情報ニーズを関係スキーマ (T, Q) として具体化し、使用可能な文書へ収束させる繰り返しを行うシステムとして Pneuma-Seeker を導入する。
- Context Specialization を用いてタスクを専門の LLM コンテキスト(Conductor、IR System、Materializer)間に分割する。
- Conductor 型プランナーを用いて情報ニーズへのリアルタイム進捗に基づく動的実行計画を組み立てる。
- ユーザーとシステム間で共有状態(T, Q)を維持し、収束と反復を導く。
- RAG(Retrieval-Augmented Generation)、エージェントアーキテクチャ、および構造化データ準備を統合して半自動ワークフローを支える。
- LLM ベースのユーザーシミュレーション(LLM Sim)と考古学/環境ベンチマークを用いて収束と正確さを評価する。

実験結果
リサーチクエスチョン
- RQ1ユーザーは Pneuma-Seeker と対話することで潜在的な情報ニーズへ到達できるか。
- RQ2Pneuma-Seeker は特定の情報ニーズを、ベースラインシステムと比較してどの程度正確に対処できるか。
主な発見
- Pneuma-Seeker は報告されたシミュレーションにおいて、ベースラインより一貫して高い収束率を達成する。
- Pneuma-Seeker は競合ベースラインと比較して2つのベンチマークデータセットで正確な回答を示す。
- 導体ベースのプランナーを備えた動的で文脈特化型アーキテクチャは、データ発見と準備を指向する静的パイプラインよりも優れている。
- システムは潜在的な情報ニーズを浮かび上がらせ、それを実行可能なスキーマとクエリへと表現するのを支援する。
- Pneuma-Seeker は対話駆動の成果物を通じて組織的知識の emergent 文書化を可能にする。
![Figure 2. Interface of Pneuma-Seeker , showing: [1] User Query (Clarification), [2] User-Facing Message, and [3] State View Page $(T,Q)$ . Note: the numbers and values of $T$ shown here are not real for privacy reasons.](https://ar5iv.labs.arxiv.org/html/2601.03618/assets/images/pneuma_seeker_state_view.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。