[論文レビュー] Semantic Operators: A Declarative Model for Rich, AI-based Data Processing
Semantic Operators は、構造化データおよび非構造化データに対する一括処理を可能にするAIベースの意味演算子を備えた宣言的 LOTUS プログラミングモデルを導入し、事実確認、極端なマルチラベル分類、検索タスクで実証します。
The semantic capabilities of large language models (LLMs) have the potential to enable rich analytics and reasoning over vast knowledge corpora. Unfortunately, existing systems either empirically optimize expensive LLM-powered operations with no performance guarantees, or serve a limited set of row-wise LLM operations, providing limited robustness, expressiveness and usability. We introduce semantic operators, the first formalism for declarative and general-purpose AI-based transformations based on natural language specifications (e.g., filtering, sorting, joining or aggregating records using natural language criteria). Each operator opens a rich space for execution plans, similar to relational operators. Our model specifies the expected behavior of each operator with a high-quality gold algorithm, and we develop an optimization framework that reduces cost, while providing accuracy guarantees with respect to a gold algorithm. Using this approach, we propose several novel optimizations to accelerate semantic filtering, joining, group-by and top-k operations by up to $1,000\times$. We implement semantic operators in the LOTUS system and demonstrate LOTUS' effectiveness on real, bulk-semantic processing applications, including fact-checking, biomedical multi-label classification, search, and topic analysis. We show that the semantic operator model is expressive, capturing state-of-the-art AI pipelines in a few operator calls, and making it easy to express new pipelines that match or exceed quality of recent LLM-based analytic systems by up to $170\%$, while offering accuracy guarantees. Overall, LOTUS programs match or exceed the accuracy of state-of-the-art AI pipelines for each task while running up to $3.6\times$ faster than the highest-quality baselines. LOTUS is publicly available at https://github.com/lotus-data/lotus.
研究の動機と目的
- 伝統的な RAG および LM-UDF アプローチを超える一括意味処理の必要性を喚起する。
- AI支援データ処理のために、リレーショナルモデルを拡張する宣言的プログラミングインターフェース(semantic operators)を定義する。
- 多様な応用領域(fact-checking、multi-label classification、search)における LOTUS の表現力と最適化機能を実証する。
- semantic operators が開発負荷の低減と効率の向上を伴う高品質なパイプラインの実現を可能にすることを示す。
提案手法
- 構造化データと非構造化データの上で動作する拡張可能な言語ベースのプリミティブとして、semantic operators (sem_filter, sem_join, sem_sim_join, sem_agg, sem_topk, sem_map, sem_extract, sem_cluster_by, sem_search, sem_index, load_sem_index) を導入する。
- LOTUS で Pandas ライク API 実装を提供し、パラメータ化された自然言語表現(langex)がAI駆動の述語、集約、射影をどのように指定するかを説明する。
- 並列バッチ推論、モデルカスケード、意味句的なインデックス、そして高価な演算子の近似アルゴリズムを活用する最適化および実行戦略を説明する。
- 構造化フィールドとNLテキストの両方を含むテーブルを用いたデータモデリングと、効率的なクエリのための意味的類似度インデックスの利用を説明する。
- 既存のLMツールリング(vLLM、FAISS)との統合と、演算子間でプロンプトを再利用または適応する能力を概説する。
- 複数の演算子を組み合わせて複雑なAI駆動パイプラインを構築する方法を示す例 programを提示する。

実験結果
リサーチクエスチョン
- RQ1semantic operators は、取り急ぎの RAG パイプラインに代わる、スケーラブルで表現力のある一括意味処理を提供できるだろうか?
- RQ2宣言的な LOTUS モデルは、混在データ型上のAIベースの操作の効率的な組み合わせをどのように実現できるか?
- RQ3意味演算子の精度と実行時間のバランスを最適化する最適化手法とアルゴリズムは何か?
- RQ4fact-checking、extreme multi-label classification、および search タスクにおいて LOTUS は最先端のパイプラインをどの程度再現または超えることができるか?
主な発見
- LOTUS は、コード行数を減らし、実行時間を大幅に短縮しつつ、最先端の fact-checking パイプライン(FEVER)を再現・改善できる。
- 最適化された LOTUS プログラムは、FEVER で未最適化の相手と比較してより高い精度と最大で 7–34× の高速な実行を達成する。 FacTool は比較対象。
- extreme multi-label classification のための LOTUS の結合ベースアルゴリズムは、単純な結合と比較して最大で 800× の実行速度向上を達成し、最先端の結果品質と同等を維持する。
- 検索とランキングでは、LOTUS の構成が vanilla のリトリーバーと再ランク付け設定より 5.9–49.4% 高い nDCG@10 を達成し、LM ベースのランキング手法より 1.67–10× 低い実行時間を実現。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。