QUICK REVIEW

[論文レビュー] ELLMPEG: An Edge-based Agentic LLM Video Processing Tool

Zoha Azimi, Reza Farahani|arXiv (Cornell University)|Jan 17, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

tldr: ELLMPEG は、 Retrieval-Augmented Generation と自己-refinement を用いて FFmpeg と VVenC のコマンドを生成し、ローカルで検証するエッジ展開可能なエージェント型 LLM システムで、クラウド API への依存を排除します。オープンソースモデルでのコマンド生成精度を高く、実行時とエネルギーコストを低く達成します。

ABSTRACT

Large language models (LLMs), the foundation of generative AI systems like ChatGPT, are transforming many fields and applications, including multimedia, enabling more advanced content generation, analysis, and interaction. However, cloud-based LLM deployments face three key limitations: high computational and energy demands, privacy and reliability risks from remote processing, and recurring API costs. Recent advances in agentic AI, especially in structured reasoning and tool use, offer a better way to exploit open and locally deployed tools and LLMs. This paper presents ELLMPEG, an edge-enabled agentic LLM framework for the automated generation of video-processing commands. ELLMPEG integrates tool-aware Retrieval-Augmented Generation (RAG) with iterative self-reflection to produce and locally verify executable FFmpeg and VVenC commands directly at the edge, eliminating reliance on external cloud APIs. To evaluate ELLMPEG, we collect a dedicated prompt dataset comprising 480 diverse queries covering different categories of FFmpeg and the Versatile Video Codec (VVC) encoder (VVenC) commands. We validate command generation accuracy and evaluate four open-source LLMs based on command validity, tokens generated per second, inference time, and energy efficiency. We also execute the generated commands to assess their runtime correctness and practical applicability. Experimental results show that Qwen2.5, when augmented with the ELLMPEG framework, achieves an average command-generation accuracy of 78 % with zero recurring API cost, outperforming all other open-source models across both the FFmpeg and VVenC datasets.

研究の動機と目的

エッジベースでのプライバシー保護型動画処理を促進するため、クラウド LLMs や API への依存を減らす。
RAG と自己反省を組み合わせて、エッジで実行可能なマルチメディア処理コマンドを生成するアーキテクチャを設計する。
FFmpeg および VVenC コマンド生成に関して、妥当性・スピード・省エネの観点からオープンソース LLM を評価する。
FFmpeg および VVenC クエリのデータセットを提供し、エッジ展開の実用性と精度をベンチマークする。

提案手法

RAG 設定、LLM 推論、コマンド実行という三段階の、エッジ展開可能なエージェント型 LLM ワークフローを提案する。
FFmpeg と VVenC の二つのツール対応 FAISS ベクトルストアを維持し、正確なコマンド生成のためツール別リトリーブを実行する。
リトリーブ時に関連ツールの文書へマッピングするデュアルエンベディング手法を使用する。
最大 Imax 回の自己反省ループを実装し、誤りを訂正しコマンドの正確性を改善する。
FFmpeg または VVenC バックエンドへディスパッチする前に、パターンマッチングモジュールを用いて実行可能コマンドをLLM 出力から抽出する。
FFmpeg および VVenC コマンドをカバーする専用の 480 クエリデータセットを用いて評価し、エッジ CPU とサーバー系ハードウェアでの精度・速度・省エネを測定する。

Figure 1 . Comparison of responses to two queries: green borders indicate valid commands, red borders denote invalid ones.

実験結果

リサーチクエスチョン

RQ1クラウド API なしで、RAG と自己 refinement を備えたエッジ展開可能な LLM は FFmpeg と VVenC の正しいコマンドを生成できるか。
RQ2ELLMPEG を活用して、オープンソースの 2–8B パラメータモデルは、ドメイン固有のマルチメディアコマンド生成でどの程度性能を発揮するか。
RQ3エッジとサーバー環境で、コマンド生成の精度・推論時間・エネルギー消費のトレードオフはどうなるか。
RQ4ツール対応のデュアルベクトルストア RAG 設定は、コマンド生成時のリトリーブ関連性を改善し、ツール間の混乱を減らすか。

主な発見

Qwen2.5 は ELLMPEG の補助を受けて、ゼロの Recurring API コストで平均コマンド生成精度 78% を達成。
ELLMPEG は FFmpeg および VVenC データセットのいずれにおいてもコマンド精度で他のオープンソースモデルを上回る。
本システムはエッジ hardware（Intel i7-8700）とサーバーハードウェア（Xeon Gold with GPUs）で動作し、エッジ設定はクラウド API を回避。
FFmpeg と VVenC のそれぞれ用の別々の FAISS ベクトルストアが、リトリーブのノイズを低減しツールルーティング精度を向上。
自己反省ループは反復回数を限定することで、エッジ機器での遅延を許容範囲に保ちつつコマンド正確性を改善。
データセットは 480 個の多様なクエリ（380 FFmpeg、100 VVenC）を含み、GPT-4o と実世界ソースから作成され、再現性のために公開されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。