Skip to main content
QUICK REVIEW

[論文レビュー] SKILLS: Structured Knowledge Injection for LLM-Driven Telecommunications Operations

Ivo Brett|arXiv (Cornell University)|Mar 16, 2026
Artificial Intelligence in Healthcare and Education被引用数 0
ひとこと要約

この論文は LLM 主導の通信事業運用向け SKILLS ベンチマークを導入し、185 件のシナリオ実行と 37 件の通信事業シナリオ全体で、構造化されたドメイン知識を注入することで一貫した性能向上を示しています。

ABSTRACT

As telecommunications operators accelerate adoption of AI-enabled automation, a practical question remains unresolved: can general-purpose large language model (LLM) agents reliably execute telecom operations workflows through real API interfaces, or do they require structured domain guidance? We introduce SKILLS (Structured Knowledge Injection for LLM-driven Service Lifecycle operations), a benchmark framework comprising 37 telecom operations scenarios spanning 8 TM Forum Open API domains (TMF620, TMF621, TMF622, TMF628, TMF629, TMF637, TMF639, TMF724). Each scenario is grounded in live mock API servers with seeded production-representative data, MCP tool interfaces, and deterministic evaluation rubrics combining response content checks, tool-call verification, and database state assertions. We evaluate open-weight models under two conditions: baseline (generic agent with tool access but no domain guidance) and with-skill (agent augmented with a portable SKILL.md document encoding workflow logic, API patterns, and business rules). Results across 5 open-weight model conditions and 185 scenario-runs show consistent skill lift across all models. MiniMax M2.5 leads (81.1% with-skill, +13.5pp), followed by Nemotron 120B (78.4%, +18.9pp), GLM-5 Turbo (78.4%, +5.4pp), and Seed 2.0 Lite (75.7%, +18.9pp).

研究の動機と目的

  • 一般的な目的の LLM が実際の API インターフェースを介して通信事業ワークフローを確実に実行できるかを評価する。
  • TMF ドメインをカバーするライブモック API を用いたベンチマークフレームワークを開発する。
  • ベースラインの LLM エージェントと、構造化されたドメイン知識を組み込んだエージェントを比較し、性能向上を測定する。

提案手法

  • 8 TMF API ドメイン(TMF620, TMF621, TMF622, TMF628, TMF629, TMF637, TMF639, TMF724)を横断する 37 の通信事業運用シナリオを含むベンチマークフレームワーク。
  • 生データを用いたイ production を代表する Seed 付きのデータと MCP ツールインターフェースを備えたライブモック API サーバーでシナリオをグラウンド化。
  • 応答内容のチェック、ツール呼び出しの検証、データベース状態の主張を組み合わせた決定論的評価ルーブリック。
  • 2 つのモデル条件を評価:ベースライン(ツールアクセスを持つ一般エージェント)と with-skill(移植可能な http URL 文書エンコードワークフローロジック、API パターン、ビジネスルールを持つエージェント)。
  • スキル・リフトを定量化するために 5 個のオープンウェイトモデルと 185 シナリオ実行を評価。

実験結果

リサーチクエスチョン

  • RQ1ツールアクセスを持つ一般的な LLM エージェントはドメイン指導なしで信頼できる通信事業運用ワークフローの実行を達成できるか。
  • RQ2ポータブルなワークフロードキュメントによる構造化知識注入は、複数の TM Forum API ドメインにわたり LLM の性能を改善できるか。
  • RQ3どのオープンウェイトモデルが with-skill 的拡張の恩恵を最も受け、さまざまなシナリオでどれくらい向上するか。

主な発見

  • すべてのモデルが、構造化知識を用いた拡張(with-skill 条件)でスキルリフトを示す。
  • MiniMax M2.5 は 81.1% の精度(with-skill)で先行し、ベースラインより +13.5 百分ポイント上回る。
  • Nemotron 120B は 78.4%(with-skill)で +18.9pp。
  • GLM-5 Turbo は 78.4%(with-skill)で +5.4pp。
  • Seed 2.0 Lite は 75.7%(with-skill)で +18.9pp。
  • 評価は 5 機のオープンウェイトモデルと 185 シナリオ実行を対象としており、モデル間で一貫した改善が見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。