[论文解读] SKILLS: Structured Knowledge Injection for LLM-Driven Telecommunications Operations
本论文为 LLM 驱动的电信运维引入 SKILLS 基准,并在 185 次场景运行和 37 个电信场景中通过注入结构化领域知识显示出一致的性能提升。
As telecommunications operators accelerate adoption of AI-enabled automation, a practical question remains unresolved: can general-purpose large language model (LLM) agents reliably execute telecom operations workflows through real API interfaces, or do they require structured domain guidance? We introduce SKILLS (Structured Knowledge Injection for LLM-driven Service Lifecycle operations), a benchmark framework comprising 37 telecom operations scenarios spanning 8 TM Forum Open API domains (TMF620, TMF621, TMF622, TMF628, TMF629, TMF637, TMF639, TMF724). Each scenario is grounded in live mock API servers with seeded production-representative data, MCP tool interfaces, and deterministic evaluation rubrics combining response content checks, tool-call verification, and database state assertions. We evaluate open-weight models under two conditions: baseline (generic agent with tool access but no domain guidance) and with-skill (agent augmented with a portable SKILL.md document encoding workflow logic, API patterns, and business rules). Results across 5 open-weight model conditions and 185 scenario-runs show consistent skill lift across all models. MiniMax M2.5 leads (81.1% with-skill, +13.5pp), followed by Nemotron 120B (78.4%, +18.9pp), GLM-5 Turbo (78.4%, +5.4pp), and Seed 2.0 Lite (75.7%, +18.9pp).
研究动机与目标
- 评估通用型大模型是否能通过真实 API 接口可靠执行电信工作流。
- 开发覆盖 TMF 领域的带实时 Mock API 的基准框架。
- 比较基线 LLM 代理与加入结构化领域知识的代理,以衡量性能提升。
提出的方法
- 包含 37 个电信运维场景,覆盖 8 个 TMF API 领域(TMF620、TMF621、TMF622、TMF628、TMF629、TMF637、TMF639、TMF724)的基准框架。
- 在带种子生产环境代表数据和 MCP 工具接口的实时 Mock API 服务器上 Ground 场景。
- 确定性评估准则,结合响应内容检查、工具调用验证和数据库状态断言。
- 评估两种模型条件:基线(具工具访问的通用代理)与 with-skill(通过可携带的 http URL 文档编码工作流逻辑、API 模式和业务规则进行增强的代理)。
- 在 5 个开源权重模型和 185 次场景运行中进行评估,以量化技能提升。
实验结果
研究问题
- RQ1通用 LLM 代理在没有领域指导的情况下,是否能够实现可靠的电信运维工作流执行?
- RQ2通过可携带的工作流文档注入结构化知识,是否能在多个 TM Forum API 领域改进 LLM 的性能?
- RQ3哪些开源权重模型最能从 with-skill 增强中获益,以及在多样场景中的提升幅度?
主要发现
- 所有模型在加入结构化知识后均显示出技能提升(with-skill 条件)。
- MiniMax M2.5 以 81.1% 的准确率领先(with-skill),较基线提升 +13.5 个百分点。
- Nemotron 120B 实现 78.4%(with-skill),提升 +18.9pp。
- GLM-5 Turbo 实现 78.4%(with-skill),提升 +5.4pp。
- Seed 2.0 Lite 实现 75.7%(with-skill),提升 +18.9pp。
- 评估覆盖 5 个开源权重模型和 185 次场景运行,显示对模型的持续改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。