[论文解读] CryptoAnalystBench: Failures in Multi-Tool Long-Form LLM Analysis
本文提出 CryptoAnalystBench,一个用于加密/DeFi 任务的分析师基准测试,具备多工具评估框架;通过带有人类注释分类的高阶失败模式揭示问题;并提出通过 LLM 作为评判者及引文验证来改进评估。
Modern analyst agents must reason over complex, high token inputs, including dozens of retrieved documents, tool outputs, and time sensitive data. While prior work has produced tool calling benchmarks and examined factuality in knowledge augmented systems, relatively little work studies their intersection: settings where LLMs must integrate large volumes of dynamic, structured and unstructured multi tool outputs. We investigate LLM failure modes in this regime using crypto as a representative high data density domain. We introduce (1) CryptoAnalystBench, an analyst aligned benchmark of 198 production crypto and DeFi queries spanning 11 categories; (2) an agentic harness equipped with relevant crypto and DeFi tools to generate responses across multiple frontier LLMs; and (3) an evaluation pipeline with citation verification and an LLM as a judge rubric spanning four user defined success dimensions: relevance, temporal relevance, depth, and data consistency. Using human annotation, we develop a taxonomy of seven higher order error types that are not reliably captured by factuality checks or LLM based quality scoring. We find that these failures persist even in state of the art systems and can compromise high stakes decisions. Based on this taxonomy, we refine the judge rubric to better capture these errors. While the judge does not align with human annotators on precise scoring across rubric iterations, it reliably identifies critical failure modes, enabling scalable feedback for developers and researchers studying analyst style agents. We release CryptoAnalystBench with annotated queries, the evaluation pipeline, judge rubrics, and the error taxonomy, and outline mitigation strategies and open challenges in evaluating long form, multi tool augmented systems.
研究动机与目标
- 开发 CryptoAnalystBench,涵盖 198 个面向生产对齐的加密/DeFi 查询,覆盖 11 个类别,以反映真实分析师工作流程。
- 构建具备生产级工具的代理评估框架,用于从前沿大语言模型生成长篇回应。
- 提出结合自动引用核查与 LLM 作为评判者的分层评估框架,涵盖相关性、时效相关性、深度和数据一致性。
- 创建七类错误分类法,诊断超越事实准确性的高阶、多工具推理失败。
- 发布基准、评估管线、评判标准与错误分类法,以实现对分析师风格代理的可扩展分析。
提出的方法
- 从原始生产查询出发的五阶段基准构建流程,将查询聚类为 11 类,去除近重复项,筛选检索/推理要求,产出 198 条专家 curated 提示。
- 代理评估框架模仿生产级加密分析师,使用 ReAct 风格循环结合市场数据 API、网页检索、文档检索、区块链查询和代码执行。
- 自动化事实性管线,提取主张、将其与工具输出关联,计算精确、推导及虚构主张,并给出引文准确性指标。
- LLM 作为评判者的评分标准,覆盖深度、相关性、时效相关性和数据一致性四个维度,并辅以人工注释进行标定。
- 七层次的错误分类法(时效性/时间界限缺失、主张不一致、来源对账失败、浅层综合、风险/情境缺失、过度自信预测、部分/错误框架的回答),以及一个达到 93.45% 准确率的分类器用于自动错误标注。
- 提出的缓解方案包括优先输出结构化 API、用时序上下文增强提示、激活针对任务的子提示以提升深度。
实验结果
研究问题
- RQ1在数据密集型领域如加密领域中,当LLM需从多工具输出综合长篇分析时,会出现哪些高阶失败模式?
- RQ2自动化引文核查与 LLM 作为评判者的评分标准与人工专家判断在长篇加密分析中的一致性如何?
- RQ3对于多工具分析师工作流,构成一个全面的错误分类法应有哪些要素,自动检测器能否复现人工注释?
- RQ4是否通过有针对性的缓解措施可以在不 destabilizing 较弱模型的前提下改善深度、相关性和数据一致性?
主要发现
- 模型在深度与数据一致性上的差异性大于时效相关性或基本相关性;某些模型偏向一致性(如 GPT-5.2),而另一些模型在深度上表现更高(如 Kimi K2.5)。
- 虚构(幻觉)主张在所有模型中仍低于 6%,其中精确主张与派生主张主要基于工具输出。
- 引用准确性对所有模型均较高(>85%),其中 GLM-4.7 与 Kimi K2.5 达到最高水平。
- 明确的七类定性错误分类法能够覆盖超越事实层面的高阶失败,如时效性陈旧、来源对账失败和部分/错误框架的回答等。
- 一个基于 LLM 的评判者与人类专家具有合理的一致性(公平至中等的 Cohen’s Kappa),证明其作为可扩展的开发反馈信号的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。