Skip to main content
QUICK REVIEW

[論文レビュー] CryptoAnalystBench: Failures in Multi-Tool Long-Form LLM Analysis

Anushri Eswaran, Oleg Golev|arXiv (Cornell University)|Feb 11, 2026
Advanced Malware Detection Techniques被引用数 0
ひとこと要約

本論文は CryptoAnalystBench を提案する。これは暗号/DeFi タスクの多機能評価ハーネスを備えたアナリスト向けベンチマークであり、人間が注釈した分類法を通じて高次の障害モードを明らかにし、LLMを審査官として用いた評価と引用検証を通じて評価手法を改善する。

ABSTRACT

Modern analyst agents must reason over complex, high token inputs, including dozens of retrieved documents, tool outputs, and time sensitive data. While prior work has produced tool calling benchmarks and examined factuality in knowledge augmented systems, relatively little work studies their intersection: settings where LLMs must integrate large volumes of dynamic, structured and unstructured multi tool outputs. We investigate LLM failure modes in this regime using crypto as a representative high data density domain. We introduce (1) CryptoAnalystBench, an analyst aligned benchmark of 198 production crypto and DeFi queries spanning 11 categories; (2) an agentic harness equipped with relevant crypto and DeFi tools to generate responses across multiple frontier LLMs; and (3) an evaluation pipeline with citation verification and an LLM as a judge rubric spanning four user defined success dimensions: relevance, temporal relevance, depth, and data consistency. Using human annotation, we develop a taxonomy of seven higher order error types that are not reliably captured by factuality checks or LLM based quality scoring. We find that these failures persist even in state of the art systems and can compromise high stakes decisions. Based on this taxonomy, we refine the judge rubric to better capture these errors. While the judge does not align with human annotators on precise scoring across rubric iterations, it reliably identifies critical failure modes, enabling scalable feedback for developers and researchers studying analyst style agents. We release CryptoAnalystBench with annotated queries, the evaluation pipeline, judge rubrics, and the error taxonomy, and outline mitigation strategies and open challenges in evaluating long form, multi tool augmented systems.

研究の動機と目的

  • CryptoAnalystBench を 11 カテゴリに跨る 198 個の production-aligned 暗号/DeFi クエリで開発し、実務的なアナリストのワークフローを反映する。
  • 最先端のLLMから長文回答を生成する production-grade ツールを用いたエージェント的評価ハーネスを構築する。
  • 自動的な引用検証とLLMを審査官としてのルーブリックを組み合わせた層別評価フレームワークを提案する。これには関連性、時間的関連性、深さ、データの一貫性を含む。
  • ファクト性だけでなく高次の多機能推論障害を診断する七カテゴリのエラー分類法を作成する。
  • ベンチマーク、評価パイプライン、審査官ルーブリック、エラー分類法を公開し、アナリスト風エージェントのスケーラブルな分析を可能にする。

提案手法

  • 生データの production クエリから始まり、11 カテゴリへクラスタリングし、近接重複を除去し、検索/推論要件をフィルタリングして、198 の専門家が作成した prompts を生成する 5 段階のベンチマーク構築パイプライン。
  • 市場データAPI、ウェブ検索、文書検索、ブロックチェーン照会、コード実行を含む ReAct 風ループを使用して実運用の暗号アナリストを模倣するエージェント的ハーネス。
  • 主張を抽出し、それをツール出力へリンクさせ、正確な主張、派生主張、虚偽主張を算出し、引用正確性メトリックを追加する自動化された事実性パイプライン。
  • 深さ、関連性、時間的関連性、データ一貫性の4次元で採点されるLLMを審査官とするルーブリックと、人間の注釈による較正。
  • 7段階のエラー分類(時代遅れ/時間境界の欠落、矛盾する主張、情報源の照合失敗、浅い統合、リスク/文脈の欠落、過信的な予測、部分的/誤 Fraser された回答)と、自動的なエラータグ付けのための 93.45% の精度を達成する分類器。
  • 構造化API出力を優先、時系列コンテキストをプロンプトに追加、タスク別サブプロンプトを有効化して深さを高める等の緩和策を提案。

実験結果

リサーチクエスチョン

  • RQ1LLMがマルチツール出力から長文分析を合成する際、暗号のような高データ密度領域でどのような高次の障害モードが生じるか。
  • RQ2自動引用検証とLLMを審査官とするルーブリックが、長文の暗号分析における人間専門家の判断とどれだけ一致するか。
  • RQ3マルチツールアナリストのワークフローに対する包括的なエラー分類法は何か、 automatic detectors は人間の注釈を再現できるか。
  • RQ4狙いを定めた緩和策は、深さ、関連性、データ一貫性を改善できるか。 weaker なモデルの安定性を損なうことなく実現できるか。

主な発見

  • モデルは主に深さとデータ一貫性に差があり、時間的関連性や基本的な関連性よりも、整合性を重視するモデル(例:GPT-5.2)と、より深い洞察を達成するモデル(例:Kimi K2.5)に分かれる。
  • 虚偽の主張(ハルチュネーション)はモデル全体で依然として6%未満で、正確な主張と派生主張は主にツール出力に根拠を置く。
  • 引用の正確性は全モデルで高く(85% 超)、GLM-4.7とKimi K2.5 が最も高い割合を達成。
  • ファクト性を超えた高次の障害を捉える七カテゴリの定性的エラーメ分類が、時代遅れ、情報源照合失敗、部分的/誤った枠組みの回答などを含む。
  • LLMベースの審査官は人間専門家との整合性が合理的である(公正-中程度の Cohen’s Kappa)、開発のためのスケーラブルなフィードバック信号としての適用を正当化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。