QUICK REVIEW

[논문 리뷰] CryptoAnalystBench: Failures in Multi-Tool Long-Form LLM Analysis

Anushri Eswaran, Oleg Golev|arXiv (Cornell University)|2026. 02. 11.

Advanced Malware Detection Techniques인용 수 0

한 줄 요약

논문은 CryptoAnalystBench를 제시합니다. 이는 암호화/DeFi 작업을 위한 다중 도구 평가 해스스를 갖춘 분석가 벤치마크로, 인간 주석 분류 체계를 통해 higher-order failure modes를 드러내고, LLM-as-judge 및 인용 검증을 통한 평가 개선을 제안합니다.

ABSTRACT

Modern analyst agents must reason over complex, high token inputs, including dozens of retrieved documents, tool outputs, and time sensitive data. While prior work has produced tool calling benchmarks and examined factuality in knowledge augmented systems, relatively little work studies their intersection: settings where LLMs must integrate large volumes of dynamic, structured and unstructured multi tool outputs. We investigate LLM failure modes in this regime using crypto as a representative high data density domain. We introduce (1) CryptoAnalystBench, an analyst aligned benchmark of 198 production crypto and DeFi queries spanning 11 categories; (2) an agentic harness equipped with relevant crypto and DeFi tools to generate responses across multiple frontier LLMs; and (3) an evaluation pipeline with citation verification and an LLM as a judge rubric spanning four user defined success dimensions: relevance, temporal relevance, depth, and data consistency. Using human annotation, we develop a taxonomy of seven higher order error types that are not reliably captured by factuality checks or LLM based quality scoring. We find that these failures persist even in state of the art systems and can compromise high stakes decisions. Based on this taxonomy, we refine the judge rubric to better capture these errors. While the judge does not align with human annotators on precise scoring across rubric iterations, it reliably identifies critical failure modes, enabling scalable feedback for developers and researchers studying analyst style agents. We release CryptoAnalystBench with annotated queries, the evaluation pipeline, judge rubrics, and the error taxonomy, and outline mitigation strategies and open challenges in evaluating long form, multi tool augmented systems.

연구 동기 및 목표

CryptoAnalystBench를 11개 카테고리의 198개의 생산 연계 암호/DeFi 질의로 개발하여 실제 분석가 워크플로를 반영합니다.
생산 등급 도구를 갖춘 에이전트식 평가 해스를 구축하여 최전선 LLM들로부터 장문 응답을 생성합니다.
관련성, 시점의 관련성, 깊이, 데이터 일관성의 측면에서 자동 인용 검증과 LLM-as-judge 체럽을 결합한 계층적 평가 프레임워크를 제안합니다.
사실 정확도 너머의 고차원적, 다중 도구 추론 실패를 진단하기 위한 7-카테고리의 오류 분류 체계를 창출합니다.
분석가 스타일 에이전트의 확장 가능한 분석을 가능하게 하기 위해 벤치마크, 평가 파이프라인, judge rubrics, 오류 분류 체계를 공개합니다.

제안 방법

원시 생산 질의에서 시작하여 11개 카테고리로 클러스터링하고 근접 중복을 제거하며 검색/추론 요구사항을 필터링하고 198개의 전문가 큐레이션 프롬프트를 산출하는 다섯 단계의 벤치마크 구성 파이프라인.
Market data APIs, 웹 검색, 문서 인출, 블록체인 질의, 코드 실행 등을 사용하여 ReAct 스타일 루프를 구현하는 생산 암호 분석가를 모방한 에이전트식 해스.
주장들을 자동으로 추출하고 이를 도구 출력과 연결하며 정확한 주장, 파생 주장, 조작된 주장을 계산하고 인용 정확성 지표를 추가로 산출하는 자동 사실성 파이프라인.
깊이, 관련성, 시점의 관련성, 데이터 일관성의 네 차원에 걸쳐 점수를 매기는 LLM-as-a-judge 체럽이 인간 주석으로 보정됩니다.
7단계의 정성적 오류 분류 체계(시점의 낡음/시간 경계 누락, 불일치하는 주장, 출처 조정 실패, 피상적 합성, 위험/맥락 누락, 과도하게 확신하는 예측, 부분적/오해된 응답)와 자동 오류 태깅의 93.45% 정확도를 달성하는 분류기.
구조화된 API 출력의 우선순위 부여, 시점 맥락을 보강한 프롬프트, 깊이를 높이기 위한 작업별 하위 프롬프트 활성화 등 완화책을 제안합니다.

실험 결과

연구 질문

RQ1LLM이 높은 데이터 밀도 영역에서 다중 도구 출력을 종합한 장문 분석을 생성해야 할 때 어떤 고차원적 실패 모드가 나타나는가?
RQ2자동 인용 근거화 및 LLM-as-judge 체럽이 장문 암호 분석에 대해 인간 전문가의 판단과 얼마나 잘 일치하는가?
RQ3다중 도구 분석가 워크플로우에 대한 포괄적 오류 분류 체계는 무엇이며 자동 탐지기가 인간 주석을 재현할 수 있는가?
RQ4목표가 된 완화책이 깊이, 관련성, 데이터 일관성을 향상시키면서도 약한 모델의 불안정을 초래하지 않는가?

주요 결과

모델 간 차이는 주로 깊이와 데이터 일관성에서 나타나며 시점의 관련성 또는 기본 관련성보다는 차이가 큼; 일부 모델은 일관성에 중점을 두는 반면(GPT-5.2 등), 다른 모델은 더 큰 깊이를 달성함(Kimi K2.5 등).
조작(할루시네이션)된 주장도 모든 모델에서 6% 미만으로 유지되며, 정확한 주장과 파생 주장은 주로 도구 출력에 근거를 둠.
인용 정확성은 모든 모델에서 높게 나타나(85% 이상), GLM-4.7 및 Kimi K2.5가 가장 높은 비율을 달성함.
사실성 이상의 고차원적 실패를 포착하는 7카테고리의 정성적 오류 분류 체계가 존재하며, 시점의 낡음, 출처 조정 실패, 부분적/오해된 응답 등을 포함합니다.
LLM 기반 판단자는 인간 전문가와의 정합성에서 합리적에서 중등 수준의 Cohen’s Kappa를 보여 개발에 대한 확장 가능한 피드백 신호로서의 활용을 정당화합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.