[论文解读] Financial Transaction Retrieval and Contextual Evidence for Knowledge-Grounded Reasoning
FinTRACE 引入检索优先框架,将原始金融交易转换为特征本质、行为模式和白盒规则的结构化知识库,以支撑 LLM 推理,实现强零-shot 与少样本结果,并实现知识 grounding 的指令微调。
Nowadays, success of financial organizations heavily depends on their ability to process digital traces generated by their clients, e.g., transaction histories, gathered from various sources to improve user modeling pipelines. As general-purpose LLMs struggle with time-distributed tabular data, production stacks still depend on specialized tabular and sequence models with limited transferability and need for labeled data. To address this, we introduce FinTRACE, a retrieval-first architecture that converts raw transactions into reusable feature representations, applies rule-based detectors, and stores the resulting signals in a behavioral knowledge base with graded associations to the objectives of downstream tasks. Across public and industrial benchmarks, FinTRACE substantially improves low-supervision transaction analytics, doubling zero-shot MCC on churn prediction performance from 0.19 to 0.38 and improving 16-shot MCC from 0.25 to 0.40. We further use FinTRACE to ground LLMs via instruction tuning on retrieved behavioral patterns, achieving state-of-the-art LLM results on transaction analytics problems.
研究动机与目标
- 通过创建可重复使用、可 grounding 的行为证据知识库,解决将 LLM 应用于时间分布的异构金融交易的挑战。
- 开发一个检索优先管线,将原始交易日志转换为特征本质、行为模式和任务目标,并通过透明规则联系起来。
- 利用知识库实现对 LLM 的 grounding 与指令微调,以提升低监督条件下的交易分析在公共和工业基准上的表现。
提出的方法
- 将原始交易历史转化为具有三个语义层次的结构化知识库:特征本质、行为模式和下游目标。
- 使用明确的白盒规则(基于 AutoWoE)将本质与模式、模式与任务结果连接,形成可追溯的证据链。
- 构建面向 LLM 的知识库 grounding 提示,使其在有 grounding 证据的条件下给出预测,替代逐行序列化。
- 通过将知识库实例转化为 grounding 推理三元组进行监督,实现对知识库 grounding 指令微调。
- 通过在知识库构建阶段检索相关行为模式而无目标数据,以及推理时进行自我反思的有限标注样本实现零-shot 与少-shot 适应。
- 在公开与专有交易数据集上对零-shot 与少-shot 的 GPT 基于和 Llama 基于的 LLM 进行评估。

实验结果
研究问题
- RQ1结构化、可检索的金融行为证据知识库是否能在低监督条件下提升 LLM grounded 对交易分析的推理能力?
- RQ2知识库 grounding 的指令微调是否在开放金融基准上达到最先进水平,同时保留通用语言能力?
- RQ3零-shot 检索基础 grounding 与传统仅提示或全监督表格模型在流失率和人口统计任务上的表现有何差异?
- RQ4推理时的自我反思机制是否能在不更新参数的情况下实现对未见金融任务的少-shot 适应?
主要发现
| Method | Rosbank F1 | Rosbank MCC | Gender F1 | Gender MCC | DataFusion F1 | DataFusion MCC |
|---|---|---|---|---|---|---|
| gpt-oss (0 shots) | 0.55 | 0.19 | 0.60 | 0.24 | 0.68 | 0.04 |
| gpt-oss (16 shots) | 0.58 | 0.25 | 0.59 | 0.22 | 0.68 | 0.04 |
| gpt-oss + RT (16 shots) | 0.66 | 0.30 | 0.55 | 0.08 | 0.59 | 0.03 |
| TabPFN_v2 (16 shots) | 0.49 | 0.01 | 0.61 | 0.27 | 0.71 | 0.09 |
| TabLLM (16 shots) | 0.59 | 0.25 | 0.53 | 0.09 | 0.42 | 0.00 |
| FeatLLM (16 shots) | 0.47 | 0.11 | 0.51 | 0.02 | 0.65 | 0.03 |
| KNN + CoLES (16 shots) | 0.47 | 0.06 | 0.58 | 0.16 | 0.61 | 0.01 |
| KNN + LLM4ES (16 shots) | 0.45 | 0.06 | 0.51 | 0.02 | – | – |
| FinTRACE (zero-shot) | 0.69 | 0.38 | 0.63 | 0.31 | 0.65 | 0.05 |
| FinTRACE (16 shots) | 0.70 | 0.40 | 0.60 | 0.24 | 0.77 | 0.10 |
- FinTRACE 将 Rosbank 的零-shot MCC 从 0.19 提升到 0.38,显示出对提示方法的强 grounding 效果。
- 在 16-shot 设置中,FinTRACE 在 Rosbank 达到 MCC 0.40,在 DataFusion 达到 F1 0.77,超越强基线。
- 使用 FinTRACE 进行知识库 grounding 的指令微调在 Rosbank 的 MCC 达到 0.48,在 Gender 上达到 0.53,同时保留文本能力,在某些指标上达到或超过任务特异模型。
- 在专有数据集上的零-shot FinTRACE 获得最高 MCC(0.10),在极端标注稀缺条件下优于基线 GPT-OSS 和 TabLLM。
- 消融结果显示由 LLM 指导的行为模式选择和白盒知识是性能提升的关键驱动因素。
- 通过白盒知识库构建的上下文显著优于简单分布式概述或特征重要性增强。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。