[论文解读] Claim Automation using Large Language Model
论文提出一种本地部署、具治理意识的LLM管线,使用LoRA微调,以从保修索赔叙述中生成结构化纠正行动建议,在领域对齐方面优于通用LLMs。
While Large Language Models (LLMs) have achieved strong performance on general-purpose language tasks, their deployment in regulated and data-sensitive domains, including insurance, remains limited. Leveraging millions of historical warranty claims, we propose a locally deployed governance-aware language modeling component that generates structured corrective-action recommendations from unstructured claim narratives. We fine-tune pretrained LLMs using Low-Rank Adaptation (LoRA), scoping the model to an initial decision module within the claim processing pipeline to speed up claim adjusters' decisions. We assess this module using a multi-dimensional evaluation framework that combines automated semantic similarity metrics with human evaluation, enabling a rigorous examination of both practical utility and predictive accuracy. Our results show that domain-specific fine-tuning substantially outperforms commercial general-purpose and prompt-based LLMs, with approximately 80% of the evaluated cases achieving near-identical matches to ground-truth corrective actions. Overall, this study provides both theoretical and empirical evidence to prove that domain-adaptive fine-tuning can align model output distributions more closely with real-world operational data, demonstrating its promise as a reliable and governable building block for insurance applications.
研究动机与目标
- 将非结构化的索赔叙述整合为 actuarial 工作流中的可操作、结构化纠正输出。
- 开发具治理意识的本地部署LLM框架,以应对数据敏感性与合规性约束。
- 证明领域特定微调能够重塑输出分布,使之与现实世界的索赔处理实践对齐。
- 提供一个多维评估框架,结合自动语义度量与人工评估。
提出的方法
- 在本地部署的解码器 Transformer(DeepSeek-R1-Distill-Llama-8B)以确保数据治理。
- 通过将低秩适配器插入 Transformer 块的选定投影中,进行 Low-Rank Adaptation (LoRA) 微调。
- 采用掩码自回归目标训练,只优化纠正行动段(输入为 Complaint–Cause;输出为 Correction)。
- 在注意力机制中应用 Rotary Position Embedding(RoPE)以获得位置信息。
- 在 PreNorm Transformer 框架内采用多阶段归一化(RMSNorm)和 SwiGLU 激活。
- 使用结合语义相似性度量、结构化输出验证及人-in-the-loop 反馈的多维评估框架进行评估。

实验结果
研究问题
- RQ1领域自适应、本地部署的LLM是否能够生成与现实世界理赔处理实践相匹配的结构化纠正行动输出?
- RQ2对领域特定保修数据进行LoRA微调,是否在输出格式、语义和稳定性方面优于通用LLMs?
- RQ3一个输出纠正行动的中间任务模块如何影响理赔工作流程中的治理、透明性与可审计性?
- RQ4哪种评估框架最能捕捉语言驱动理赔自动化的实际效用与预测准确性?
- RQ5领域对齐对相对于观察到的理赔过程的输出分布有何影响?
主要发现
- 领域特定微调显著提升相较商业通用与基于提示的LLM的性能。
- 约80%的评估案例在纠正行动的地面真值上实现近乎完全匹配。
- 本地部署并设定治理约束能降低数据隐私与监管风险,同时提升可重复性与可审计性。
- 对 DeepSeek-R1 模型的LoRA适配将输出分布重塑为与现实世界理赔处理实践对齐。
- 多维评估方法能有效评估输出的结构有效性、语义对齐以及分布的一致性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。