[论文解读] Building Trustworthy NeuroSymbolic AI Systems: Consistency, Reliability, Explainability, and Safety
本文提出 CREST 框架,一种神经符号方法,通过将符号知识与大型语言模型(LLMs)结合,提升一致性、可靠性、可解释性和安全性——尤其在医疗相关应用中。通过将 LLMs 与临床指南(如 PHQ-9)对齐,并采用知识感知提示工程,CREST 在 PHQ-9 回答能力上较 GPT-3.5 提升 6%,在 BLEURT 上提升 21%。
Explainability and Safety engender Trust. These require a model to exhibit consistency and reliability. To achieve these, it is necessary to use and analyze data and knowledge with statistical and symbolic AI methods relevant to the AI application - neither alone will do. Consequently, we argue and seek to demonstrate that the NeuroSymbolic AI approach is better suited for making AI a trusted AI system. We present the CREST framework that shows how Consistency, Reliability, user-level Explainability, and Safety are built on NeuroSymbolic methods that use data and knowledge to support requirements for critical applications such as health and well-being. This article focuses on Large Language Models (LLMs) as the chosen AI system within the CREST framework. LLMs have garnered substantial attention from researchers due to their versatility in handling a broad array of natural language processing (NLP) scenarios. For example, ChatGPT and Google's MedPaLM have emerged as highly promising platforms for providing information in general and health-related queries, respectively. Nevertheless, these models remain black boxes despite incorporating human feedback and instruction-guided tuning. For instance, ChatGPT can generate unsafe responses despite instituting safety guardrails. CREST presents a plausible approach harnessing procedural and graph-based knowledge within a NeuroSymbolic framework to shed light on the challenges associated with LLMs.
研究动机与目标
- 解决尽管 LLM 在医疗领域广泛应用,但其仍存在一致性、可靠性与安全性不足的问题。
- 通过整合领域特定知识与符号推理,克服 LLM 的黑箱特性。
- 通过知识引导的推理与决策路径,提升用户层面的可解释性。
- 开发一种确保 LLM 遵循临床实践指南的框架,减少不安全或不一致的输出。
- 在抑郁检测基准(PRIMATE)上评估该框架,以证明其相对于基线 LLM 的可测量改进。
提出的方法
- CREST 通过神经符号架构,将程序化与基于图的知识整合进 LLM,以增强推理能力。
- 利用领域特定的临床指南(如 PHQ-9、DSM-5)作为符号知识,约束并引导 LLM 的输出。
- 框架使用知识概念到词的注意力映射,验证输出与领域知识的一致性,提升可解释性。
- 通过在知识定制的 LLM(如 Flan T5-XL、T5-XL)上进行指令微调与微调,提升一致性与可靠性。
- 采用 PHQ-9 回答能力(Matthews 相关系数)、BLEURT 与 BERTScore 等指标评估模型行为,衡量语义与事实一致性。
- 通过将 LLM 回复基于临床决策规则与经验证的知识,实现人类可理解的解释。
实验结果
研究问题
- RQ1神经符号人工智能在多大程度上可提升 LLM 在医疗相关问答任务中的一致性与可靠性?
- RQ2整合临床指南(如 PHQ-9)在多大程度上可增强 LLM 生成回复的安全性与可解释性?
- RQ3知识增强的 LLM 是否能在抑郁筛查任务中超越标准 LLM(如 GPT-3.5)?
- RQ4知识整合如何影响模型对改写或对抗性输入的鲁棒性?
- RQ5在基于知识的医疗 LLM 中,评估安全性与可靠性的最有效指标是什么?
主要发现
- 与 GPT-3.5 相比,CREST 在 PHQ-九个问题的平均 Matthews 相关系数下,将 PHQ-9 回答能力提升了 6%。
- 经知识增强的 CREST 版本在 BLEURT 得分上实现了 21% 的提升,表明其与 PHQ-9 问题的语义对齐性更优。
- 在临床指南引导下,T5-XL 与 Flan T5-XL 模型生成的响应比标准提示方法更一致、更可靠。
- 该框架通过减少在对抗性提问下生成有害或不道德回应的可能性,展现出更强的安全性。
- 经专家验证的知识整合使输出更具可解释性,决策可追溯至临床概念与指南。
- 知识概念与注意力映射的使用,使模型推理过程可验证,从而增强对 LLM 决策的信任。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。