[论文解读] Can large language models build causal graphs?
GPT-3 可以在医学有向无环图(DAG)中提示边的存在/不存在,其准确性受提示语、动词和具体性影响;专家验证仍然至关重要。
Building causal graphs can be a laborious process. To ensure all relevant causal pathways have been captured, researchers often have to discuss with clinicians and experts while also reviewing extensive relevant medical literature. By encoding common and medical knowledge, large language models (LLMs) represent an opportunity to ease this process by automatically scoring edges (i.e., connections between two variables) in potential graphs. LLMs however have been shown to be brittle to the choice of probing words, context, and prompts that the user employs. In this work, we evaluate if LLMs can be a useful tool in complementing causal graph development.
研究动机与目标
- 评估 GPT-3 是否能够从文本数据中指示医学 DAGs 中边的存在或不存在。
- 评估提示设计如何影响边分类的准确性。
- 检验连接动词和语言表达的具体性对准确性的影响。
- 识别 GPT-3 在更可靠或较不可靠的情境与局限性。
- 提出将大语言模型与专家 DAG 开发相结合的方向。
提出的方法
- 构建四个不同复杂度的真实医学 DAG。
- 对每一组有序变量对,向 GPT-3 提出两条陈述(边存在 vs 边不存在),并比较准确性分数。
- 尝试以医学权威为锚点的提示(如医生、研究)来评估提示效应。
- 测试描述关系的不同连接动词(如“导致”、“增加风险”)以衡量对准确性的影响。
- 改变变量描述的具体性,观察更详细的语言是否提升表现。
实验结果
研究问题
- RQ1GPT-3 是否能够基于文本数据可靠地指示医学变量在 DAG 之间是否存在边?
- RQ2参考医学权威的提示是否能提升 GPT-3 的边分类准确性?
- RQ3连接动词或措辞是否会影响 GPT-3 的边检测准确性?
- RQ4变量描述的更高具体性是否提升 GPT-3 识别因果边的能力?
主要发现
| DAG name | Prompt | Accuracy |
|---|---|---|
| Alcohol | Baseline | 0.33 |
| Alcohol | Big Pharma | 0.50 |
| Alcohol | Medical doctors | 0.83 |
| Alcohol | Medical studies | 0.67 |
| Cancer | Baseline | 0.75 |
| Cancer | Big Pharma | 0.58 |
| Cancer | Medical doctors | 1.00 |
| Cancer | Medical studies | 1.00 |
| Diabetes | Baseline | 0.67 |
| Diabetes | Big Pharma | 0.50 |
| Diabetes | Medical doctors | 0.33 |
| Diabetes | Medical studies | 0.42 |
| Obesity | Baseline | 0.75 |
| Obesity | Big Pharma | 0.58 |
| Obesity | Medical doctors | 0.75 |
| Obesity | Medical studies | 0.75 |
- 在至少一个实验设置下,GPT-3 在所有 DAG 上的准确率都显著高于随机。
- 提示设计效果参差不齐;以医学医生为锚点的提示在某些 DAG 提升了准确性,但在其他 DAG 未见提升,而‘大型制药公司’提示常常降低准确性。
- 连接动词影响准确性,'increases risk'(增加风险)和 'cause'(导致)在不同 DAG 上表现各异。
- 更高的具体性并未持续提升准确性,有时取决于 DAG 和所用动词反而降低准确性。
- 总体而言,GPT-3 的表现因 DAG 和设置而异,但有改进,表明可作为专家 DAG 开发的补充。
- 研究强调在使用大语言模型构建 DAG 时,专家验证仍然是必不可少的。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。