[논문 리뷰] Can large language models build causal graphs?
GPT-3는 의료 DAG에서 엣지의 존재/부재를 신호할 수 있으며, 프롬프트, 동사, 그리고 구체성에 따라 정확도가 달라진다; 전문가 검증은 여전히 필수적이다.
Building causal graphs can be a laborious process. To ensure all relevant causal pathways have been captured, researchers often have to discuss with clinicians and experts while also reviewing extensive relevant medical literature. By encoding common and medical knowledge, large language models (LLMs) represent an opportunity to ease this process by automatically scoring edges (i.e., connections between two variables) in potential graphs. LLMs however have been shown to be brittle to the choice of probing words, context, and prompts that the user employs. In this work, we evaluate if LLMs can be a useful tool in complementing causal graph development.
연구 동기 및 목표
- 텍스트 데이터로부터 의학 DAG의 엣지의 존재 여부를 GPT-3가 신호할 수 있는지 평가한다.
- 프롬프트 엔지니어링이 엣지 분류 정확도에 어떤 영향을 미치는지 평가한다.
- 연결 동사와 언어 구체성이 정확도에 미치는 영향을 살펴본다.
- GPT-3의 한계와 더 신뢰할 수 있는 맥락, 덜 신뢰하는 맥락을 식별한다.
- 전문가 DAG 개발과의 통합 방향을 제시한다.
제안 방법
- 다양한 복잡성을 가진 네 개의 실제 의료 DAG를 구축한다.
- 변수의 모든 순서쌍에 대해 두 개의 진술(엣지 존재, 엣지 부재)로 GPT-3를 질의하고 정확도 점수를 비교한다.
- 의료 당국(예: 의사, 연구)과 연결된 프롬프트를 실험하여 프롬프트 효과를 평가한다.
- 관계를 설명하는 다양한 연결 동사(예: '원인이다', '위험을 증가시킨다')를 테스트하여 정확도에 미치는 영향을 측정한다.
- 변수 설명의 구체성을 달리하여 더 자세한 언어가 성능을 향상시키는지 확인한다.
실험 결과
연구 질문
- RQ1텍스트 데이터를 기반으로 두 의료 변수 사이에 엣지가 존재하는지 GPT-3가 신뢰성 있게 판단할 수 있는가?
- RQ2의료 당국을 참조하는 프롬프트가 GPT-3의 엣지 분류 정확도를 높이는가?
- RQ3연결 동사나 표현 방식이 GPT-3의 엣지 탐지 정확도에 영향을 미치는가?
- RQ4변수 설명의 구체성이 증가하면 GPT-3가 인과 엣지를 식별하는 능력이 향상되는가?
주요 결과
| DAG 이름 | 프롬프트 | 정확도 |
|---|---|---|
| Alcohol | Baseline | 0.33 |
| Alcohol | Big Pharma | 0.50 |
| Alcohol | Medical doctors | 0.83 |
| Alcohol | Medical studies | 0.67 |
| Cancer | Baseline | 0.75 |
| Cancer | Big Pharma | 0.58 |
| Cancer | Medical doctors | 1.00 |
| Cancer | Medical studies | 1.00 |
| Diabetes | Baseline | 0.67 |
| Diabetes | Big Pharma | 0.50 |
| Diabetes | Medical doctors | 0.33 |
| Diabetes | Medical studies | 0.42 |
| Obesity | Baseline | 0.75 |
| Obesity | Big Pharma | 0.58 |
| Obesity | Medical doctors | 0.75 |
| Obesity | Medical studies | 0.75 |
- GPT-3는 적어도 하나의 실험 설정에서 모든 DAG에서 무작위보다 훨씬 높은 정확도를 달성했다.
- 프롬프트 엔지니어링은 혼합된 효과를 보였다; 의사(의료 분야) 프롬프트는 일부 DAG에서 정확도를 높였지만 others에는 그렇지 않았고, Big Pharma 프롬프트는 종종 정확도를 떨어뜨렸다.
- 연결 동사는 정확도에 영향을 미쳤으며, '위험을 증가시킨다'와 '원인이다'가 DAG마다 다르게 작동했다.
- 구체성이 더 높아져도 일관되게 정확도가 향상되지는 않았으며, DAG와 사용된 동사에 따라 때로는 정확도가 감소했다.
- 전반적으로 GPT-3의 성능은 DAG와 설정에 따라 달랐지만 개선이 관찰되었고, 전문가 DAG 개발을 보완하는 유용성을 시사한다.
- 본 연구는 LLM을 사용하여 DAG를 구축할 때 전문가 검증이 여전히 필수적임을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.