QUICK REVIEW

[논문 리뷰] Is ChatGPT a Biomedical Expert? -- Exploring the Zero-Shot Performance of Current GPT Models in Biomedical Tasks

Samy Ateia, Udo Kruschwitz|arXiv (Cornell University)|2023. 06. 28.

Artificial Intelligence in Healthcare and Education인용 수 12

한 줄 요약

이 논문은 BioASQ 2023 과제에서 GPT-3.5-Turbo와 GPT-4를 평가하고, 스니펫이 있는 생물의학 QA에서 강력한 제로샷 성능을 보이며, 조회 확장(query expansion), 그라운딩(grounding), 프롬프트 적용(promoting)에 따른 검색 및 NER 작업의 영향을 분석한다.

ABSTRACT

We assessed the performance of commercial Large Language Models (LLMs) GPT-3.5-Turbo and GPT-4 on tasks from the 2023 BioASQ challenge. In Task 11b Phase B, which is focused on answer generation, both models demonstrated competitive abilities with leading systems. Remarkably, they achieved this with simple zero-shot learning, grounded with relevant snippets. Even without relevant snippets, their performance was decent, though not on par with the best systems. Interestingly, the older and cheaper GPT-3.5-Turbo system was able to compete with GPT-4 in the grounded Q&A setting on factoid and list answers. In Task 11b Phase A, focusing on retrieval, query expansion through zero-shot learning improved performance, but the models fell short compared to other systems. The code needed to rerun these experiments is available through GitHub.

연구 동기 및 목표

BioASQ Task 11b Phase A(검색 및 스니펫 추출) 및 Phase B(답변 생성을)에서 GPT-3.5-Turbo와 GPT-4의 제로샷 및 그라운딩된 QA 성능 평가.
스페인어 및 SNOMED CT 매핑에서 제로샷 및 few-shot 프롬프트를 사용한 MedProcNER 성능 평가.
생물의학 QA에서 조회 확장, 스니펫으로의 그라운딩, 프롬프트 전략의 효과를 시스템 성능 측면에서 탐구.
프롬프트 설계, 비결정성, 비용 고려사항 등 한계에 대한 논의와 함께 오픈 소스 코드 제공.

제안 방법

BioASQ-system 프롬프트를 사용하여 OpenAI API를 통해 GPT-3.5-Turbo 및 GPT-4를 사용한다.
Phase A에서 조회 확장, 재구성, PubMed 결과 재정렬 등을 포함한 제로샷 프롬프트를 검색에 적용한다.
Phase B에서 GPT 출력물을 정답 스니펫으로 그라운딩하고 다양한 정답 형식(Ideal, Yes/No, List, Factoid)을 테스트한다.
MedProcNER 작업에 대한 프롬프트를 스페인어로 번역 및 적응하고 few-shot 대 zero-shot 설정을 비교한다.
BioASQ 지표(MAP, GMAP, accuracy, F1, MRR)로 성능을 측정하고 배치별로 분할 결과를 보고한다.
복제를 위한 공개 GitHub 저장소 제공.

실험 결과

연구 질문

RQ1GPT-3.5-Turbo와 GPT-4가 관련 스니펫으로 제로샷 프롬프트를 적용해 BioASQ Phase B(답변 생성)에서 최상위 시스템과 경쟁할 수 있는가?
RQ2Phase A에서 조회 확장이 검색 성능에 어떤 영향을 미치며, 그라운딩과 재정렬이 결과에 어떤 영향을 주는가?
RQ3Yes/No, Factoid, List, 및 Ideal 답변 형식에서 그라운딩 여부에 따라 GPT-3.5-Turbo와 GPT-4의 비교 성능은 어떠한가?
RQ4제로샷 및 few-shot 프롬프트를 사용한 스페인어 MedProcNER 작업(NER, Entity Linking, Indexing)에서 GPT-4의 성능은 어느 정도인가?
RQ5연구에서 이러한 모델을 생물의학 QA에 사용하는 데 있어 실질적인 고려사항(비용, 결정성, 신뢰성)은 무엇인가?

주요 결과

GPT-3.5-Turbo와 GPT-4는 Task 11b Phase B에서 제로샷 성능이 경쟁력 있으며, 스니펫으로 그라운딩될 때 종종 선두 시스템과 대등하게 나타난다.
조회 확장은 모델 전반에서 검색 성능을 향상시키며 배치 및 모델에 따라 이득이 다르다.
GPT-4는 일반적으로 Yes/No 그라운딩에서 GPT-3.5-Turbo보다 우수하지만, Factoid 및 List 형식에서는 그라운딩된 GPT-4와 GPT-3.5-Turbo 간에 변동성이 있어 명확한 전체 우승자가 없다.
Phase A에서 스니펫으로의 그라운딩은 성능을 향상시키며, 그라운딩이 없으면 결과가 양호하더라도 일반적으로 최상위 시스템보다 뒤처진다.
MedProcNER 결과는 GPT-4가 GPT-3.5-Turbo보다 우수하지만 NER, Entity Linking, Indexing에서 여전히 최상위 시스템보다 뒤처지며, few-shot NER은 도움이 되지만 점수는 낮다.
연구는 프롬프트 엔지니어링을 주요 도전과제로 강조하고, 비결정성 및 비용을 실제 사용에서 중요한 실용적 고려사항으로 지적한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.