QUICK REVIEW

[논문 리뷰] Open-Ended Medical Visual Question Answering Through Prefix Tuning of Language Models

Tom van Sonsbeek, Mohammad Mahdi Derakhshani|arXiv (Cornell University)|2023. 03. 10.

Multimodal Machine Learning Applications인용 수 11

한 줄 요약

본 논문은 시각-접두 매핑과 접두사/LoRA 기반의 매개변수 효율적 튜닝을 이용해 답을 생성하는 개방형 의학 VQA 접근법을 제시하며, Slake, OVQA, PathVQA에서 강력한 성과를 보였다.

ABSTRACT

Medical Visual Question Answering (VQA) is an important challenge, as it would lead to faster and more accurate diagnoses and treatment decisions. Most existing methods approach it as a multi-class classification problem, which restricts the outcome to a predefined closed-set of curated answers. We focus on open-ended VQA and motivated by the recent advances in language models consider it as a generative task. Leveraging pre-trained language models, we introduce a novel method particularly suited for small, domain-specific, medical datasets. To properly communicate the medical images to the language model, we develop a network that maps the extracted visual features to a set of learnable tokens. Then, alongside the question, these learnable tokens directly prompt the language model. We explore recent parameter-efficient fine-tuning strategies for language models, which allow for resource- and data-efficient fine-tuning. We evaluate our approach on the prime medical VQA benchmarks, namely, Slake, OVQA and PathVQA. The results demonstrate that our approach outperforms existing methods across various training settings while also being computationally efficient.

연구 동기 및 목표

분류 기반 방법의 폐쇄 셋 한계를 극복하기 위해 개방형 의학 VQA의 필요성을 제시한다.
이미지와 질문에 조건화된 자유 형식의 답변을 생성하기 위해 사전 학습된 언어 모델을 활용한다.
언어 모델에 시각 정보를 전달하기 위한 경량의 시각-접두 네트워크를 개발한다.
대형 LM을 작고 도메인 특화된 의학 데이터셋에 적응시키기 위한 매개변수 효율적 미세조정 전략을 탐구한다.
계산 효율성을 유지하면서 다수의 의학 VQA 벤치마크에서 효과를 입증한다.

제안 방법

사전 학습된 비전 인코더로 이미지를 인코딩하고 시각 프리픽스로 매핑하여 언어 모델이 주목할 수 있게 한다.
이미지와 질문의 이중 스트림 인코더를 사용하고, 자동 회귀적으로 답변을 생성하기 위해 디코더로 인과적(causal) 언어 트랜스포머를 사용한다.
질문, 맥락(시각 프리픽스), 답변 토큰을 포함하는 구조화된 프롬프트를 구성하여 생성을 안내한다.
Frozen, Prompt Tuning, Prefix Tuning, LoRA 등 매개변수 효율적 전략으로 모델의 일부만 미세조정한다.
LoRA의 경우 백본을 고정한 채 질의(query)와 값(value) 프로젝션에 학습 가능한 저랭크 행렬을 주입한다.
GPT2-family 모델(GPT2, BioGPT, BioMedLM)에 대해 평가하고 고정, 프롬프트, 프리픽스, LoRA 설정을 비교한다.

실험 결과

연구 질문

RQ1생성형 언어 모델을 사용하여 의학 분야에서 개방형 시각 질문 응답이 효과적으로 달성될 수 있는가?
RQ2매개변수 효율적 미세조정 전략이 작은 의학 VQA 데이터셋에서 대형 언어 모델의 효과적 적응을 가능하게 하는가?
RQ3다양한 언어 모델(일반 vs 생물의학)과 프롟핑/미세조정 전략이 개방형 의학 VQA 성능에 어떻게 영향을 미치는가?
RQ4VQA를 개방형 생성으로 다루는 것이 정확도 및 불균형한 정답 처리 측면에서 전통적인 분류 기반 접근법보다 이점을 제공하는가?

주요 결과

프리픽스 튜닝과 시각 프리픽스를 갖춘 개방형 VQA가 Slake, OVQA, PathVQA에서 여러 지표에 걸쳐 기존의 분류 기반 방법을 능가한다.
LoRA 기반 미세조정은 일반적으로 데이터셋과 지표 전반에서 가장 큰 이득을 주며, 프리픽스/프롬프트를 능가하는 경우가 많고 특히 큰 의학 VQA 벤치마크에서 두드러진다.
LoRA를 사용한 GPT2 기반 모델은 더 넓은 사전 학습과 더 나은 일반화로 때로는 의학 특화 모델(BioGPT, BioMedLM)을 능가한다.
CLIP 기반 시각 임베딩의 활용은 의학 VQA에서 효과적이며 고정된 정답 집합이 아닌 개방형 생성을 지원한다.
PathVQA에서 개방형 접근법은 일부 분류 방법이 누리는 클래스 불균형 이점을 특히 완화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.