Skip to main content
QUICK REVIEW

[논문 리뷰] Bridging Lexical Ambiguity and Vision: A Mini Review on Visual Word Sense Disambiguation

Shashini Nilukshi, Deshan Sumanathilaka|arXiv (Cornell University)|2026. 02. 01.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

VWSD 진행 상황을 초기 다중모달 융합에서 CLIP 및 LLM 강화 시스템으로, 다국어 및 생성 방법과 성능 향상을 통해 개관하는 미니 리뷰.

ABSTRACT

This paper offers a mini review of Visual Word Sense Disambiguation (VWSD), which is a multimodal extension of traditional Word Sense Disambiguation (WSD). VWSD helps tackle lexical ambiguity in vision-language tasks. While conventional WSD depends only on text and lexical resources, VWSD uses visual cues to find the right meaning of ambiguous words with minimal text input. The review looks at developments from early multimodal fusion methods to new frameworks that use contrastive models like CLIP, diffusion-based text-to-image generation, and large language model (LLM) support. Studies from 2016 to 2025 are examined to show the growth of VWSD through feature-based, graph-based, and contrastive embedding techniques. It focuses on prompt engineering, fine-tuning, and adapting to multiple languages. Quantitative results show that CLIP-based fine-tuned models and LLM-enhanced VWSD systems consistently perform better than zero-shot baselines, achieving gains of up to 6-8\% in Mean Reciprocal Rank (MRR). However, challenges still exist, such as limitations in context, model bias toward common meanings, a lack of multilingual datasets, and the need for better evaluation frameworks. The analysis highlights the growing overlap of CLIP alignment, diffusion generation, and LLM reasoning as the future path for strong, context-aware, and multilingual disambiguation systems.

연구 동기 및 목표

  • Visual Word Sense Disambiguation (VWSD)의 2016–2025년 진화를 조사한다.
  • Feature-based, graph-based, 그리고 contrastive embedding VWSD 접근법을 비교한다.
  • CLIP, 확산 생성, 및 LLM이 VWSD 성능에 미치는 영향을 분석한다.
  • 프롬프트 엔지니어링, 미세조정, 다국어 적응, 그리고 평가 도전과제를 논의한다.

제안 방법

  • 주요 소스(ACL, arXiv, IEEE Xplore, SpringerLink, Semantic Scholar, Google Scholar)에서 체계적 문헌 조사를 수행한다.
  • 경계 포함/제외 기준을 적용하여 실험적 VWSD 방법과 벤치마크(예: SemEval-2023 Task 1)에 초점을 맞춘다.
  • VWSD 방법과 아키텍처의 타임라인 및 추세 분석을 수행한다.
  • 성능 지표(HIT@1, MRR)와 방법론적 발전에 대한 결과를 종합한다.
  • 다국어 및 교차 모달 VWSD의 격차, 도전과제 및 향후 방향을 강조한다.
Figure 1: PRISMA Flow of the Paper Selection Process
Figure 1: PRISMA Flow of the Paper Selection Process

실험 결과

연구 질문

  • RQ12016년부터 2025년까지 Visual Word Sense Disambiguation에 어떤 아키텍처와 기법이 사용되었는가?
  • RQ2CLIP 기반 및 LLM 강화 VWSD 시스템은 제로샷 기준선과 비교하여 어떤 성능을 보이는가?
  • RQ3VWSD의 주요 다국어 및 교차 언어적 도전은 무엇인가?
  • RQ4현재 VWSD 연구와 일반화에 한계를 주는 평가 및 데이터 이슈는 무엇인가?

주요 결과

  • CLIP 기반 미세조정된 VWSD 모델과 LLM 강화 시스템이 제로샷 기준선을 능가한다.
  • VWSD 환경에서 기준 CLIP 대비 MRR 상승이 최대 6–8%로 보고된다.
  • 프롬프트 엔지니어링 및 다양한 프롬프트 템플릿이 VWSD의 견고성과 HIT@1 점수를 향상시킨다.
  • 확산 기반 텍스트-이미지 생성 및 이미지-텍스트 생성 접근법이 교차 모달 구분에 점점 더 많이 사용된다.
  • 다국어 VWSD 접근 방식과 언어 비차별 임베딩이 교차 언어 성능을 향상시키지만 데이터 및 벤치마크 편향은 여전하다.
  • LLM 추론을 활용한 앙상블 딥모델이 VWSD 벤치마크에서 높은 성능을 보이며, 하이브리드 아키텍처로의 경향을 시사한다.
Figure 2: Analysis of the timeline
Figure 2: Analysis of the timeline

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.