QUICK REVIEW

[논문 리뷰] Visual Word Sense Disambiguation with CLIP through Dual-Channel Text Prompting and Image Augmentations

Shamik Bhattacharya, Daniel Perkins|arXiv (Cornell University)|2026. 02. 06.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

이 논문은 텍스트 임베딩을 이중 채널 프롬프트와 WordNet으로 확장하고, 테스트 시 증강으로 이미지 임베딩을 안정화하는 CLIP 기반 VWSD 프레임워크를 제시하여 SemEval-2023 VWSD에서 MRR 및 Hit Rate를 향상시킵니다.

ABSTRACT

Ambiguity poses persistent challenges in natural language understanding for large language models (LLMs). To better understand how lexical ambiguity can be resolved through the visual domain, we develop an interpretable Visual Word Sense Disambiguation (VWSD) framework. The model leverages CLIP to project ambiguous language and candidate images into a shared multimodal space. We enrich textual embeddings using a dual-channel ensemble of semantic and photo-based prompts with WordNet synonyms, while image embeddings are refined through robust test-time augmentations. We then use cosine similarity to determine the image that best aligns with the ambiguous text. When evaluated on the SemEval-2023 VWSD dataset, enriching the embeddings raises the MRR from 0.7227 to 0.7590 and the Hit Rate from 0.5810 to 0.6220. Ablation studies reveal that dual-channel prompting provides strong, low-latency performance, whereas aggressive image augmentation yields only marginal gains. Additional experiments with WordNet definitions and multilingual prompt ensembles further suggest that noisy external signals tend to dilute semantic specificity, reinforcing the effectiveness of precise, CLIP-aligned prompts for visual word sense disambiguation.

연구 동기 및 목표

시각적 맥락에서 어휘의 모호성을 다중모달 임베딩 정렬을 통해 대상 단어의 의미를 해결하여 해결한다.
낮은 대기시간 프롬프트와 강건한 이미지 증가를 갖춘 CLIP 기반의 해석 가능한 VWSD 프레임워크를 개발한다.
프롬프트, 증강 및 외부 지식 신호의 기여도를 이해하기 위해 체계적으로 제거(ablations)한다.
SemEval-2023 VWSD에서 Vanilla CLIP 대비 이익을 정량화한다.

제안 방법

CLIP을 사용하여 모호한 텍스트와 후보 이미지를 공유 다중모달 공간에 임베딩한다.
이중 채널 프롕트 앙상블(의미 프롬프트와 사진 프롬트)을 WordNet 동의어와 융합하여 텍스트 임베딩을 강화하고 채널별로 평균풀링 후 가중 합으로 결합한다.
원하면 어휘적 앵커로 WordNet 정의를 도입하되 맥락 임베딩과의 가중 평균으로 균형을 맞춘다.
다양한 뷰, 자르기, 기하학적 및 광학적 변환을 포함한 테스트타임 증강 파이프라인으로 이미지 임베딩을 강화하고 온도 스케일링으로 평균 집계한다.
강화된 텍스트와 이미지 임베딩 간의 코사인 유사도를 계산하여 최적 매칭 이미지를 선택한다.
WordNet 정의를 사용한 어휘 앵커를 선택하고 맥락과 결합하는 방법(alpha 가중치)을 실험한다.
공유 CLIP 공간의 필요성을 검증하기 위해 Vanilla CLIP과 BERT+BLIP 기준선을 비교한다.

Figure 1: Two images illustrating the ambiguity of the word “bank”: one shows riverbank erosion, the other a piggy bank.

실험 결과

연구 질문

RQ1이중 채널 텍스트 프롬프팅(의미 프롬프트와 사진 프롬프트)이 VWSD를 위한 CLIP의 교차모달 정렬을 어떻게 개선하는가?
RQ2테스트타임 이미지 증강이 VWSD 성능과 지연에 어떤 영향을 미치는가?
RQ3WordNet 기반 정의와 다국어 프롬프트가 VWSD에서 신뢰할 만한 이익을 제공하는가 아니면 노이즈를 도입하는가?
RQ4프롬프트만 사용하는 경우와 프롬프트에 증강을 더한 경우의 정확도와 효율성 차이는 무엇인가?
RQ5다국어 번역이 CLIP 기반 VWSD 성능에 어떤 영향을 미치는가?

주요 결과

이중 채널 프롬프트를 통해 임베딩을 강화하면 SemEval-2023 VWSD에서 MRR이 0.7227에서 0.7590으로, Hit Rate가 0.5810에서 0.6220으로 향상된다.
프롬프트는 강력하고 낮은 지연 시간을 제공하는 반면, 공격적인 이미지 증강은 계산 비용이 큰 경우에 한해 미미한 개선을 가져온다.
WordNet 정의와 다국어 프롬프트는 경우에 따라 노이즈를 도입하거나 성능을 저하시킬 수 있으며, 85% 맥락 임베딩과 15% WordNet 가중치가 이들의 설정에서 최상으로 나타난다.
Vanilla CLIP은 테스트 세트에서 MRR 0.7227 및 Hit Rate 0.5810를 달성하고, BERT+BLIP 기준선은 공유 공간에서의 임베딩 정렬 문제로 인해 성능이 저조하다.
프롬프트와 증강을 함께 적용하면 잠재적 정확도 향상을 위한 이유가 충분하지 않으므로, 의미적 가이던스가 있을 때 시각적 다양성은 수익이 감소한다.

Figure 2: Normalization of the textual and visual input before they are passed into the vision language models. The sentence “Internet Router” (with the underlined target word “router”) is normalized and tokenized. Additionally, the images are resized and normalized.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.