Skip to main content
QUICK REVIEW

[논문 리뷰] Web-Scale Multimodal Summarization using CLIP-Based Semantic Alignment

Mounvik K, N Harshit|arXiv (Cornell University)|2026. 02. 16.
Topic Modeling인용 수 0
한 줄 요약

가볍고 실시간 프레임워크로 주제에 대한 웹/텍스트/이미지를 검색하고, 미세조정된 CLIP로 시각 요소를 랭킹하며, 필요 시 BLIP로 이미지를 캡션하고, 다중 모달 요약을 API를 통해 출력합니다. 평가에서 ROC-AUC 0.9270 및 정확도 96.99%로 강력한 의미론적 정렬을 보여줍니다.

ABSTRACT

We introduce Web-Scale Multimodal Summarization, a lightweight framework for generating summaries by combining retrieved text and image data from web sources. Given a user-defined topic, the system performs parallel web, news, and image searches. Retrieved images are ranked using a fine-tuned CLIP model to measure semantic alignment with topic and text. Optional BLIP captioning enables image-only summaries for stronger multimodal coherence.The pipeline supports features such as adjustable fetch limits, semantic filtering, summary styling, and downloading structured outputs. We expose the system via a Gradio-based API with controllable parameters and preconfigured presets.Evaluation on 500 image-caption pairs with 20:1 contrastive negatives yields a ROC-AUC of 0.9270, an F1-score of 0.6504, and an accuracy of 96.99%, demonstrating strong multimodal alignment. This work provides a configurable, deployable tool for web-scale summarization that integrates language, retrieval, and vision models in a user-extensible pipeline.

연구 동기 및 목표

  • 웹, 뉴스 및 이미지에 걸친 주제 중심 다중 모달 검색을 구성 가능하게 파이프라인으로 개발한다.
  • 로컬에서 미세 조정된 CLIP 모델을 사용하여 텍스트와 질의 간의 시각 콘텐츠를랭킹하기 위한 의미적 점수를 적용한다.
  • 이미지 전용 다중 모달 요약을 위한 선택적 BLIP 기반 이미지 캡션 생성을 가능하게 한다.
  • 조정 가능한 매개변수와 질의 커스터마이징이 가능한 라이브 API를 통해 파이프라인을 노출시킨다.
  • 정량적 이미지-캡션 매칭 지표(ROC-AUC 0.9270, 정확도 96.99%)를 사용하여 의미 정렬성을 평가한다.

제안 방법

  • DuckDuckGo API를 사용하여 사용자 주제와 관련된 웹 페이지, 뉴스 및 이미지를 검색한다.
  • 추출된 텍스트와 이미지를 필터링하고 구성한다; 필요 시 상위 이미지에 BLIP로 캡션을 달아준다.
  • 텍스트, 이미지, 프롬프트 간의 의미적 정합성을 위한 500개의 이미지-캡션 페어로 CLIP 모델을 미세조정한다.
  • 텍스트 관련성과 이미지-캡션 정렬 간의 균형을 맞추기 위해 제어 가능한 가중치 알파를 사용하여 다중 모달 점수를 계산한다.
  • 상위 랭크된 세그먼트에서 요약을 생성하고 Markdown, JSON, 또는 다운로드 가능한 형식으로 출력을 제공한다.
  • 세그먼트 제한, 임계값, 빠른 모드 등 구성 가능한 매개변수와 Gradio 기반 인터페이스 및 API를 노출한다.

실험 결과

연구 질문

  • RQ1CLIP 기반 모델이 웹 규모 설정에서 검색된 웹 텍스트와 이미지를 사용자 주제와 얼마나 효과적으로 정렬할 수 있는가?
  • RQ2다중 모달 점수 매김이 텍스트 전용 기준선에 비해 검색 정확도와 요약의 응집성에 어떤 영향을 미치는가?
  • RQ3선택적 BLIP 캡션이 이미지 기반 요약 품질을 향상시키는가?
  • RQ4시스템이 실시간으로 작동할 수 있으며 조정 가능한 페치 한계와 의미적 임계값을 만족하는가?

주요 결과

  • 최종 정렬 강화 모델이 평가 설정에서 96.99%의 정확도를 달성한다.
  • 정렬 모델의 ROC-AUC는 0.9270으로 500개의 이미지-캡션 페어와 양의당 20개의 음수에서 측정된다.
  • 다중 모달 점수 매김은 관련 없는 결과의 포함을 줄이면서도 주제-이미지-텍스트 쌍의 의미 있는 매치를 보존한다.
  • 텍스트 전용 기준선과 비교하여 다중 모달 접근 방식이 일관된 요약을 위한 세그먼트 선택 품질을 향상시킨다.
  • 클립 기반 정렬 및 선택적 BLIP 캡션의 성능 영향에 대한 분석이 있는 제거 연구가 수행되었다.
  • 시스템은 구성 가능한 매개변수를 지원하고 실시간 웹 규모 요약을 위한 배포 가능하고 투명한 파이프라인을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.