QUICK REVIEW

[논문 리뷰] Web-Scale Multimodal Summarization using CLIP-Based Semantic Alignment

Mounvik K, N Harshit|arXiv (Cornell University)|2026. 02. 16.

Topic Modeling인용 수 0

한 줄 요약

가볍고 실시간 프레임워크로 주제에 대한 웹/텍스트/이미지를 검색하고, 미세조정된 CLIP로 시각 요소를 랭킹하며, 필요 시 BLIP로 이미지를 캡션하고, 다중 모달 요약을 API를 통해 출력합니다. 평가에서 ROC-AUC 0.9270 및 정확도 96.99%로 강력한 의미론적 정렬을 보여줍니다.

ABSTRACT

We introduce Web-Scale Multimodal Summarization, a lightweight framework for generating summaries by combining retrieved text and image data from web sources. Given a user-defined topic, the system performs parallel web, news, and image searches. Retrieved images are ranked using a fine-tuned CLIP model to measure semantic alignment with topic and text. Optional BLIP captioning enables image-only summaries for stronger multimodal coherence.The pipeline supports features such as adjustable fetch limits, semantic filtering, summary styling, and downloading structured outputs. We expose the system via a Gradio-based API with controllable parameters and preconfigured presets.Evaluation on 500 image-caption pairs with 20:1 contrastive negatives yields a ROC-AUC of 0.9270, an F1-score of 0.6504, and an accuracy of 96.99%, demonstrating strong multimodal alignment. This work provides a configurable, deployable tool for web-scale summarization that integrates language, retrieval, and vision models in a user-extensible pipeline.

연구 동기 및 목표

웹, 뉴스 및 이미지에 걸친 주제 중심 다중 모달 검색을 구성 가능하게 파이프라인으로 개발한다.
로컬에서 미세 조정된 CLIP 모델을 사용하여 텍스트와 질의 간의 시각 콘텐츠를랭킹하기 위한 의미적 점수를 적용한다.
이미지 전용 다중 모달 요약을 위한 선택적 BLIP 기반 이미지 캡션 생성을 가능하게 한다.
조정 가능한 매개변수와 질의 커스터마이징이 가능한 라이브 API를 통해 파이프라인을 노출시킨다.
정량적 이미지-캡션 매칭 지표(ROC-AUC 0.9270, 정확도 96.99%)를 사용하여 의미 정렬성을 평가한다.

제안 방법

DuckDuckGo API를 사용하여 사용자 주제와 관련된 웹 페이지, 뉴스 및 이미지를 검색한다.
추출된 텍스트와 이미지를 필터링하고 구성한다; 필요 시 상위 이미지에 BLIP로 캡션을 달아준다.
텍스트, 이미지, 프롬프트 간의 의미적 정합성을 위한 500개의 이미지-캡션 페어로 CLIP 모델을 미세조정한다.
텍스트 관련성과 이미지-캡션 정렬 간의 균형을 맞추기 위해 제어 가능한 가중치 알파를 사용하여 다중 모달 점수를 계산한다.
상위 랭크된 세그먼트에서 요약을 생성하고 Markdown, JSON, 또는 다운로드 가능한 형식으로 출력을 제공한다.
세그먼트 제한, 임계값, 빠른 모드 등 구성 가능한 매개변수와 Gradio 기반 인터페이스 및 API를 노출한다.

실험 결과

연구 질문

RQ1CLIP 기반 모델이 웹 규모 설정에서 검색된 웹 텍스트와 이미지를 사용자 주제와 얼마나 효과적으로 정렬할 수 있는가?
RQ2다중 모달 점수 매김이 텍스트 전용 기준선에 비해 검색 정확도와 요약의 응집성에 어떤 영향을 미치는가?
RQ3선택적 BLIP 캡션이 이미지 기반 요약 품질을 향상시키는가?
RQ4시스템이 실시간으로 작동할 수 있으며 조정 가능한 페치 한계와 의미적 임계값을 만족하는가?

주요 결과

최종 정렬 강화 모델이 평가 설정에서 96.99%의 정확도를 달성한다.
정렬 모델의 ROC-AUC는 0.9270으로 500개의 이미지-캡션 페어와 양의당 20개의 음수에서 측정된다.
다중 모달 점수 매김은 관련 없는 결과의 포함을 줄이면서도 주제-이미지-텍스트 쌍의 의미 있는 매치를 보존한다.
텍스트 전용 기준선과 비교하여 다중 모달 접근 방식이 일관된 요약을 위한 세그먼트 선택 품질을 향상시킨다.
클립 기반 정렬 및 선택적 BLIP 캡션의 성능 영향에 대한 분석이 있는 제거 연구가 수행되었다.
시스템은 구성 가능한 매개변수를 지원하고 실시간 웹 규모 요약을 위한 배포 가능하고 투명한 파이프라인을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.