QUICK REVIEW

[논문 리뷰] Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization

Chaimae Chellaf, Salima Mdhaffar|arXiv (Cornell University)|2026. 03. 09.

Topic Modeling인용 수 0

한 줄 요약

본 논문은 SBARThez를 제시한다. 이는 다중언어/다중모달 인코더의 문장 임베딩에서 작동하는 문장 임베딩 기반 추상 요약 모델이며, 사실성 향상을 위한 Named Entity Injection 메커니즘을 갖추고 있으며, 교차 언어 및 다중 모달 능력을 시연하고 저자원 언어에서 강력한 성능을 보인다.

ABSTRACT

Abstractive summarization aims to generate concise summaries by creating new sentences, allowing for flexible rephrasing. However, this approach can be vulnerable to inaccuracies, particularly `hallucinations' where the model introduces non-existent information. In this paper, we leverage the use of multimodal and multilingual sentence embeddings derived from pretrained models such as LaBSE, SONAR, and BGE-M3, and feed them into a modified BART-based French model. A Named Entity Injection mechanism that appends tokenized named entities to the decoder input is introduced, in order to improve the factual consistency of the generated summary. Our novel framework, SBARThez, is applicable to both text and speech inputs and supports cross-lingual summarization; it shows competitive performance relative to token-level baselines, especially for low-resource languages, while generating more concise and abstract summaries.

연구 동기 및 목표

멀티언어 및 멀티모달 처리를 가능하게 하기 위해 토큰 수준 인코딩 대신 문장 임베딩을 사용하여 추상 요약을 촉진한다.
생성 과정에서 디코더에 Named Entity를 주입하여 사실성 허위를 줄인다.
저자원 언어에 중점을 두고 텍스트 및 음성 입력과 단일- 및 교차-언어 요약 작업 전반에서 SBARThez를 평가한다.
문장 임베딩 기반 요약에서 추상성(abstrctiveness)과 충실도(fidelity) 간의 trade-off를 탐구한다.

제안 방법

사전 학습된 모델(LaBSE, SONAR, BGE-M3)을 사용하여 입력 문서를 문장 임베딩으로 인코딩한다.
인코더의 embed-tokens 계층을 제거하고 입력 차원에 맞추기 위한 프로젝션을 추가한 후, 수정된 토큰 기반의 seq2seq 모델(BARThez)에 임베딩을 입력한다.
두 단계로 학습한다: 먼저 문장 임베딩에 적응하기 위해 대규모 텍스트 요약으로 학습한 다음, 임베딩 모델을 동결한 상태에서 작업 특성에 맞춘 미세 조정을 수행한다.
camembert-ner로 엔터티를 추출하고 이를 토큰화한 후 학습 및 추론 시 디코더 입력에 이를 추가하는 Named Entity Injection을 도입한다.
임베딩 모델에 따라 다양한 SBARThez 변형을 텍스트 및 음성 작업에서 평가하고 토큰 기반 베이스라인과 비교한다.
교차 언어(X→Fr) 및 음성 요약(FR→Fr) 시나리오로 평가를 확장한다.

실험 결과

연구 질문

RQ1문장 임베딩 기반 인코더가 다언어 및 다중 모달에 걸친 추상 요약을 효과적으로 이끌 수 있는가?
RQ2SBARThez 출력에서 디코더에 Named Entity를 주입하는 것이 사실성 허위를 줄이는가?
RQ3저자원 언어에서 특히, 프랑스어 단일 언어, 다언어 간(여러 소스 언어에서 프랑스로) 및 음성-대 텍스트 요약 작업에서 SBARThez의 성능은 어떠한가?
RQ4다른 문장 임베딩 모델들(LaBSE, SONAR, BGE-M3)이 요약 품질과 추상성에 미치는 영향은 무엇인가?
RQ5음성에서의 구분(segmentation)이나 자동 구분과 같은 구분 전략에 대한 접근법의 강건성은 어느 정도인가?

주요 결과

SBARThez 변형은 토큰 기반 베이스라인과 비교해 ROUGE-L 및 BertScore에서 경쟁력을 보이며, 저자원 언어에서 특히 향상을 보였다.
Named Entity Injection(NEI)은 NE 환각을 크게 감소시켜 여러 SBARThez 변형에서 NEH 위험을 실제 정답 수준에 더 가깝게 만든다.
SBARThez 모델은 토큰 기반 모델보다 추상적일 경향이 있으며, 추출적 카피 지표(P-R1, EFC, EFD)는 낮으면서도 전반적인 품질 지표에서 높은 충실도를 유지한다.
SBARThez를 BGE/LaBSE/SONAR 임베딩으로 사용할 때 다중 언어에서 비교적 안정적인 성능을 보이는 교차 언어 실험이 나타났으나 FR→FR 설정은 프랑스어 데이터에 대한 작업 특화 미세 조정의 이점을 얻는다.
음성 설정에서 텍스트 및 음성 임베딩을 결합한 SBARThez가 최상의 성능을 보이나, WER에 따라 계단식 ASR 베이스라인도 여전히 경쟁할 수 있다.
이 방법은 고자원 및 저자원 언어에서의 강건성을 보여 주며, 저자원 상황에서의 교차 언어 요약에서 특히 강력한 강점을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.