QUICK REVIEW

[論文レビュー] Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization

Chaimae Chellaf, Salima Mdhaffar|arXiv (Cornell University)|Mar 9, 2026

Topic Modeling被引用数 0

ひとこと要約

本論文は SBARThez を提案する。SBARThez は多言語・マルチモーダルエンコーダからの文の埋め込みを用いた抽象的要約モデルで、事実性を向上させる Named Entity Injection 機構を備え、低リソース言語での強力な性能を示す。

ABSTRACT

Abstractive summarization aims to generate concise summaries by creating new sentences, allowing for flexible rephrasing. However, this approach can be vulnerable to inaccuracies, particularly `hallucinations' where the model introduces non-existent information. In this paper, we leverage the use of multimodal and multilingual sentence embeddings derived from pretrained models such as LaBSE, SONAR, and BGE-M3, and feed them into a modified BART-based French model. A Named Entity Injection mechanism that appends tokenized named entities to the decoder input is introduced, in order to improve the factual consistency of the generated summary. Our novel framework, SBARThez, is applicable to both text and speech inputs and supports cross-lingual summarization; it shows competitive performance relative to token-level baselines, especially for low-resource languages, while generating more concise and abstract summaries.

研究の動機と目的

Token レベルのエンコーディングではなく文の埋め込みを用いて多言語・マルチモーダル処理を可能にすることで抽象的要約を促進する。
生成中にデコーダへ Named Entity を注入することで事実性の幻覚を低減する。
SBARThez をテキストと音声入力の両方、モノ言語・クロスリンガル要約タスクで評価し、特に低 resource 言語に重点を置く。
文の埋め込みベースの要約における抽象性と忠実度のトレードオフを探る。

提案手法

事前学習済みモデル（LaBSE、SONAR、BGE-M3）を用いて入力文書を文の埋め込みへエンコードする。
埋め込みを、入力次元と一致させるための射影を追加し、エンコーダの embed-tokens 層を除去した修正済みの token ベース seq2seq モデル（BARThez）へ投入する。
まず大規模なテキスト要約で文の埋め込みへ適応させた後、埋め込みモデルを凍結したままタスク特異的ファインチューニングの2段階で訓練する。
camembert-ner で抽出したエンティティを抽出・トークン化し、訓練時および推論時にデコーダ入力へ付加して Named Entity Injection を導入する。
テキストおよび音声タスクで複数の SBARThez 変種（埋め込みモデルに基づく）を評価し、トークンベースのベースラインと比較する。
SBARThez を用いたクロスリンガル（X→Fr）および音声要約（FR→Fr）シナリオへ評価を拡張する。

実験結果

リサーチクエスチョン

RQ1文の埋め込みベースのエンコーダは、言語とモダリティを跨ぐ抽象的要約を効果的に推進できるか。
RQ2デコーダへ Named Entity を注入することで SBARThez の出力の事実性の幻覚を低減できるか。
RQ3モノ言語フランス語、クロスリンガル（複数のソース言語からフランス語へ）、音声→テキスト要約タスクで、低リソース言語を特に含めて、SBARThez はどの程度機能するか。
RQ4異なる文埋め込みモデル（LaBSE、SONAR、BGE-M3）が要約品質と抽象性に与える影響はどの程度か。
RQ5音声でのセグメンテーション（正解データ vs 自動セグメンテーション）とセグメンテーション戦略にはどの程度頑健か。

主な発見

SBARThez の変種は、トークンベースのベースラインと比較して ROUGE-L および BertScore が競合的で、低リソース言語で顕著な向上を示す。
Named Entity Injection (NEI) は NE の幻覚を大幅に低減し、いくつかの SBARThez 変種で NEH リスクをグラウンドトゥルースレベルに近づける。
SBARThez モデルは、トークンベースモデルよりも抽象的である傾向があり、抽出コピー指標（P-R1、EFC、EFD）は低い一方、全体的な品質指標での忠実度は高い。
クロスリンガル実験では、SBARThez を BGE/LaBSE/SO-NAR 埋め込みと組み合わせた場合、複数言語で比較的安定した性能を示すが、FR→FR の設定はフランス語データでのタスク特異的ファインチューニングの恩恵を受ける。
音声設定では、テキストと音声埋め込みを組み合わせた SBARThez が最良の性能を示すが、WER によってはカスケードASRベースラインも競合可能。
このアプローチは高リソース言語・低リソース言語の両方で頑健であり、低リソースシナリオでのクロスリンガル要約に特に強いことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。