Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Multi-Document Opinion Summarization as Copycat-Review Generation.

Arthur Bražinskas, Mirella Lapata|arXiv (Cornell University)|Nov 6, 2019
Topic Modeling参考文献 27被引用数 11
ひとこと要約

この論文は、潜在空間におけるノベルティを最小限に抑えることで、滑らかで共通意見に焦点を当てた要約を生成する階層的変分オートエンコーダを用いた教師なし抽象的複数文書意見要約手法を提案する。テスト時にレビューの潜在コードをその平均に固定することで、ラベル付き要約データを一切必要とせず、共有された意見を反映した一貫性のある要約を生成する。

ABSTRACT

Opinion summarization is the task of automatically creating summaries that reflect subjective information expressed in multiple documents, such as product reviews. While the majority of previous work has focused on the extractive setting, i.e., selecting fragments from input reviews to produce a summary, we let the model generate novel sentences and hence produce abstractive summaries. Recent progress in summarization has seen the development of supervised models which rely on large quantities of document-summary pairs. Since such training data is expensive to acquire, we instead consider the unsupervised setting, in other words, we do not use any summaries in training. We define a generative model for a review collection which capitalizes on the intuition that when generating a new review given a set of other reviews of a product, we should be able to control the amount of going into the new review or, equivalently, vary the extent to which it deviates from the input. At test time, when generating summaries, we force the novelty to be minimal, and produce a text reflecting consensus opinions. We capture this intuition by defining a hierarchical variational autoencoder model. Both individual reviews and the products they correspond to are associated with stochastic latent codes, and the review generator (decoder) has direct access to the text of input reviews through the pointer-generator mechanism. Experiments on Amazon and Yelp datasets, show that setting at test time the review's latent code to its mean, allows the model to produce fluent and coherent summaries reflecting common opinions.

研究の動機と目的

  • 通常、高価な教師ありデータに依存するが、教師なし抽象的複数文書意見要約の手法の不足に取り組む。
  • 個々のレビューとそれらが属する製品の両方を確率的潜在コードでモデル化し、文書間で共有される意見を捉える。
  • 入力レビューへのアクセスを有するポインタジェネレータデコーダを活用して、新規で抽象的な要約文を生成する。
  • 潜在コードを操作することで生成レビューにおけるノベルティの度合いを制御し、テスト時に共通意見に焦点を当てた出力を保証する。
  • テスト時に潜在コードをその平均に固定することで、いかなる教師信号なしに滑らかで一貫性があり、共通意見を反映した要約が得られることを示す。

提案手法

  • モデルは、個々のレビューとそれらが属する製品の両方の確率的潜在コードを備えた階層的変分オートエンコーダ(HVAE)を採用する。
  • レビュー生成部(デコーダ)は、入力レビューのテキストに注目するポインタジェネレータ機構を用い、入力からコピーするか、新しい単語を生成することができる。
  • テスト時にレビューの潜在コードがその平均に制約され、ノベルティが最小限に抑えられ、共通意見の表現が促進される。
  • モデルは、データの対数尤度に対する変分下界を最適化することで、入力レビューの再構築と新しいレビューの生成を学習する。
  • 階層的構造により、共有潜在変数を通じて、レビュー単位および製品レベルの感情パターンを捉えることができる。
  • 訓練プロセスには要約のアノテーションが一切不要であり、完全に教師なしとなる。

実験結果

リサーチクエスチョン

  • RQ1教師あり要約データにアクセスできない教師なし生成モデルは、ラベルなしで滑らかで一貫性のある抽象的意見要約を生成できるか?
  • RQ2生成レビューの潜在コードを制御することで、出力要約のノベルティと共通意見との整合性はどのように変化するか?
  • RQ3階層的変分オートエンコーダは、教師なし設定において、個々のレビューと製品レベルの感情パターンを効果的にモデル化できるか?
  • RQ4テスト時にレビューの潜在コードをその平均に固定することで、より一貫性があり共通意見に焦点を当てた要約が得られるか?
  • RQ5本手法は、アマゾンやイェルプの製品レビューなど多様なドメインに一般化して効果を発揮するか?

主な発見

  • モデルは、ラベル付き要約データを一切必要とせず、教師なしで滑らかで一貫性のある抽象的要約を生成でき、教師なし抽象的意見要約の可能性を示した。
  • テスト時にレビューの潜在コードをその平均に固定することで、入力レビュー間で共有される共通意見を反映した要約が得られた。
  • 階層的VAE構造は、共有潜在表現を通じて、レビュー単位および製品レベルの感情パターンを効果的に捉えた。
  • ポインタジェネレータ機構により、モデルが入力レビューからコピーするか、必要に応じて新規フレーズを生成することで、効果的なコンテンツ制御が可能になった。
  • アマゾンおよびイェルプのデータセットにおける実験から、モデルは滑らかで共通意見を的確に反映した要約を生成することがわかった。
  • 教師ありファインチューニングが存在しないにもかかわらず性能に悪影響を及ぼさず、モデルは教師なし再構築を通じて意味のある要約を学習した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。