QUICK REVIEW

[論文レビュー] The Author-Topic Model for Authors and Documents

Michal Rosen‐Zvi, Thomas L. Griffiths|arXiv (Cornell University)|Jul 11, 2012

Topic Modeling参考文献 4被引用数 99

ひとこと要約

この論文は、著者とトピック分布の関連を組み込むことでLDAを拡張した生成モデル、著者トピックモデルを提案する。これにより、文書における著者性とトピック構造の共同モデリングが可能になる。NIPSおよびCiteSeerデータセットを用いたギブスサンプリングにより、トピック回復性能がLDAや単純な著者-語モデルを上回り、著者類似度や出力エントロピーの測定といった新たな応用が可能になる。

ABSTRACT

We introduce the author-topic model, a generative model for documents that extends Latent Dirichlet Allocation (LDA; Blei, Ng, & Jordan, 2003) to include authorship information. Each author is associated with a multinomial distribution over topics and each topic is associated with a multinomial distribution over words. A document with multiple authors is modeled as a distribution over topics that is a mixture of the distributions associated with the authors. We apply the model to a collection of 1,700 NIPS conference papers and 160,000 CiteSeer abstracts. Exact inference is intractable for these datasets and we use Gibbs sampling to estimate the topic and author distributions. We compare the performance with two other generative models for documents, which are special cases of the author-topic model: LDA (a topic model) and a simple author model in which each author is associated with a distribution over words rather than a distribution over topics. We show topics recovered by the author-topic model, and demonstrate applications to computing similarity between authors and entropy of author output.

研究の動機と目的

著者、トピック、文書の連合分布を、著者性をトピックモデリングに組み込むことでモデリングすること。
文書コレクションにおける著者情報を利用することで、トピックモデリングの精度を向上させること。
著者トピック多様性の測定や著者類似度の測定といった新たな分析機能を可能にすること。
実世界の学術的テキストデータセットにおいて、LDAや著者-語モデルよりも優れた性能を示すことを実証すること。
著者メタデータを有する大規模な文書コレクションに対してスケーラブルな推論手法を提供すること。

提案手法

各著者はトピック上の多項分布に関連付けられ、各トピックは語の多項分布に関連付けられる。
複数の著者が関与する文書は、寄与著者のトピック分布の混合としてモデル化される。
大規模データセットでは正確な推論が困難であるため、近似的な推論にギブスサンプリングが用いられる。
トピック分布と著者分布の推定のため、1,700編のNIPS論文および160,000件のCiteSeer要約を用いてモデルを学習する。
モデルはLDA（トピックのみ）および単純な著者-語モデル（著者から語への関連）を特別なケースとして一般化する。
著者-トピックおよびトピック-語分布に基づく条件付き確率を用いて、トピックの再サンプリングを繰り返し行う。

実験結果

リサーチクエスチョン

RQ1著者情報をトピックモデルに組み込むことで、トピック回復および文書表現の性能が向上するか？
RQ2著者トピックモデルはLDAおよび基本的な著者-語モデルと比較して、性能に優れているか？
RQ3本モデルは、著者類似度や出力エントロピーの測定といった新たな応用を可能にするか？
RQ4本モデルは、著者メタデータを有する大規模な学術的文書コレクションにスケーラブルか？
RQ5本モデルは、著者のトピック分布および文書構成に関する何らかの洞察を明らかにするか？

主な発見

著者トピックモデルは、NIPSおよびCiteSeerの両データセットにおいて、LDAおよび著者-語モデルよりも優れたトピック回復性能を達成した。
モデルは著者ごとの明確なトピック好みを捉え、意味のある著者類似度の測定を可能にした。
出力エントロピー（トピック多様性の指標）が効果的に計算され、著者の主題の一貫性に関するパターンが明らかになった。
ギブスサンプリングにより、著者情報を有する大規模な文書コレクションに対するスケーラブルな推論ソリューションが得られた。
著者-トピック関連性が、トピックのみまたは著者のみのアプローチを上回る文書モデリングを著しく改善することが示された。
結果から、著者性情報が、特に複数著者の関与する文書を含むコレクションにおいて、トピックモデリングを顕著に向上させることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。