Skip to main content
QUICK REVIEW

[論文レビュー] Machine Learning of User Profiles: Representational Issues

Eric Bloedorn, Inderjeet Mani|arXiv (Cornell University)|Dec 9, 1997
Information Retrieval and Search Behavior参考文献 27被引用数 40
ひとこと要約

本論文は、機械学習ベースの情報フィルタリングにおける予測精度と理解可能性を向上させるために、語彙レベル特徴(TF-IDF)と同義語辞書からの主題レベル特徴(SFC)を組み合わせたハイブリッドユーザープロファイル表現を提案する。IDDニュースブラウザシステムを用いた実験では、一般化階層にリンクされた主題特徴が、従来のTF-IDFおよび語彙レベルの関連性フィードバックを著しく上回り、特に精度、再現率、安定性の面で優れた結果を示した。これは、プロファイル学習における概念的一般化の価値を裏付けるものである。

ABSTRACT

As more information becomes available electronically, tools for finding information of interest to users becomes increasingly important. The goal of the research described here is to build a system for generating comprehensible user profiles that accurately capture user interest with minimum user interaction. The research described here focuses on the importance of a suitable generalization hierarchy and representation for learning profiles which are predictively accurate and comprehensible. In our experiments we evaluated both traditional features based on weighted term vectors as well as subject features corresponding to categories which could be drawn from a thesaurus. Our experiments, conducted in the context of a content-based profiling system for on-line newspapers on the World Wide Web (the IDD News Browser), demonstrate the importance of a generalization hierarchy and the promise of combining natural language processing techniques with machine learning (ML) to address an information retrieval (IR) problem.

研究の動機と目的

  • 予測精度が高く、かつユーザーユーザーにとって理解しやすいユーザープロファイル表現を開発すること。
  • 同義語辞書による一般化階層の影響が、情報フィルタリングにおける機械学習性能に与える影響を調査すること。
  • 自然言語処理と機械学習を組み合わせたコンテンツベースのユーザープロファイリングの有効性を評価すること。
  • 従来の語彙加重ベクトル(TF-IDF)と主題レベル特徴(SFC)を、プロファイル学習において比較すること。
  • さまざまな特徴表現に対して、複数の学習アルゴリズム(例:C4.5-Rules、AQ15c)の性能を評価すること。

提案手法

  • システムはIDDニュースブラウザを用いて、パーソナライズド新聞記事に対するユーザーフィードバックを収集し、その後プロファイルモデルの学習に用いる。
  • テキストは、TF-IDF語彙ベクトルと、文脈と統計を用いてテキストセグメントを同義語辞書のカテゴリにマッピングするSubject Field Coder(SFC)を介して抽出された主題特徴の両方で表現される。
  • 同義語辞書からの一般化階層により、主題レベルの一般化(例:「スキューバ」「カヤック」→「水中スポーツ」)が可能となる。
  • 学習プロセスでは、関連性に関するユーザーフィードバックからプロファイルを誘導するため、教師あり機械学習アルゴリズム(C4.5-Rules、AQ15c)が適用される。
  • ベースラインとして、tf-idfベクトル空間における語彙の重みを更新するための、変更版Rocchioアルゴリズムが用いられる。
  • 性能評価は、USMEDおよびT122の2つのテストセットに対して10回の実行で得られた平均精度と再現率を用いて行われる。

実験結果

リサーチクエスチョン

  • RQ1同義語辞書を介して一般化階層を組み込むことで、ユーザープロファイルモデルの予測精度が向上するか?
  • RQ2SFCによる主題レベル特徴は、従来のTF-IDF語彙ベクトルと比較して、プロファイル学習性能にどのように影響するか?
  • RQ3語彙レベルと主題レベル特徴を組み合わせたハイブリッド表現は、より安定的で正確なプロファイルを生成できるか?
  • RQ4機械学習モデル(C4.5-Rules、AQ15c)の性能は、古典的な関連性フィードバック(Rocchio)と比較してどうなるか?
  • RQ5同義語辞書の構造とドメイン関連性が、学習結果にどの程度影響を及ぼすか?

主な発見

  • 一般化階層を活用するSFCベースのプロファイルは、予測精度が最も高く、USMEDタスクでは平均精度0.78、平均再現率0.73を達成した。
  • T122タスクでは、SFCプロファイルが0.76の平均精度と0.48の平均再現率を達成し、TF-IDFおよびPOL特徴を上回った。
  • 両方のテストセットにおいて、C4.5-RulesアルゴリズムがAQ15cおよび変更版Rocchio法を上回り、精度と再現率の両面で優れた性能を示した。
  • TF-IDFプロファイルは短いものの、全体的な性能は低く、USMEDでは平均精度0.58、T122では0.39にとどまった。
  • SFC表現を用いたプロファイルは、TF-IDFプロファイルよりも一貫して短く、簡潔であったため、理解可能性が優れていた。
  • 結果から、ドメインに特化した同義語辞書のチューニングが学習性能を著しく向上させることを確認した。これは、ドメイン特化の概念的階層の活用が有効であることを支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。