Skip to main content
QUICK REVIEW

[論文レビュー] Domain-specific Question Generation from a Knowledge Base.

Linfeng Song, Lin Zhao|arXiv (Cornell University)|Oct 12, 2016
Topic Modeling被引用数 8
ひとこと要約

本稿では、知識ベース(KB)とウェブ由来の情報を活用して、自然で多様かつ文法的に正しい質問を生成するドメイン特化型の質問生成システムを提案する。小さなKBベースのテンプレートのセットをシードとして用いることで、ウェブマイニングを介して質問候補を拡張し、関連性および文法正しさのモデルを用いてフィルタリングすることで、ドメインに適した高品質な質問をスケーラブルに複数のドメインに適用可能にする。

ABSTRACT

Question generation has been a research topic for a long time, where a big challenge is how to generate deep and natural questions. To tackle this challenge, we propose a system to generate natural language questions from a domain-specific knowledge base (KB) by utilizing rich web information. A small number of question templates are first created based on the KB and instantiated into questions, which are used as seed set and further expanded through the web to get more question candidates. A filtering model is then applied to select candidates with high grammaticality and domain relevance. The system is able to generate large amount of in-domain natural language questions with considerable semantic diversity and is easily applicable to other domains. We evaluate the quality of the generated questions by human judgments and the results show the effectiveness of our proposed system.

研究の動機と目的

  • ドメイン特化型の知識ベースから、深い内容で自然で意味的に多様な質問を生成する課題に対処すること。
  • テンプレートベースの質問生成の限界を克服すること。これは、繰り返し的だったり不自然な質問を生じがちである。
  • 外部のウェブ情報を利用し、初期の質問テンプレートの小さなセットを豊かに拡張すること。
  • 生成された質問の文法正しさとドメイン関連性を保証するフィルタリングモデルを開発すること。
  • 最小限の手動作業で、さまざまなドメインに適用可能なスケーラブルなシステムを構築すること。

提案手法

  • ドメイン特化型の知識ベースの構造と内容に基づいて、初期の質問テンプレートの小さなセットを作成する。
  • 初期のテンプレートをシードとして、検索エンジンやウェブクローリングを用いてウェブから追加の質問候補をマイニングする。
  • 文語的および意味的特徴を用いて、候補の文法的正しさとドメイン関連性を評価するフィルタリングモデルを適用する。
  • ウェブ情報を利用することで、硬直的なテンプレートパターンを超えて、質問の意味的多様性と自然さを向上させる。
  • KBの構造とウェブ規模のデータを組み合わせることで、事実に基づきつつ言語的に流暢な質問を生成する。
  • 2段階のプロセス(テンプレートの具体化 → ウェブ拡張とフィルタリング)を採用し、質問の品質と多様性を保証する。

実験結果

リサーチクエスチョン

  • RQ1ウェブデータを用いて、小さなKBベースのテンプレートセットを、多様で自然な質問に効果的に拡張できるか?
  • RQ2文法正しさとドメイン関連性に基づいて、高品質な質問と低品質な候補を区別するフィルタリングモデルの有効性はいかほどか?
  • RQ3ウェブ情報の統合が、生成された質問の意味的多様性と自然さをどの程度向上させるか?
  • RQ4提案されたシステムは、最小限の再設定で、さまざまなドメインに一般化可能か?

主な発見

  • 本システムは、顕著な意味的多様性を備えた大量のドメイン内質問を効果的に生成できた。
  • 人間による評価により、生成された質問が自然で文法的に正しいことが確認された。
  • フィルタリングモデルは、関連性が低いか文法的に誤った出力を除去することで、質問候補の品質を著しく向上させた。
  • ウェブ由来の拡張を活用することで、テンプレートベースの生成をはるかに超えて、質問の多様性と流暢さが顕著に向上した。
  • 最小限のドメイン特化チューニングで、さまざまなドメインにスケーラブルかつ適応可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。