QUICK REVIEW

[論文レビュー] Research Project: Text Engineering Tool for Ontological Scientometry

Rustam Tagiew|arXiv (Cornell University)|Jan 1, 2015

Semantic Web and Ontologies参考文献 9被引用数 2

ひとこと要約

本論文は、自然言語処理とオントロジーに基づく分類を用いて、研究論文の貢献タイプを分類し、それらの間の関係を抽出する、半自動テキスト工学ツールを提案する。自動クラスタリングとWikipedia風のインターフェースを介したボランティアによる補正を組み合わせることで、補足資料を含む研究出力のスケーラブルでオントロジー構造化された科学的計測分析が可能となり、研究発見や資金配分意思決定の向上に寄与する。

ABSTRACT

The number of scientific papers grows exponentially in many disciplines. The share of online available papers grows as well. At the same time, the period of time for a paper to loose at chance to be cited anymore shortens. The decay of the citing rate shows similarity to ultradiffusional processes as for other online contents in social networks. The distribution of papers per author shows similarity to the distribution of posts per user in social networks. The rate of uncited papers for online available papers grows while some papers 'go viral' in terms of being cited. Summarized, the practice of scientific publishing moves towards the domain of social networks. The goal of this project is to create a text engineering tool, which can semi-automatically categorize a paper according to its type of contribution and extract relationships between them into an ontological database. Semi-automatic categorization means that the mistakes made by automatic pre-categorization and relationship-extraction will be corrected through a wikipedia-like front-end by volunteers from general public. This tool should not only help researchers and the general public to find relevant supplementary material and peers faster, but also provide more information for research funding agencies.

研究の動機と目的

従来の引用指標にとどまらない、研究出力とその実用的で再利用可能な要素との間のギャップを是正するため、論文の意味的分類を半自動的に行うシステムを構築すること。
データセット、アルゴリズム、実験データなどの補足資料が、現在の科学的計測手法では低く評価されているという限界を克服すること。
スケーラブルでオントロジー駆動の知識ベースを構築し、論文で実施された実用的作業の種別を捉えることで、研究発見や資金配分の改善を図ること。
自動テキストクラスタリングと一般公開・ボランティアによる補正を組み合わせたハイブリッドモデルを導入し、知識ベースの正確性と保守性を向上させること。
科学的データの再利用を促進するため、意味的に構造化されたデータを、関連する出版物および研究貢献とリンクさせること。

提案手法

科学的論文および補足資料からのテキスト抽出・前処理に、pdftotextやParsCitなどのNLPパイプラインを活用する。
トピックや引用パターンではなく、実用的作業の種別に基づいて論文をクラスタリングするため、bag-of-wordsモデルを超える意味的分析を用いたクラスタリングアルゴリズムを適用する。
形式的概念分析と意味技術を用いて、論文、その貢献、補足資料の間の関係を表現するオントロジー型データベースを構築する。
一般公開のボランティアが自動分類や関係抽出を補正・拡張できる、Wikipedia風のフロントエンドインターフェースを実装する。
WEKAのソースコードやCiteseerXなどの既存データセットを活用し、モデル評価用にラベル付きのトレーニングクラスタ（例：MLalgo、Labbehaviour）を構築する。
並列処理とGPUアクセラレーションを活用したBig Dataインfraストラクチャを用いて、最大500万件の論文を処理するスケーラビリティを確保する。

実験結果

リサーチクエスチョン

RQ1アルゴリズム開発、実験データ収集、理論的モデリングといった、実用的貢献の種別を示す論文を、どのように自動的に分類できるか？
RQ2意味的コンテンツに基づく自動テキストクラスタリングは、トピックベースや引用ベースのクラスタリングに比べて、研究貢献の本質をどれほど正確に捉えられるか？
RQ3クラウドソーシングによるWikipedia風インターフェースは、大規模でオープンな科学的知識ベースにおいて、自動分類の補正と拡張を効果的に可能にするか？
RQ4科学的論文の引用減衰パターンとソーシャルメディアのコンテンツの拡散パターンには、どのような類似点・相違点があるか？これにより科学的計測モデルにどのような意味があるか？
RQ5データセット、コードなどの補足資料を科学的計測分析に組み込むとどのような影響があるか？また、それらを研究評価フレームワークに体系的に統合する方法は何か？

主な発見

科学的論文の引用減衰率は、ソーシャルメディアで観察される超拡散的プロセスと類似したパターンを示しており、科学的インパクトにウイルス的ダイナミクスの影響が高まっていることを示唆している。
著者1人あたりの論文発表数の分布は、ソーシャルネットワークにおける投稿数の分布と類似しており、科学的インパクトが内容の質だけでなく、ネットワーク効果や可視性に強く左右されていることを示している。
オンライン公開された論文の大部分は引用されず、わずかな少数の論文が高引用数を記録している。これは、オンラインコンテンツのウイルス的拡散と類似した「長い尾」分布を示している。
データセット、アルゴリズム、実験データなどの補足資料は、主な論文本文よりも科学的に価値が高くなることが多く、しかし従来の科学的計測評価では体系的に軽視されている。
科学的文書の手動キュレーションは、内容の意味的多様性と予測不可能性でさえ、専門的クラスタ内でも極めて注意を要する作業であり、集中を妨げやすい。
pdftotextやParsCitなどのツールの統合は、特に要約分類においてノイズが多い結果をもたらすため、信頼性の高い結果を得るには、より深い文書解析と人間を含むフィードバックループの検証が必要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。