QUICK REVIEW

[論文レビュー] A Deep Patent Landscaping Model using Transformer and Graph Convolutional Network

Seokkyu Choi, Hyeonju Lee|arXiv (Cornell University)|Mar 14, 2019

Intellectual Property and Patents参考文献 9被引用数 1

ひとこと要約

本論文では、特許文書解析用に変更を加えたTransformerと特許メタデータ用にグラフ畳み込みネットワーク（GCN）を統合した深層学習モデルを提案し、特許のランドスケープ作成を自動化する。12の新規に整備されたベンチマークデータセット上で評価された結果、平均分類精度が98%という最先端の性能を達成した。

ABSTRACT

Patent landscaping is a method that is employed for searching related patents during the process of a research and development (R&D) project. To avoid the risk of patent infringement and to follow the current trends of technology development, patent landscaping is a crucial task that needs to be conducted during the early stages of an R&D project. Generally, the process of patent landscaping requires several advanced resources and can be tedious. Furthermore, the patent landscaping process has to be repeated throughout the duration of an R&D project. Owing to such reasons, the demand for automated patent landscaping is gradually increasing. However, the shortage of well-defined benchmarking datasets and comparable models makes it difficult to find related research studies. In this paper, an automated patent landscaping model based on deep learning is proposed. The proposed model comprises a modified transformer structure for analyzing textual data present in patent documents and a graph convolutional network for analyzing patent metadata. Twelve patent landscaping benchmarking datasets, which were processed by the Korean patent attorney, are proposed for determining the resources required for comparing related research studies. Obtained results indicate that the proposed model with the proposed datasets can attain state-of-the-art performance , and mean classification accuracy of 98% can be achieved.

研究の動機と目的

特許侵害を回避し、技術動向を追跡するためのR&Dプロジェクトにおける自動特許ランドスケープの需要増加に対応する。
特許ランドスケープ研究分野における明確に定義されたベンチマークデータセットと同等のモデルの不足を克服する。
特許文書からのテキスト特徴とメタデータ特徴を効果的に統合する深層学習フレームワークを開発する。
今後の研究における自動特許分析分野の再現可能でスケーラブルなベンチマークフレームワークを確立する。

提案手法

特許文書のテキストコンテンツから意味的表現を抽出するために、変更を加えたTransformerアーキテクチャが使用される。
特許間の関係を、出願者、発明者、技術分類などの構造化されたメタデータを用いてモデル化するために、グラフ畳み込みネットワーク（GCN）が適用される。
Transformerからのテキスト埋め込みとGCNからのグラフベースの表現が統合され、統一された特許埋め込みが生成される。
学習された表現に基づいて、特許が関連する技術分野に分類されるように、モデルはエンドツーエンドで訓練される。
12のベンチマークデータセットは、韓国特許弁護士によって整備され、多様な技術分野における評価の標準化が図られた。

実験結果

リサーチクエスチョン

RQ1深層学習モデルは、自然言語理解とグラフベースの関係を効果的に統合することで、特許ランドスケープの精度を向上させることができるか？
RQ2標準化された特許データセット上で、提案モデルは既存手法と比較して分類性能に優れているか？
RQ3テキスト特徴とメタデータ特徴の統合は、特許分析における関連先行技術の検出にどの程度寄与するか？
RQ4提案されたベンチマークデータセットは、今後の自動特許ランドスケープシステムの評価と比較に適しているか？

主な発見

提案モデルは12のベンチマークデータセット全体で平均分類精度98%を達成し、最先端の性能を示した。
Transformerを用いたテキストモデリングとGCNを用いたメタデータ分析の統合は、個別的手法と比較して分類の信頼性を顕著に向上させた。
整備されたベンチマークデータセットは、今後の自動特許ランドスケープ分野の研究における標準的かつ信頼性のある評価フレームワークを提供する。
モデルの高い精度は、専門家が処理したデータセットによる検証を通じて、多様な技術分野にわたる強力な一般化能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。