Skip to main content
QUICK REVIEW

[論文レビュー] PatentBERT: Patent Classification with Fine-Tuning a pre-trained BERT Model

Jieh-Sheng Lee, Jieh Hsiang|arXiv (Cornell University)|May 14, 2019
Machine Learning in Materials Science参考文献 6被引用数 86
ひとこと要約

本論文は事前学習済みの BERT モデルを特許分類に微調整し、大規模な USPTO データセットで最先端の性能を示し、特許請求の範囲だけを用いても高精度を達成します。

ABSTRACT

In this work we focus on fine-tuning a pre-trained BERT model and applying it to patent classification. When applied to large datasets of over two millions patents, our approach outperforms the state of the art by an approach using CNN with word embeddings. In addition, we focus on patent claims without other parts in patent documents. Our contributions include: (1) a new state-of-the-art method based on pre-trained BERT model and fine-tuning for patent classification, (2) a large dataset USPTO-3M at the CPC subclass level with SQL statements that can be used by future researchers, (3) showing that patent claims alone are sufficient for classification task, in contrast to conventional wisdom.

研究の動機と目的

  • 現代のNLPモデルを用いた特許分類の改善を動機づける。
  • 微調整済みの BERT がCNNベースの手法より効果的であることを示す。
  • 特許請求の範囲だけで強い分類性能を達成できることを示す。
  • CPCサブクラス分類のための大規模で再利用可能なデータセット(USPTO-3M)を提供する。

提案手法

  • 特許データを用いて CPCサブクラス分類のために事前学習済み BERT モデルを微調整する。
  • ベースラインとしてCNNベースのワードエンベディング手法と比較する。
  • 実験は特許請求の範囲に焦点を当て、他の特許文書の部分を除外する。
  • 再利用のために SQL-ready なステートメントを含む大規模データセット(USPTO-3M)を公開する。

実験結果

リサーチクエスチョン

  • RQ1事前学習済み BERT モデルのファインチューニングは、特許サブクラス分類においてCNNベースの手法を上回ることができるか?
  • RQ2特許請求の範囲は、全文の特許文書と比較して、効果的な特許分類には十分であるか?
  • RQ3特許 CPC サブクラスの分類性能に対するデータセット規模の影響はどの程度か?

主な発見

  • 微調整済みのBERTベースのアプローチは特許分類で最先端の性能を達成する。
  • この手法は大規模な特許データセットで、ワードエンベディングを用いたCNNを上回る。
  • 特許請求の範囲だけで分類タスクに十分である、従来の知見とは異なる。
  • 著者らは将来の利用のために SQL 文を含む CPCサブクラスレベルの大規模データセットである USPTO-3M を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。