QUICK REVIEW

[論文レビュー] Representing the circular economy research landscape - a text analysis approach based on context specific noun phrase embeddings

Richter, Daniel, Baaden, Philipp|Fraunhofer-Publica (Fraunhofer-Gesellschaft)|Jan 1, 2023

Topic Modeling被引用数 83

ひとこと要約

（Note: 提供された内容は SciBert, 科学ドメインの事前学習済み言語モデルに対応します。この要約はその研究を反映しています。） SciBert 事前学習済み言語モデルは、大規模なドメイン内コーパスで学習し、ドメイン内語彙を使用することで、複数の科学NLPタスクにおいてBERTよりも改善を示し、生物医学、計算機科学、そしてマルチドメインの複数のデータセットで新しい最先端の結果を達成します。

ABSTRACT

研究の動機と目的

科学NLPにおけるスケーラブルで高品質な注釈データの必要性を動機づけ、大規模な科学コーパスの教師なし事前学習を活用する。

提案手法

BERTアーキテクチャを採用し、2つの訓練目的（マスク付きトークン予測と次文予測）を用いるが、科学コーパスで事前学習を行う。
SentencePieceを用いて SciVocab を構築し、30Kトークンのドメイン特化型 WordPiece ボキャブラリを作成する。
凍結された SciBert 埋め込み上でのタスク特化アーキテクチャのファインチューニングと、凍結された埋め込みを文脈特徴として用いる場合を比較する。
NER、PICO抽出、テキスト分類、関係分類、依存構文解析を含むコアNLPタスクの一連を、複数のデータセットにわたり評価する。
性能に対するドメイン内語彙とドメイン内事前学習の影響を分析する。

実験結果

リサーチクエスチョン

RQ1科学テキストで事前学習した SciBert は、科学NLPタスクで Bert-Base を上回るか？
RQ2下流タスクにおいて、ドメイン内語彙（SciVocab）を使用することと、元の BERT 語彙（BaseVocab）を使用することの影響はどのようか。
RQ3科学分野全体で、凍結埋め込みを用いたタスク特化アーキテクチャよりファインチューニングが有利か。
RQ4SciBert は生物医学、計算機科学、マルチドメインデータセットのそれぞれでどの程度の性能を示すか。

主な発見

SciBert は科学タスクで、ファインチューニングあり・なしの双方で Bert-Base を上回る（論文に報告された平均利得）。
SciBert は生物医学および計算機科学領域のいくつかのデータセットで新しい最先端結果を達成する。
ドメイン内語彙（SciVocab）は追加の利得をもたらすが、改善の大半はドメイン特化型事前学習に起因する。
ほとんどのデータセットで、凍結埋め込みの上に構築したタスク特化アーキテクチャより、ファインチューニングの方が一般に大きな利得をもたらす。
SciBert はマルチドメインタスクで優れ、BioBERT などの一部の生物医学データセットでは、ドメイン特化ベースラインと肩を並べるか、あるいは凌ぐ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。