[論文レビュー] CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases
CoTypeは、知識ベースからの遠隔教師付き学習を用いて、タイプ付きエンティティと関係の共同抽出を可能にするドメインに依存しないフレームワークを提案する。文脈に配慮したノイズ耐性のある埋め込み学習と、新規の部分ラベル損失関数およびエンティティ・関係翻訳関数を採用し、ニュース、バイオメディカル、一般ドメインの3分野において、最先端手法と比較して平均でF1スコアを25%向上させた。
Extracting entities and relations for types of interest from text is important for understanding massive text corpora. Traditionally, systems of entity relation extraction have relied on human-annotated corpora for training and adopted an incremental pipeline. Such systems require additional human expertise to be ported to a new domain, and are vulnerable to errors cascading down the pipeline. In this paper, we investigate joint extraction of typed entities and relations with labeled data heuristically obtained from knowledge bases (i.e., distant supervision). As our algorithm for type labeling via distant supervision is context-agnostic, noisy training data poses unique challenges for the task. We propose a novel domain-independent framework, called CoType, that runs a data-driven text segmentation algorithm to extract entity mentions, and jointly embeds entity mentions, relation mentions, text features and type labels into two low-dimensional spaces (for entity and relation mentions respectively), where, in each space, objects whose types are close will also have similar representations. CoType, then using these learned embeddings, estimates the types of test (unlinkable) mentions. We formulate a joint optimization problem to learn embeddings from text corpora and knowledge bases, adopting a novel partial-label loss function for noisy labeled data and introducing an object "translation" function to capture the cross-constraints of entities and relations on each other. Experiments on three public datasets demonstrate the effectiveness of CoType across different domains (e.g., news, biomedical), with an average of 25% improvement in F1 score compared to the next best method.
研究の動機と目的
- 人為的アノテーション付き学習データが存在しない低リソースでドメイン特化されたテキストコーパスにおける、タイプ付きエンティティと関係の共同抽出の課題に対処すること。
- 人為的アノテーションコーパスと事前学習済みエンティティ検出器に依存する従来のパイプライン手法が抱える誤り伝搬とドメイン依存性を克服すること。
- 知識ベースから自動的に抽出されるラベルに不正確さを含む遠隔教師付き学習におけるラベルノイズに強く対処できるフレームワークの構築。
- エンティティと関係の表出を、タイプの類似性と相互依存性を保持する低次元の共有表現を学習することで、共同でモデリングすること。
- 事前学習済み名前付きエンティティ認識器に依存しないデータ駆動型のセグメンテーションアルゴリズムを導入することで、エンドツーエンドでドメインに依存しない抽出を実現すること。
提案手法
- 事前学習済みNERモデルに依存しないドメインに依存しないテキストセグメンテーションアルゴリズムを適用し、生テキストから直接候補エンティティ表出を抽出する。
- 共有表現学習フレームワークを用いて、エンティティ表出、関係表出、テキスト特徴、タイプラベルを、エンティティ用と関係用の2つの低次元空間に同時に埋め込む。
- 遠隔教師付き学習によるノイズの多い多様なタイプのラベルを処理できるように設計された新規の部分ラベル損失関数を最小化することで、埋め込みを学習する共同最適化問題を定式化する。
- エンティティと関係の間の相互制約を捉えるために、オブジェクト「翻訳」関数を導入し、相互依存性(例:エンティティタイプが関係タイプに影響を与えたり、逆に関係タイプがエンティティタイプに影響を与えるなど)をモデル化する。
- 学習済みの埋め込みを用いて、共有埋め込み空間における類似度を測定することで、テスト時の表出(リンク不能な表出)のタイプを予測する。
- 清浄な人為的アノテーションデータに依存せず、未ラベルテキストコーパスと知識ベースからの弱教師付きラベルを用いて、エンドツーエンドでモデルを学習する。
実験結果
リサーチクエスチョン
- RQ1ノイズの多い遠隔教師付き学習下でも、タイプ付きエンティティと関係の間の相互依存性を共同埋め込みフレームワークが効果的にモデル化できるか?
- RQ2知識ベースから自動生成された学習データにおけるラベルノイズに対して、モデルをどのようにして耐性を持たせられるか?
- RQ3エンティティと関係の間の相互制約をモデル化することで、独立またはパイプライン手法と比較して、タイプ予測精度がどの程度向上するか?
- RQ4提案されたドメインに依存しないフレームワークは、再トレーニングや人為的アノテーションなしに、ニュース(NYT)、一般知識(Wiki-KBP)、バイオメディカルテキスト(BioInfer)など多様なドメインで、既存手法を上回る性能を発揮できるか?
- RQ5標準のマルチラベルまたはシングルラベル学習手法と比較して、提案された部分ラベル損失関数は、曖昧な複数候補ラベルをより効果的に扱えるか?
主な発見
- CoTypeは、NYT、Wiki-KBP、BioInferの3つの公開データセットにおいて、次に良い手法と比較して平均でF1スコアを25%向上させた。
- Wiki-KBPデータセットでは、他の手法が失敗または誤ったタイプを割り当てる中、CoTypeは「person:children」や「person:place_of_death」のような複雑で文脈依存性の高い関係を正しく同定した。
- モデルは高いノイズレベルに対しても頑健であることが示された—BioInferデータセットではエンティティ表出の59.8%、関係表出の41.1%がノイズを含んでいたが、性能の著しい低下は見られなかった。
- アブレーションスタディの結果、部分ラベル損失関数と翻訳関数が重要であることが確認された。CoType-EM(翻訳関数なし)とCoType-RM(部分ラベル損失なし)は、顕著な性能低下を示した。
- MultiR や Logistic といった強力なベースライン手法と比較して、CoTypeはラベルノイズや共同モデリングの欠如により、しばしばエンティティタイプを誤分類したり、有効な関係を検出できない問題を回避した。
- CoTypeはドメインをまたいで良好に一般化することができ、ニュース(NYT)、一般知識(Wiki-KBP)、バイオメディカルテキスト(BioInfer)のドメインをカバーし、強いドメイン独立性を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。