Skip to main content
QUICK REVIEW

[論文レビュー] BPEmb: Tokenization-free Pre-trained Subword Embeddings in 275 Languages

Benjamin Heinzerling, Michael Strube|arXiv (Cornell University)|Oct 5, 2017
Topic Modeling参考文献 14被引用数 128
ひとこと要約

BPEmb は Byte-Pair Encoding を用いて 275 言語の事前訓練済みサブワード埋め込みを提供し、トークン化不要の表現を可能にします。これは FastText や他のサブワード手法と競合しつつ、はるかに少ないリソースを使用します。

ABSTRACT

We present BPEmb, a collection of pre-trained subword unit embeddings in 275 languages, based on Byte-Pair Encoding (BPE). In an evaluation using fine-grained entity typing as testbed, BPEmb performs competitively, and for some languages bet- ter than alternative subword approaches, while requiring vastly fewer resources and no tokenization. BPEmb is available at https://github.com/bheinzerling/bpemb

研究の動機と目的

  • 275 言語に跨る大規模な事前訓練済み BPE ベースのサブワード埋め込みコレクションを公開する。
  • BPEmb を細粒度のエンティティ型付けタスクで評価し、FastText および文字ベースの埋め込みと比較する。
  • トークン化不要の表現を実証し、代替手法と比較してリソース効率を評価する。
  • BPE マージ操作数と埋め込み次元が性能に与える影響を分析する。

提案手法

  • すべてのウィキペディアに対して Byte-Pair Encoding (BPE) を適用し、複数のマージ回数で BPE 記号在庫を取得する。
  • Wikipedia由来のテキスト上で GloVe を用いて BPE 記号のサブワード埋め込みを事前訓練する。
  • さまざまな BPE マージ操作回数(1k–200k)と埋め込み次元(25–300)について埋め込みを提供する。
  • Wikidata の言及を Freebase タイプへマッピングして、細粒度のエンティティ型付けタスクでサブワード表現を評価する。
  • BPEmb を FastText(トークン化ありおよびサブワード対応)および文字ベースの埋め込みと、アーキテクチャ(RNN、CNN、平均化)を横断して比較する。
  • 広範なハイパーパラメータ探索を通じた性能分布を報告し、言語別・アーキテクチャ別の結果を報告する。

実験結果

リサーチクエスチョン

  • RQ1BPEmb は複数言語にわたる細粒度のエンティティ型付けで、FastText および文字埋め込みと競合する、あるいはそれを上回る性能を達成できるか。
  • RQ2トークン化不要な BPEmb 表現は、トークン化された手法と同等の精度を示しつつ、かなりのリソース削減を提供するか。
  • RQ3BPE マージ操作回数と埋め込み次元数が、言語やアーキテクチャを超えて性能にどのように影響するか?
  • RQ4どのアーキテクチャが BPEmb のサブワード表現をエンティティ型付けに最も適切に活用するか?

主な発見

  • BPEmb は英語データセットのすべてのサブワード単位をアーキテクチャ横断で上回り(BPEmb の平均 0.624、標準偏差 0.029;最大 0.65)、はるかに少ないメモリを使用しつつ FastText の性能に匹敵または上回る。
  • BPEmb は低い埋め込み次元で競争力のある結果を達成できる(例:100k BPE 記号を 25 次元で表現すると 11 MB、FastText の 3 百万個埋め込みを 300 次元で表現した場合は 6 GB に対して)。
  • 多言語実験では、トークン化を明示的に使用しない場合、高資源言語は FastText に匹敵する結果を達成する一方、トークン化を使用しない場合の中〜低資源言語では、BPEmb がチベット語およびラオ語で利得を示し、仏字の Unicode 処理の違いによりカンボジア語で劣化する、など結果は言語により異なる。
  • 表形式の言語結果は、いくつかの言語で BPEmb が FastText と同等またはわずかに改善を示す(例:英語 65.4 vs 62.9; 中国語 72.0 vs 71.0; 日本語 61.4 vs 62.3)。
  • 平均化埋め込みは最も弱いアーキテクチャであり、RNN は CNN よりわずかに良いが訓練時間が長い。FastText はハイパーパラメータ間での分散が低い一方、BPEmb および文字モデルは分散が高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。