QUICK REVIEW

[論文レビュー] Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP

Sabrina J. Mielke, Zaid Alyafeai|arXiv (Cornell University)|Dec 20, 2021

Natural Language Processing Techniques参考文献 174被引用数 103

ひとこと要約

本論文は、語彙レベル、サブワードレベル、文字レベルのアプローチにわたるトークン化、事前トークン化、およびオープン語彙モデリングを調査し、トレードオフと歴史的な推移を強調する。唯一の銀の弾丸は存在しない。

ABSTRACT

What are the units of text that we want to model? From bytes to multi-word expressions, text can be analyzed and generated at many granularities. Until recently, most natural language processing (NLP) models operated over words, treating those as discrete and atomic tokens, but starting with byte-pair encoding (BPE), subword-based approaches have become dominant in many areas, enabling small vocabularies while still allowing for fast inference. Is the end of the road character-level model or byte-level processing? In this survey, we connect several lines of work from the pre-neural and neural era, by showing how hybrid approaches of words and characters as well as subword-based approaches based on learned segmentation have been proposed and evaluated. We conclude that there is and likely will never be a silver bullet singular solution for all applications and that thinking seriously about tokenization remains important for many applications.

研究の動機と目的

NLPにおけるトークン、トークン化、および事前トークン化の歴史的発展を説明する。
まれな語や新語に対処するため、文字情報で語レベルのモデルを拡張するアプローチを調査する。
固定語彙を超えるセグメンテーションの学習方法とオープン語彙トークン化を説明する。
手動・データ駆動・ベイズ的アプローチを含むサブワード語彙学習と、それらの言語間の適用性について議論する。
多言語・ノイズテキスト文脈におけるトークン化の実務的影響と進行中の議論を強調する。

提案手法

活字トークンから事前トークン化とサブワード単位への進化を辿る。
OOV語に対処するため、綴り情報や文字情報で語レベルのモデルを拡張する方法を説明する。
語＋文字のハイブリッドとトークン化対応アーキテクチャを用いたオープンボキャブラリ言語モデリングを詳述する。
セグメンテーションを潜在変数として学習し、周辺和を計算するアプローチ（近似または厳密）を提示する。
単語発見とセグメンテーションに対するベイズ的非パラメトリックの視点を議論する。
手動で作成された分析器とデータ駆動型学習者を含むサブワード語彙学習戦略を要約する。

実験結果

リサーチクエスチョン

RQ1NLPでモデリングされる歴史的・現代的なテキスト単位は何であり、トークン化の定義はどのように進化してきたか。
RQ2語レベルのモデルを文字情報で拡張して希少語・新語に対処するにはどうすればよいか。
RQ3固定語彙を超えるオープン語彙モデリングとトークン化の実用的なアプローチは何か。
RQ4セグメンテーションを事前定義ではなく学習・推定するにはどうすればよく、さまざまな周辺和戦略のトレードオフは何か。
RQ5言語とドメインを超えたサブワード語彙法の長所と限界は何か。

主な発見

サブワードおよび文字ベースのトークン化手法は、より小さな語彙でオープンボキャブラリ処理を可能にする。
文字情報で拡張された語レベルモデルは、ノイズの多いテキストや新奇な綴りの処理を改善する。
セグメンタルおよび周辺和ベースのモデルは有意義なトークン境界を誘導できるが、訓練の安定性と性能は異なる。
教師なしおよびベイズ的アプローチは、語境界とセグメントを発見するための原理的な枠組みを提供する。
単一の最良のトークン化はなく、ドメイン・言語・タスクが単位と手法の選択を形作る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。