[論文レビュー] HTLM: Hyper-Text Pre-Training and Prompting of Language Models
HTLMは、簡略化されたHTMLの大規模ウェブクローリングで訓練されたハイパーテキスト言語モデルで、構造化 prompting と自動プロンプティングを可能にする; テキストのみのLMと同等またはそれを上回るゼロショット prompting およびファインチューニングを達成し、最先端のゼロショット要約を実現する。
We introduce HTLM, a hyper-text language model trained on a large-scale web crawl. Modeling hyper-text has a number of advantages: (1) it is easily gathered at scale, (2) it provides rich document-level and end-task-adjacent supervision (e.g. class and id attributes often encode document category information), and (3) it allows for new structured prompting that follows the established semantics of HTML (e.g. to do zero-shot summarization by infilling title tags for a webpage that contains the input text). We show that pretraining with a BART-style denoising loss directly on simplified HTML provides highly effective transfer for a wide range of end tasks and supervision levels. HTLM matches or exceeds the performance of comparably sized text-only LMs for zero-shot prompting and fine-tuning for classification benchmarks, while also setting new state-of-the-art performance levels for zero-shot summarization. We also find that hyper-text prompts provide more value to HTLM, in terms of data efficiency, than plain text prompts do for existing LMs, and that HTLM is highly effective at auto-prompting itself, by simply generating the most likely hyper-text formatting for any available training data. We will release all code and models to support future HTLM research.
研究の動機と目的
- より豊富な文書レベルの監視を得るために、事前学習においてハイパーテキスト信号(HTML構造)を活用する動機づけ。
- 出力長を制御するためのサイズヒントを用いた、簡略化されたHTML(MHTML)に対するBARTスタイルのデノイジング目的を導入。
- ゼロショット、Few-shot、および完全なファインチューニングの下で、要約、生成、分類など多様なタスクへHTLMの移用を実証。
- 既存のLMに対して、HTMLベースのプロンプトがプレーンテキストのプロンプトよりデータ効率の利点をもたらすことを示す。
- データからHTML形式のプロンプトを生成してHTLMの自動プロンプト作成能力を示す。
提案手法
- Common Crawl から抽出した簡略化HTMLデータ23 TBを用いてHTLMを事前学習する(MHTML)。
- 推定マスク文本長を指定するサイズヒントを付加した、spanマスキングを用いたBART-Largeスタイルのデノイジングオートエンコーダー。
- プロンプティング中に生成出力長を制御するため、各マスクの後にサイズヒントトークンを導入する。
- 生成および分類タスクを実行するために、HTMLベースのプロンプトとテンプレート(手動および自動プロンプト)を活用する。
- 要約ベンチマーク(Gigaword, CNN/DM, XSum, Reddit TIFU, WebNLG, DART)および表→テキストデータセット(E2E, WebNLG, DART)でゼロショットおよびFew-shot promptingを評価する。
- 生成とゼロショット分類でベースライン(GPT-2、PEGASUS、RoBERTa、BART、T5)とHTLMを比較し、GLUEでのファインチューニング性能を評価する。
実験結果
リサーチクエスチョン
- RQ1HTLMのハイパーテキスト事前学習と prompting は、分類と要約タスクにおいてゼロショットおよびファインチューニングでテキストのみのLMを上回れるか?
- RQ2HTMLベースのプロンプトは既存のLMに対してプレーンテキストのプロンプトよりデータ効率の利点をもたらすか?
- RQ3HTLMはデータから効果的なHTML形式のプロンプトを生成することで自動プロンプト作成を自ら行えるか?
- RQ4サイズヒントの導入が、プロンプト中の出力長の制御とタスク性能にどう影響するか?
- RQ5HTLMが表→テキストやその他の構造化された自然言語生成タスクに与える影響は何か?
主な発見
- HTLMは、GLUE系の分類ベンチマークにおいてゼロショット prompting および完全なファインチューニングで、テキストのみのLMと同等以上である。
- HTLMは新しいゼロショット要約の最先端パフォーマンスを達成し、ROUGE-1ポイントで最大8ポイントの改善。
- ハイパーテキスト・プロンプトは既存のLMに対してプレーンテキスト・プロンプトよりデータ効率が高く、数千の追加トレーニング例に相当する。
- HTLMは、利用可能なトレーニングデータをHTMLにフォーマットして自動プロンプトを作成でき、手動で設計されたプロンプトと競合することが多い。
- HTLMは生成と分類タスクの間で強い転移を示し、プロンプトベースの学習を使用した場合にファインチューニングの改善を示す。
- HTMLベースのプロンプトはサイズヒントを介して出力長の細かな制御を可能にし、プロンプトの堅牢性とタスク性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。