QUICK REVIEW

[論文レビュー] WebGPT: Browser-assisted question-answering with human feedback

Reiichiro Nakano, Jacob Hilton|arXiv (Cornell University)|Dec 17, 2021

Topic Modeling被引用数 33

ひとこと要約

テキストベースのウェブ閲覧環境を通じて長形式の質問に答えるようにGPT-3をファインチューニングし、模倣学習と報酬モデリングを人間のフィードバックと参照と共に用いる。最良のモデルは、好評評価において人間のデモンストレーターおよびRedditの最も票を集めた回答を上回る。

ABSTRACT

We fine-tune GPT-3 to answer long-form questions using a text-based web-browsing environment, which allows the model to search and navigate the web. By setting up the task so that it can be performed by humans, we are able to train models on the task using imitation learning, and then optimize answer quality with human feedback. To make human evaluation of factual accuracy easier, models must collect references while browsing in support of their answers. We train and evaluate our models on ELI5, a dataset of questions asked by Reddit users. Our best model is obtained by fine-tuning GPT-3 using behavior cloning, and then performing rejection sampling against a reward model trained to predict human preferences. This model's answers are preferred by humans 56% of the time to those of our human demonstrators, and 69% of the time to the highest-voted answer from Reddit.

研究の動機と目的

ウェブブラウザーへ検索をアウトソースして、言語モデルと統合することで長文QAを活性化する。
人間のデモンストレーションと比較を用いた模倣学習によるトレーニングを可能にする。
人間の好みに対抗する報酬モデリングとリジェクションサンプリングを用いて回答品質を向上させる。
評価を容易にするために、事実的主張を裏付けるモデル生成の参照を要求する。

提案手法

モデルがブラウザーのようなコマンドを発行できる、テキストベースのウェブ閲覧環境を作成する。
人間のデモンストレーションからの挙動模倣を用いて、GPT-3モデル（760M、13B、175B）をファインチューニングする。
人間の比較から報酬モデルを訓練し、参照を用いて回答品質をスコア付けする。
報酬モデルに対して強化学習（PPO）を用いる、あるいはリジェクションサンプリング（best-of-n）で高スコアの回答を選択する。
ELI5とTruthfulQAの両方で評価を行い、人間のデモンストレーションおよびRedditの最高票回答と比較する。

実験結果

リサーチクエスチョン

RQ1検索/検索、統合、そして人間の嗜好を併用して共同訓練することで、言語モデルは高品質な長文QAを実現できるか？
RQ2ウェブブラウジング環境における人間のデモンストレーションと比較は、ベースラインや自動指標と比べて優れた回答につながるか？
RQ3報酬モデルに対する回答の最適化において、リジェクションサンプリングと強化学習の効果はどうか？
RQ4TruthfulQAのような敵対的または分布外データセットに対する真実性と情報性の観点で、WebGPTはどのように機能するか？

主な発見

175BモデルのBest-of-64サンプリングは、人間のデモンストレーターと比較して、好ましい回答を56%の頻度で得た。
同じモデルの回答は、Redditの最高票回答より69%の頻度で好まれる（引用は削除）。
TruthfulQAにおいて、全てのWebGPTモデルがGPT-3ベースラインを真実性と情報性の指標で上回る。
リジェクションサンプリングはBCより大幅な改善を提供する；RLはより小さな改善を提供し、RLとリジェクションサンプリングを組み合わせても追加の利点は限定的。
スケーリングの傾向として、より大きなモデルとより多くのデータが、報酬モデルベースの嗜好と真実性指標を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。