QUICK REVIEW

[論文レビュー] h2oGPT: Democratizing Large Language Models

A. Candel, Jon McKinney|arXiv (Cornell University)|Jun 13, 2023

Topic Modeling被引用数 8

ひとこと要約

h2oGPT はオープンソースで商用利用可能な微調整済み LLM（7–40B パラメータ）と、私的ドキュメント検索・ノーコード微調整・完全なオープンエコシステムを提供します。

ABSTRACT

Applications built on top of Large Language Models (LLMs) such as GPT-4 represent a revolution in AI due to their human-level capabilities in natural language processing. However, they also pose many significant risks such as the presence of biased, private, or harmful text, and the unauthorized inclusion of copyrighted material. We introduce h2oGPT, a suite of open-source code repositories for the creation and use of LLMs based on Generative Pretrained Transformers (GPTs). The goal of this project is to create the world's best truly open-source alternative to closed-source approaches. In collaboration with and as part of the incredible and unstoppable open-source community, we open-source several fine-tuned h2oGPT models from 7 to 40 Billion parameters, ready for commercial use under fully permissive Apache 2.0 licenses. Included in our release is 100\% private document search using natural language. Open-source language models help boost AI development and make it more accessible and trustworthy. They lower entry hurdles, allowing people and groups to tailor these models to their needs. This openness increases innovation, transparency, and fairness. An open-source strategy is needed to share AI benefits fairly, and H2O.ai will continue to democratize AI and LLMs.

研究の動機と目的

プロプライエタリな提供物に対するプライバシー、カスタマイズ、コスト、可用性の懸念を解決するオープンソース LLM の動機づけ。
商用利用を可能にするデータ準備、微調整パイプライン、h2oGPT エコシステムの説明。
モデルリリース（7–40B パラメータ）と私的ドキュメントチャット機能の紹介。
データパイプライン、評価、透明性と再現性のある AI 開発を支えるツールの説明。

提案手法

オープン LLM に適した Foundation Models と寛容なライセンスのデータセットをレビュー・整理。
LoRA および 8/16-bit 技術を用いたデータ準備・微調整を説明し、メモリ使用量を削減、トレーニングを高速化。
データセット準備と品質管理のための H2O LLM Data Studio を導入。
ノーコード微調整の H2O LLM Studio とベクトル DB ベースの私的ドキュメントチャットシステムを紹介。
商用利用ライセンスを伴う HuggingFace および GitHub でのオープンソースリリースを提供。

実験結果

リサーチクエスチョン

RQ1LoRA ベースの微調整を備えたオープンソース LLM は、標準的な推論ベンチマークでクローズドソースモデルとどのように比較されるか。
RQ2私的ドキュメントチャットとベクター・データベースのグラウンディングは、信頼性が高くオフラインのプライバシー保護付き QA を実現できるか。
RQ37–40B パラメータモデルを一般的なインフラで微調整するための実用的なハードウェアとデータ要件は何か。
RQ48-bit/4-bit トレーニングがパフォーマンスと開発者のアクセス性に与える影響は何か。
RQ5データスタジオ、Studio、チャットからなるエンドツーエンドのオープンソース・スタックが、迅速な反復とデプロイにどれほど効果的か。

主な発見

BoolQ	PIQA	HellaSwag	WinoGrande	ARC-e	ARC-c	OBQA
GPT-3	175B	60.5	81.0	78.9	70.2	68.8	51.4	57.6
Gopher	280B	79.3	81.8	79.2	70.1	-	-	-
Chinchilla	70B	83.7	81.8	80.8	74.9	-	-	-
PaLM	62B	84.8	80.5	79.7	77.0	75.2	52.5	50.4
PaLM-cont	62B	83.9	81.4	80.6	77.0	-	-	-
PaLM	540B	88.0	82.3	83.4	81.1	76.6	53.0	53.4
LLaMa	7B	76.5	79.8	76.1	70.1	72.8	47.6	57.2
LLaMa	13B	78.1	80.1	79.2	73.0	74.8	52.7	56.4
LLaMa	33B	83.1	82.3	82.8	76.0	80.0	57.8	58.6
LLaMa	65B	85.3	82.8	84.2	77.0	78.9	56.0	60.2
h2oGPT	6.9B	61.6	76.8	67.0	61.6	65.4	35.6	38.1
h2oGPT	12B	66.9	76.6	68.0	63.7	62.2	35.1	37.4
h2oGPT	20B	71.3	77.8	72.6	66.1	68.9	44.2	40.0
h2oGPT	40B	85.2	83.3	83.1	77.5	78.0	54.6	48.8

h2oGPT のリリースには、商用利用に適した 6.9B から 40B パラメータのモデルが Hugging Face にあり。
微調整は LoRA を用い、学習可能なパラメータは総量の約0.13% の小さなフラクションで、16/8/4-bit トレーニングをサポートし、メモリを最大約2×以上削減。
LoRA アダプタは最小限のメモリフットプリントと最適化子状態の削減（約20 MB 対 20 GB）で効率的なトレーニングを実現。
8-bit/4-bit トレーニングは、一般的な GPU でのトレーニングを可能にし、VRAM の消費を抑えてアクセス性を拡大。
H2O LLM Studio はノーコード微調整と評価を提供し、ベクトル DB グラウンディングを使った私的ドキュメントチャットはオフラインでの私的展開を支援。
一般的なオープンベンチマークとの評価はモデルサイズ間で性能にばらつきが見られるが、オープンモデルは大規模クローズモデルに比べてギャップがある一方、微調整で改善。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。