QUICK REVIEW

[論文レビュー] HyperCLOVA X Technical Report

Kang Min Yoo, Jaegeun Han|arXiv (Cornell University)|Apr 2, 2024

Topic Modeling被引用数 6

ひとこと要約

HyperCLOVA X は韓国語に焦点を当てた大規模言語モデルファミリー（HCX-L および HCX-S）で、韓国語・英語・コードデータで訓練され、指示調整と RLHF を適用。韓国語能力が強く、英語パフォーマンスも競争力があり、多言語翻訳と安全性評価にも配慮している。

ABSTRACT

We introduce HyperCLOVA X, a family of large language models (LLMs) tailored to the Korean language and culture, along with competitive capabilities in English, math, and coding. HyperCLOVA X was trained on a balanced mix of Korean, English, and code data, followed by instruction-tuning with high-quality human-annotated datasets while abiding by strict safety guidelines reflecting our commitment to responsible AI. The model is evaluated across various benchmarks, including comprehensive reasoning, knowledge, commonsense, factuality, coding, math, chatting, instruction-following, and harmlessness, in both Korean and English. HyperCLOVA X exhibits strong reasoning capabilities in Korean backed by a deep understanding of the language and cultural nuances. Further analysis of the inherent bilingual nature and its extension to multilingualism highlights the model's cross-lingual proficiency and strong generalization ability to untargeted languages, including machine translation between several language pairs and cross-lingual inference tasks. We believe that HyperCLOVA X can provide helpful guidance for regions or countries in developing their sovereign LLMs.

研究の動機と目的

韓国語と文化に適合した韓国語中心の LLM ファミリーを確立しつつ、英語とコード能力を強化する。
韓国語・英語・コードデータを均衡にプレトレインし、指示追従を高める SFT および RLHF を適用して整合性を取る。
韓国語と英語の包括的ベンチマークで評価し、二言語能力、マルチリンガル一般化、及び安全性遵守を示す。
跨言語の推論や機械翻訳を含む多言語能力を実証する。
主権型 LLM 開発を見据え、安全性・レッドチーミング・責任ある AI の検討を行う。

提案手法

ロータリ位置エンベディングと前正規化を用いる Transformer デコーダーアーキテクチャ。
韓国語最適化された100,000語彙の語素対応バイトレベル BPE トークナイザー。
インフィリング機能を可能にする共同 PSM および SPM の事前学習。
領域を跨ぐ指示追従を高める教師ありファインチューニング（SFT）。
人間のフィードバックからの強化学習（RLHF）を PPO による報酬モデルと KL ペナルティで人間の好みに整合。
反復を減らすためのシーケンスレベルの非尤度トレーニングを PPO に統合し、NSML 上の CLOps および MLflow で非同期・イベント駆動の整合パイプラインを実装。

Figure 1 : Performance comparison of HyperCLOVA X with other leading open-source LLMs on a wide range of benchmarks, incorporating both Korean and English tests. The largest model in the HyperCLOVA X family is shown. Our evaluation indicates that HyperCLOVA X strongly outperforms all other models ta

実験結果

リサーチクエスチョン

RQ1HyperCLOVA X は韓国語特有のベンチマークと英語ベンチマーク、 multilingual ベースラインでどのようにパフォーマンスを示すのか？
RQ2韓国語と他言語間のクロスリンガル能力と翻訳性能はどの程度か？
RQ3一言語での指示調整が別言語での指示追従能力を生むのか（クロスリンガル転移）？
RQ4有害コンテンツを抑制しつつ有用性を維持する安全性・整合性手法の効果はどの程度か？
RQ5二言語・多言語評価から得られる souverain LLM 開発と地域AI政策についての洞察は？

主な発見

モデル	韓国語	英語	CS	事実	数学	コード	有害性評価	総合
HCX-S	61.73	47.08	76.56	46.88	39.04	37.71	62.08	53.01
HCX-L	72.07	58.25	87.26	56.83	50.91	46.10	67.32	62.68

HCX-L は韓国語特化ベースラインと比較して包括的な韓国語ベンチマークで最先端の性能を達成。
HCX-L は英語ベンチマークで最大級の LLaMA 2 に対抗できる英語タスクの性能を獲得。
HCX モデルは強力なクロスリンガル転移と優れた韓英二言語能力を示す。
韓国語と日本語・中国語などの非標的言語間のクロスリンガル翻訳は最先端レベルに達する。
安全性評価とレッドチーミング、SFT/RLHF 及び強化技術の組み合わせは、主権文脈での責任ある AI 展開を支持する。

(a) HCX-S trained and tested on OpenOrca.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。