Skip to main content
QUICK REVIEW

[論文レビュー] Provably safe systems: the only path to controllable AGI

Max Tegmark, Steve Omohundro|arXiv (Cornell University)|Sep 5, 2023
Advanced Malware Detection Techniques被引用数 10
ひとこと要約

本論文は、人間が指定した要件を証明可能に満たす AGI を、proof-carrying code、provable contracts、mechanistic interpretability を用いて安全な制御を保証することを提案する。証明可能な安全性を実現するロードマップと課題を概説する。

ABSTRACT

We describe a path to humanity safely thriving with powerful Artificial General Intelligences (AGIs) by building them to provably satisfy human-specified requirements. We argue that this will soon be technically feasible using advanced AI for formal verification and mechanistic interpretability. We further argue that it is the only path which guarantees safe controlled AGI. We end with a list of challenge problems whose solution would contribute to this positive outcome and invite readers to join in this work.

研究の動機と目的

  • AI の加速する開発と存在リスクの懸念を踏まえ、AI 安全性の緊急性を動機づける。
  • AGI の安全性を制約するために、数学的証明、形式検証、機械的解釈性を基盤とした安全フレームワークを提案する。
  • Provably Compliant Systems、Proof-Carrying Code、Provable Contracts という概念を階層的な安全性アーキテクチャとして紹介する。
  • provable safety をハードウェア、ソフトウェア、社会システムに実装する方法を outline し、AGI の敵対的利用を抑止する。

提案手法

  • Provably Compliant Systems (PCS) と Provable Contracts (PC) を定義し、 formal specifications への準拠を強制する。
  • Proof-Carrying Code (PCC) を提唱し、ソフトウェアが準拠の機械可検証可能な証明を携帯することを提案する。
  • Provable Compliant Hardware (PCH) と Provable Meta-Contracts (PMC) を用いて hardware および契約の作成/変更を統治する。
  • 学習された知識を検証可能なコードへ変換するために、アルゴリズム発見と mechanistic interpretability を AI に活用する。
  • 形式的方法、自動定理証明、ML 支援の証明発見を通じた自動ソフトウェア検証を議論する。
  • adversarial AGI やオープンソースの脅威にも耐えうるセキュリティ志向のアプローチを主張する。
Provably safe systems: the only path to controllable AGI

実験結果

リサーチクエスチョン

  • RQ1provably compliant systems (PCCs and PCH) が adversarial な設定で安全な動作を保証できるか。
  • RQ2形式検証、mechanistic interpretability、AI-assisted proof search の組み合わせが実世界の AGI 安全性にスケールするか。
  • RQ3provable contracts と meta-contracts を現実的に実装・更新して、人間の価値観と法律の変化を反映できるか。
  • RQ4自動定理証明と自動形式化が、AGI 安全のためのスケーラブルな PCCs を作成する際にどのような役割を果たすか。

主な発見

  • 理論的には、証明可能な安全性を備えたインフラストラクチャは、安全性の証明を通じて AGI の有害な行動を防ぐことができる。
  • Proof-carrying code はコード実行前の適合性検証を可能にし、遵守を実行可能な安全保証へと結びつける。
  • PC、PMC、PCH の階層的ネットワークが、デバイスやシステム全体の行動を制約できる。
  • Mechanistic interpretability (MI) は、学習されたアルゴリズムを検証可能なコードへ翻訳し、信頼性を高めるのに役立つ。
  • AI 支援の形式検証と自動公式化は、証明と検証済みソフトウェアのスケーラブルな生成を近く可能にする。
  • 重要なインフラとハードウェアの展開には、認証と安全性の証明が必要とされるという政策的な枠組みが提案されている。
Figure 1: The 2023 MIT Mechanistic Interpretablity Conference
Figure 1: The 2023 MIT Mechanistic Interpretablity Conference

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。