[論文レビュー] Levels of AGI for Operationalizing Progress on the Path to AGI
論文は、性能(深さ)と一般性(広さ)に基づく2次元のレベル化オントロジーを提案し、6つの指針を定義し、ベンチマーク、リスク、およびAGIへの道のりにおける人間–AI相互作用の含意を論じる。
We propose a framework for classifying the capabilities and behavior of Artificial General Intelligence (AGI) models and their precursors. This framework introduces levels of AGI performance, generality, and autonomy, providing a common language to compare models, assess risks, and measure progress along the path to AGI. To develop our framework, we analyze existing definitions of AGI, and distill six principles that a useful ontology for AGI should satisfy. With these principles in mind, we propose "Levels of AGI" based on depth (performance) and breadth (generality) of capabilities, and reflect on how current systems fit into this ontology. We discuss the challenging requirements for future benchmarks that quantify the behavior and capabilities of AGI models against these levels. Finally, we discuss how these levels of AGI interact with deployment considerations such as autonomy and risk, and emphasize the importance of carefully selecting Human-AI Interaction paradigms for responsible and safe deployment of highly capable AI systems.
研究の動機と目的
- 能力、一般性、性能に焦点を当てた明確で実用的なAGIの定義を明確化する。
- AGIへの道のりに沿った進捗を追跡するためのレベル付き分類法(Levels of AGI)を提供する。
- ベンチマークと生態学的妥当なタスクを通じてAGIを測定する原則を概説する。
- 異なるレベルにおけるリスク、自治、ヒューマン-AI相互作用の考慮事項を論じる。
- 能力の高いAIシステムの安全な利用に対する展開および相互作用のパラダイムが与える影響を示唆する。
提案手法
- AGIのための二次元のレベルフレームワーク(性能の深さ×一般性の広さ)を開発する。
- 有用なAGIオントロジーのための六つの指針を導出する(能力、一般性、認知/メタ認知タスク、潜在能力と展開、生態学的妥当性、経路 vs 終点)。
- 異なるタスクとシステムに対してレベルを対応づけるマトリックス表を提案する(例:Emerging, Competent, Expert, Virtuoso, ASI)。
- ベンチマーク設計の考慮事項と、タスク生成能力を持つリビング・ベンチマークの概念について論じる。
- リスク文脈(自治、インターフェース、ガバナンス)を分析し、レベルと潜在的リスクを関連づける。
- ヒューマン-AI相互作用の自治レベルとそれに関連する展開上の考慮事項を説明する。)
実験結果
リサーチクエスチョン
- RQ1基盤となる機構ではなく、能力・一般性・自治を強調する形でAGIを定義するにはどうすべきか。
- RQ2AGIに向けた進捗を最もよく捉える性能と一般性のレベルは何か、そしてこれらはどのように測定できるか。
- RQ3AGIへの道のりの進展を意味のある形で評価するベンチマークとタスクセットは何か。
- RQ4AGIのレベルは、自治とヒューマン-AI相互作用のパラダイムを含む展開上の考慮事項とリスクとどう相互作用するか。
主な発見
| Performance / Generality | Narrow (task-specific) | General (broad tasks) |
|---|---|---|
| Level 0: No AI | Narrow Non-AI calculator software; compiler | General Non-AI human-in-the-loop computing, e.g., Amazon Mechanical Turk |
| Level 1: Emerging equal to or somewhat better than an unskilled human | Emerging Narrow AI GOFAI (Boden, 2014); simple rule-based systems, e.g., SHRDLU (Winograd, 1971) | Emerging AGI ChatGPT (OpenAI, 2023); Bard (Anil et al., 2023); Llama 2 (Touvron et al., 2023); Gemini (Pichai and Hassabis, 2023) |
| Level 2: Competent at least 50th percentile of skilled adults | Competent Narrow AI toxicity detectors such as Jigsaw (Das et al., 2022); Smart Speakers such as Siri (Apple); Alexa (Amazon); Google Assistant (Google); VQA systems such as PaLI (Chen et al., 2023); Watson (IBM); SOTA LLMs for a subset of tasks (e.g., short essay writing, simple coding) | Competent AGI not yet achieved |
| Level 3: Expert at least 90th percentile of skilled adults | Expert Narrow AI spelling & grammar checkers such as Grammarly (Grammarly, 2023); generative image models such as Imagen (Saharia et al., 2022) or Dall-E 2 (Ramesh et al., 2022) | Expert AGI not yet achieved |
| Level 4: Virtuoso at least 99th percentile of skilled adults | Virtuoso Narrow AI Deep Blue (Campbell et al., 2002); AlphaGo (Silver et al., 2016, 2017) | Virtuoso AGI not yet achieved |
| Level 5: Superhuman outperforms 100% of humans | Superhuman Narrow AI AlphaFold (Jumper et al., 2021; Varadi et al., 2021); AlphaZero (Silver et al., 2018); StockFish (Stockfish, 2023) | Artificial Superintelligence (ASI) not yet achieved |
- AGIへの道のりに沿ってシステムを分類するために、性能の深さ×一般性の広さという二次元のLevels of AGIフレームワークを提案する。
- 有用なAGIオントロジーを導く六つの原則の集合で、能力・一般性・認知/メタ認知タスク・展開より潜在性・生態学的妥当性・AGIへの経路に沿った進行を強調する。
- 現在の最先端モデルは複数のレベルに跨る可能性がある(例:いくつかのタスクでEmerging AGI、他はCompetent以上)ことを指摘し、生態学的妥当なベンチマークとモデルの文書化の必要性を強調する。
- AGIを目指すベンチマークは、能力が進化するにつれて新しいタスクを追加する枠組みを備えた、オープンエンドなタスクを含む生きたプロセスであるべきである。
- このフレームワークは、異なるレベルが展開上の考慮事項・自治・リスクとどう関連するかを論じ、AGIの進行をエンドポイント中心ではなく、ニュアンスを持つ見方であるべきだと主張する。
- 本論はレベルと既存の定義(例:OpenAIの労働置換閾値)を結びつけ、高レベルにおけるリスク(ミスアラインメント、自治リスク)を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。