Skip to main content
QUICK REVIEW

[論文レビュー] The Lovelace 2.0 Test of Artificial Creativity and Intelligence

Mark Riedl|arXiv (Cornell University)|Oct 22, 2014
Computability, Logic, AI Algorithms参考文献 7被引用数 71
ひとこと要約

Lovelace 2.0 テストは、人間が定めた基準に従って、物語や詩、絵画などの多様で制約を満たす創造的産物を生成する能力を問う、人工的創造性と知能を評価するための改訂版ベンチマークを提唱する。Turing テストとは異なり、欺瞞ではなく真正の創造的生成を重視し、人間の評価者とファシリテーターが参加することで、制約が現実的で、出力が新奇かつ驚きをもたらすことを保証する。

ABSTRACT

Observing that the creation of certain types of artistic artifacts necessitate intelligence, we present the Lovelace 2.0 Test of creativity as an alternative to the Turing Test as a means of determining whether an agent is intelligent. The Lovelace 2.0 Test builds off prior tests of creativity and additionally provides a means of directly comparing the relative intelligence of different agents.

研究の動機と目的

  • Turing テストが欺瞞に依存し、模倣と真正の知能を区別できないという限界を是正するため。
  • 創造的生成の能力を直接測定するテストを確立し、人間水準の知能の特徴たる新奇で制約を満たす産物の生成を要請するため。
  • 異なる AI システムの創造的・知能的能力を比較可能なスケーラブルで定量的なベンチマークを創出するため。
  • 事前に計算できない複雑な自然言語による制約を満たすことで、『Google プルーフィング』や中国の部屋的反論への耐性を高めるため。
  • 人間のファシリテーターが参加することで、不実在または極めて困難な制約集合を除外し、公平性と現実性を確保するため。

提案手法

  • 人工エージェントが、人間評価者によって選ばれた自然言語による制約集合 $ C $ を満たす、指定されたタイプ(例:物語、詩)の産物を生成することを課す。
  • 人間評価者が、産物が指定されたタイプに該当し、すべての制約を満たしているかどうかを判断するが、美的評価は不要である。
  • 人間のファシリテーターが、産物のタイプ $ t $ と制約 $ C $ の組み合わせが平均的な人間にとって現実的でないかどうかを確認し、無意味または不可能な課題を防ぐ。
  • 複数の評価者に対してテストを繰り返し、各評価者が段階的に制約数を増やしていく。エージェントが失敗するまで続ける。
  • 創造性は、全評価者にわたる制約集合の平均通過数として定量化され、AI システム間の比較評価が可能になる。
  • この方法は、評価者が驚きを覚えるような状況を誘発するように設計されており、複雑または予期しない制約のもとでエージェントが成功した場合、真正の創造的知能の兆候と見なされる。

実験結果

リサーチクエスチョン

  • RQ1計算システムは、人間評価者が妥当かつ驚きをもって認めるような、新奇で制約を満たす創造的産物(例:物語)を生成できるか?
  • RQ2複雑な自然言語による制約を満たす能力が、創造的システムにおける人間水準の知能をどの程度反映しているか?
  • RQ3Lovelace 2.0 テストは、異なる AI エージェントの創造的能力を定量的に比較するために使用可能か?
  • RQ4事前にプログラムされた返答や外部知識(例:『Google プルーフィング』)による回避をどう防げるか?
  • RQ5このテストは、創造性を模倣するシステムと、真正に新奇で整合性のある産物を生成するシステムを効果的に区別できるか?

主な発見

  • 現在の物語生成システムでは、ドメイン記述を事前に定義しているため、複雑でオープンエンドな制約を処理できず、Lovelace 2.0 テストに合格できない。
  • 制約が自然言語で表現され、リアルタイムに満たされなければならないため、テストは『中国の部屋』的反論や『Google プルーフィング』に対して耐性を持つように設計されている。
  • Lovelace 2.0 テストは、複数の評価者にわたる制約集合の平均通過数を測定することで、AI システムの定量的比較を可能にする。
  • 人間のファシリテーターの参加により、現実的で実現可能な制約集合のみが使用され、極めて困難な入力によってテストが無意味化されるのを防ぐ。
  • エージェントが成功した際に評価者が驚くことは、特に制約が複雑または直感に反する場合に顕著であり、真正の創造的能力の兆候と見なされる。
  • 物語生成(コアなテストケース)は、常識的推論、マインド・オブ・マインド、感情的推論を含む、人間水準の認知的能力を幅広く要する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。