Skip to main content
QUICK REVIEW

[论文解读] The Lovelace 2.0 Test of Artificial Creativity and Intelligence

Mark Riedl|arXiv (Cornell University)|Oct 22, 2014
Computability, Logic, AI Algorithms参考文献 7被引用 71
一句话总结

Lovelace 2.0 测试通过要求智能体在人类定义的标准下生成多样、符合约束条件的创造性作品(如故事、诗歌或绘画),提出了一项修订后的基准,用于评估人工创造力与智能。与图灵测试不同,该测试强调真正的原创性而非欺骗性,通过人类评估者和裁判确保约束条件现实合理,且输出具有新颖性和意外性。

ABSTRACT

Observing that the creation of certain types of artistic artifacts necessitate intelligence, we present the Lovelace 2.0 Test of creativity as an alternative to the Turing Test as a means of determining whether an agent is intelligent. The Lovelace 2.0 Test builds off prior tests of creativity and additionally provides a means of directly comparing the relative intelligence of different agents.

研究动机与目标

  • 解决图灵测试的局限性,后者依赖欺骗,无法区分真实智能与模仿行为。
  • 建立一项直接衡量创造性原创性的测试,作为人类智能的标志性特征,要求智能体生成新颖且符合约束条件的作品。
  • 创建一个可扩展、可量化的基准,用于比较不同人工智能系统的创造性和智能能力。
  • 通过要求系统满足其无法预先计算的复杂自然语言约束,抵御‘谷歌化’和‘中文房间’式质疑。
  • 通过引入人类裁判来确保公平性和现实性,该裁判可否决不切实际或过于困难的约束组合

提出的方法

  • 要求人工智能智能体生成特定类型的作品(如故事、诗歌),并满足由人类评估者选定的一组自然语言约束 $ C $。
  • 人类评估者判断该作品是否为该类型的有效实例,并满足所有约束,无需进行审美判断。
  • 人类裁判确保作品类型 $ t $ 与约束 $ C $ 的组合对普通人类而言不过分不切实际,防止出现琐碎或不可能的挑战。
  • 测试在多位评估者之间重复进行,每次逐步增加每轮测试的约束数量,直至智能体失败为止。
  • 创造力通过所有评估者中成功通过的约束集合的平均数量来量化,从而实现对人工智能系统的比较评估。
  • 该方法旨在引发评估者的惊讶:若智能体在复杂或出人意料的约束下仍能成功,表明其具备真正的创造性智能

实验结果

研究问题

  • RQ1计算系统能否生成一个新颖、符合约束条件的创造性作品(如故事),并被人类评估者认为有效且令人意外?
  • RQ2满足复杂自然语言约束的能力在多大程度上反映了创造性系统中的类人智能?
  • RQ3Lovelace 2.0 测试能否用于定量比较不同人工智能智能体的创造性能力?
  • RQ4如何通过预设响应或外部知识(如‘谷歌化’)规避测试?
  • RQ5该测试是否能有效区分仅模仿创造力的系统与真正原创新颖、连贯作品的系统?

主要发现

  • 目前尚无现有故事生成系统能够通过 Lovelace 2.0 测试,因其依赖预定义的领域描述,且无法处理复杂、开放式的约束。
  • 该测试设计上可抵御‘中文房间’论点和‘谷歌化’攻击,因为约束以自然语言表达,必须实时满足。
  • Lovelace 2.0 测试通过测量多位评估者中平均通过的约束集合数量,实现了对人工智能系统之间可量化的比较。
  • 引入人类裁判可确保仅使用可行且现实的约束集合,防止测试因过于困难的输入而被轻易简化。
  • 当智能体在复杂或反直觉的约束下成功时,会引发评估者的惊讶,这表明其具备真正的创造性能力。
  • 虚构故事生成作为核心测试案例,需要广泛的人类级认知能力,包括常识推理、心智理论和情感推理

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。