Skip to main content
QUICK REVIEW

[论文解读] Fluid Transformers and Creative Analogies: Exploring Large Language Models' Capacity for Augmenting Cross-Domain Analogical Creativity

Zijian Ding, Arvind Srinivasan|arXiv (Cornell University)|Jan 1, 2023
Topic Modeling被引用 2
一句话总结

本研究探讨了大型语言模型(LLMs)在生成跨领域类比方面的作用,以增强人类的创造性问题解决能力。通过零样本和少样本提示方法,LLMs 生成的类比在80%的案例中被认为具有帮助性,并在80%的问题解决任务中引发了问题重构的改变,尽管高达25%的输出因可能令人不适的内容而引发担忧,凸显了 LLM 增强类比创造力的潜力与风险。

ABSTRACT

Cross-domain analogical reasoning is a core creative ability that can be challenging for humans. Recent work has shown some proofsof-concept of Large language Models’ (LLMs) ability to generate cross-domain analogies. However, the reliability and potential usefulness of this capacity for augmenting human creative work has received little systematic exploration. In this paper, we systematically explore LLMs capacity to augment cross-domain analogical reasoning. Across three studies, we found: 1) LLM-generated crossdomain analogies were frequently judged as helpful in the context of a problem reformulation task (median 4 out of 5 helpfulness rating), and frequently (∼80% of cases) led to observable changes in problem formulations, and 2) there was an upper bound of ∼25% of outputs being rated as potentially harmful, with a majority due to potentially upsetting content, rather than biased or toxic content. These results demonstrate the potential utility — and risks — of LLMs for augmenting cross-domain analogical creativity.

研究动机与目标

  • 探究 LLM 生成的跨领域类比是否能有效支持人类在创造性任务中的问题重构。
  • 评估 LLM 生成类比在增强类比推理方面的可靠性与实用性,特别是克服对表面相似性的固守问题。
  • 考察与 LLM 生成类比相关的风险,包括可能有害或令人不适的内容。
  • 探索将 LLM 集成到迭代式、以用户为中心的创造性过程中,以实现更深层次洞察生成的可行性。

提出的方法

  • 采用零样本和少样本提示策略,通过结构化问题提示从 LLM 中获取跨领域类比。
  • 开展了三项受控实验,通过人类参与者评估 LLM 生成类比对问题重构和创意生成的影响。
  • 使用李克特量表(1–5)评估类比的有用性,并追踪参与者接触类比后问题表述的变化。
  • 分析潜在有害输出的性质,区分有毒内容、偏见内容与令人不适的内容。
  • 探索将 LLM 与结构化知识库(如 Wolfram Alpha)结合的可能性,以提升洞察深度。
  • 提出迭代式 LLM 集成模式,使用户的重构结果可作为后续 LLM 提示的输入,以实现更深入的探索。

实验结果

研究问题

  • RQ1LLM 生成的跨领域类比在多大程度上提升了人类问题重构的质量与多样性?
  • RQ2在创造性问题解决情境中,LLM 生成的类比被感知为有帮助的频率如何?
  • RQ3有多少比例的 LLM 生成类比被评定为可能有害?主要的伤害类型是什么?
  • RQ4LLM 生成的类比能否帮助克服在类比检索中对表面相似性的固守?
  • RQ5如何通过将 LLM 集成到迭代式设计过程中,提升洞察生成与概念探索的质量?

主要发现

  • LLM 生成的类比在参与者中被评定为有帮助的中位数为 4/5,表明其在创造性问题解决中具有较强的感知实用性。
  • 在 80% 的案例中,参与者在接触 LLM 生成的类比后,对其问题表述做出了可观察到的改变,表明存在积极的认知参与。
  • 约 25% 的 LLM 生成输出被评定为可能有害,其中绝大多数源于令人不适的内容,而非毒性或偏见。
  • 单样本提示在此项研究中表现优于少样本提示,尽管差异较小,且可能取决于提示设计与示例质量。
  • 类比中的洞察深度有限,仅有少数参与者实现了深层次的概念转变,表明在形式语言模式之外,功能性语言能力仍存在差距。
  • 未来将 LLM 与结构化知识库或迭代式反馈回路结合,可能提升生成类比的质量与相关性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。