[论文解读] Human-LLM Compound System for Scientific Ideation through Facet Recombination and Novelty Evaluation
Scideator 是一个混合智能工具,从输入和类比论文中提取要素并重新组合成潜在的新颖科学想法,并配有由大语言模型驱动的新颖性评估以指导迭代。在用户研究中,它产生的想法比强基线更具新颖性和趣味性。
The scientific ideation process often involves blending salient aspects of existing papers to create new ideas - a framework known as facet-based ideation. We contribute Scideator, the first human-LLM system for facet-based scientific ideation. Starting from a user-provided set of scientific papers, Scideator extracts key facets -- purposes, mechanisms, and evaluations -- from these and related papers, allowing users to explore the idea space by interactively recombining facets to synthesize inventive ideas. Scideator is driven by three design choices: (1) human-in-the-loop facet recombination, in which users select facets from retrieved papers and the system generates ideas by finding analogies across them via the Faceted Idea Generator module; (2) distance-controlled retrieval via the Analogous Paper Facet Finder module, which surfaces papers from the same topic to entirely different subareas to provide a spectrum of creative directions; and (3) facet-based novelty verification via the Idea Novelty Checker module, a retrieve-then-rerank pipeline that evaluates idea originality using facets. In a user study with computer science researchers, Scideator provided significantly more creativity support than a baseline using the same backbone LLM without our facet-based modules, particularly in idea exploration and expressiveness. Participants' favorite ideas more often included facets selected by themselves rather than the LLM, and participants used fewer free-text instructions with Scideator, indicating a preference for facet-level steering over prompting. Finally, re-ranking papers by facet matching rather than general relevance improved novelty classification accuracy from 13.79% to 89.66%.
研究动机与目标
- 激励并使科学家能够在文献基础上生成相关且新颖的研究想法。
- 从输入和类比论文中提取并复用要素(目的、机制、评估)以引导想法生成。
- 提供自动化的新颖性评估以实现想法的迭代改进。
- 通过同被试研究评估 Scideator 对研究人员构想质量的影响。
- 提供关于人机LLM 科学构想中的设计选择和用户交互模式的洞察。
提出的方法
- 引入四个由大语言模型驱动的检索增强生成模块:类比论文要素发现器、要素化想法生成器、想法新颖性检查器和想法新颖性迭代器。
- 使用 Semantic Scholar 数据和大语言模型推理,从输入和类比论文中提取要素(目的、机制、评估)。
- 通过在输入与类比论文之间重新组合选定的要素及距离(近似/远距离类比)来生成想法。
- 通过检索相关论文并给出便于用户理解的理由性新颖性分类来评估新颖性。
- 在想法被判定为不新颖时,提供更具新颖性的迭代改进建议。
- 进行一项同被试用户研究(N=19 名计算机科学研究人员),将 Scideator 与强基线(文献检索+LLM)进行比较。
- 分析交互模式、要素距离使用与新颖性评估性能,以及与先前新颖性方法的比较。

实验结果
研究问题
- RQ1Scideator 如何帮助生成以文献为基础的新颖且相关的科学想法?
- RQ2要素再组合方法加自动新颖性评估是否比基线方法产生更多新颖想法?
- RQ3自动新颖性检查器相对于人工判断和先前方法有多准确、帮助程度如何?
- RQ4影响构想结果的用户交互模式和设计因素有哪些(如要素距离、保存行为)?
- RQ5设计选择(如手动新颖性注释)对新颖性评估和想法生成的定性与定量影响有哪些?
主要发现
- 参与者使用 Scideator 产生的想法在新颖性和趣味性上优于基线(去除一个离群值后,结果具有统计显著性)。
- 想法新颖性检查器与人类新颖性评分的一致性提升超过 10 倍,相较于最近一种基于 LLM 的新颖性方法,以及比另一种最近方法高约 13% 的一致性。
- 在同被试研究中,N=19 名计算机科学研究人员使用 Scideator 时产出更多被评为新颖且有趣的想法,相较于基线。
- 手动注释新颖性和简要评估的结果优于仅依赖文献检索或提示优化器方法的基线。
- 对交互日志的分析显示,参与者在保存的想法和要素上花费更多时间,初级研究人员更喜爱远距离要素和陌生想法,资深研究人员的探索模式则不同。
- 系统设计支持两个目标:相关性(通过要素检索和用户选择)与新颖性(通过要素距离与自动新颖性推理)。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。