[论文解读] Towards Rationality in Language and Multimodal Agents: A Survey
本文综述分析多模态与多代理系统是否向理性决策迈进,界定四个理性公理,并评估提升单一代理大语言模型的接地、推理与抽象的技术。
This work discusses how to build more rational language and multimodal agents and what criteria define rationality in intelligent systems. Rationality is the quality of being guided by reason, characterized by decision-making that aligns with evidence and logical principles. It plays a crucial role in reliable problem-solving by ensuring well-grounded and consistent solutions. Despite their progress, large language models (LLMs) often fall short of rationality due to their bounded knowledge space and inconsistent outputs. In response, recent efforts have shifted toward developing multimodal and multi-agent systems, as well as integrating modules like external tools, programming codes, symbolic reasoners, utility function, and conformal risk controls rather than relying solely on a single LLM for decision-making. This paper surveys state-of-the-art advancements in language and multimodal agents, assesses their role in enhancing rationality, and outlines open challenges and future research directions. We maintain an open repository at https://github.com/bowen-upenn/Agent_Rationality.
研究动机与目标
- 为以物理现实和逻辑为基础的代理及代理系统定义理性。
- 评估多模态与多代理系统如何超越单一LLM提升理性决策。
- 确定促进理性的技术(接地、检索、工具使用、推理、神经符号推理)。
- 强调评估空白并为稳健理性基准提出未来方向。
提出的方法
- 提出一个具有四条公理的理性公设定义:接地、偏好可序性、与无关背景的独立性、以及不变性。
- 将多模态基础模型和多代理框架作为跨模态接地知识的手段进行综述。
- 讨论检索增强生成与外部工具作为有界理性的扩展,以扩展记忆与事实接地。
- 解释推理与抽象作为在多代理环境中实现更健壮理性的机制。
- 引入神经-符号推理和符号模块,以在多代理系统中实现不变性以及显式、基于规则的推理。
- 分析评估方法和用于测量代理理性与偏见的基准。
实验结果
研究问题
- RQ1提出给代理与代理系统的四条理性公理是什么?
- RQ2相较于单一LLMs,多模态与多代理系统如何提升接地、不变性及偏好可序性?
- RQ3知识检索、工具使用、推理与神经-符号推理在实现理性中扮演哪些角色?
- RQ4当前评估理性的空白有哪些,需要哪些实验或基准?
- RQ5未来方向如何通过多模态输入和协作代理动态提升理性?
主要发现
- 通过多模态基础模型和跨模态表示,接地与不变性得到强化。
- 检索增强生成和外部工具减少幻觉,扩展工作记忆,提升事实接地。
- 推理与多代理协作(辩论、交叉审问)提高准确性并减少不一致性,报告的提升包括 LM 对 LM 的收益(例如,在 FORD 中最高可达 15.7% 的 F1、4.9% 的准确率、17.0% 的翻译提升、16.0% 的推理提升)。
- 神经-符号推理与符号模块使推理具备不变性、确定性,并改善偏好排序,减少对端到端仅语言推理的依赖。
- 缺乏全面的理性评估指标;现有基准存在数据污染风险,且未能在各模态间一致衡量理性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。