[论文解读] Integration of knowledge and data in machine learning
本文综述知识发现与知识嵌入如何与数据驱动的机器学习结合,概述方法、差距与机会,并主张在发现与嵌入之间形成闭环。
Scientific research's mandate is to comprehend and explore the world, as well as to improve it based on experience and knowledge. Knowledge embedding and knowledge discovery are two significant methods of integrating knowledge and data. Through knowledge embedding, the barriers between knowledge and data can be eliminated, and machine learning models with physical common sense can be established. Meanwhile, humans' understanding of the world is always limited, and knowledge discovery takes advantage of machine learning to extract new knowledge from observations. Knowledge discovery can not only assist researchers to better grasp the nature of physics, but it can also support them in conducting knowledge embedding research. A closed loop of knowledge generation and usage are formed by combining knowledge embedding with knowledge discovery, which can improve the robustness and accuracy of models and uncover previously unknown scientific principles. This study summarizes and analyzes extant literature, as well as identifies research gaps and future opportunities.
研究动机与目标
- 澄清知识发现与知识嵌入之间的区别及其耦合关系。
- 总结从数据中发现驱动方程的现有方法(结构和系数)。
- 总结将领域知识融入机器学习模型的知识嵌入技术。
- 识别推进整合知识-数据学习的研究空白与机会。
提出的方法
- 将知识发现方法分为闭源库、可扩展库和开形式的方程挖掘方法。
- 讨论用于挖掘具有复杂结构和系数的方程的方法,包括稀疏回归、遗传算法、符号回归以及 PDE-Net 的变体。
- 描述贯穿数据预处理、模型结构设计以及惩罚/奖励(软约束与硬约束)的知识嵌入策略。
- 比较软约束与硬约束框架及其对数据效率和物理保真性的影响。
- 突出诸如 PINN、TgNN、PgNN 以及基于物理约束的损失函数等实用嵌入技术。
实验结果
研究问题
- RQ1从数据中提取控制方程的知识发现方法的主要类别和能力有哪些?
- RQ2如何将领域知识嵌入到 ML 模型中,以提高准确性、鲁棒性和物理一致性?
- RQ3在 ML 中将知识(发现与嵌入)与数据整合方面的关键挑战有哪些,未来方向如何解决?
- RQ4系数(常数、可表达、不可表达)在方程挖掘中的作用是什么,如何有效推断?
- RQ5如何实现知识发现与知识嵌入之间的闭环,以推动科学与工程任务?
主要发现
- 知识发现方法在方程表示方式(闭源库、可扩展库、开形式)和系数复杂度方面各不相同。
- 开形式方法为复杂结构提供更大灵活性,但伴随更高的计算成本。
- 知识嵌入可以通过数据预处理、网络设计和约束优化来实现,软约束与硬约束影响数据需求和保真度。
- 硬约束可以降低数据需求,但依赖正确的领域知识;软约束更易实现,但可能无法准确强制物理定律。
- 作者指出知识发现的五个差距/机会(梯度适配嵌入、必要条件提取、复杂结构/系数挖掘、梯度精度、方程简化)以及知识嵌入的五个差距/机会(处理复杂控制方程、通过图网络处理不规则场、自适应超参数、嘈杂/稀缺数据、面向可访问性的自动化 ML)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。