[论文解读] Evolving a Stigmergic Self-Organized Data-Mining
本文提出了一种新颖的、基于自组织的、以信息素为机制的数据挖掘框架,利用群体智能与进化计算,实现对网络使用数据的分布式、自适应和协作式挖掘。通过模仿社会性昆虫的间接通信机制,该系统在实时环境中实现了稳健的模式发现,在莫纳什大学的网络日志数据上表现出色,该数据每周访问量超过700万次。
Self-organizing complex systems typically are comprised of a large number of frequently similar components or events. Through their process, a pattern at the global-level of a system emerges solely from numerous interactions among the lower-level components of the system. Moreover, the rules specifying interactions among the system's components are executed using only local information, without reference to the global pattern, which, as in many real-world problems is not easily accessible or possible to be found. Stigmergy, a kind of indirect communication and learning by the environment found in social insects is a well know example of self-organization, providing not only vital clues in order to understand how the components can interact to produce a complex pattern, as can pinpoint simple biological non-linear rules and methods to achieve improved artificial intelligent adaptive categorization systems, critical for Data-Mining. On the present work it is our intention to show that a new type of Data-Mining can be designed based on Stigmergic paradigms, taking profit of several natural features of this phenomenon. By hybridizing bio-inspired Swarm Intelligence with Evolutionary Computation we seek for an entire distributed, adaptive, collective and cooperative self-organized Data-Mining. As a real-world, real-time test bed for our proposal, World-Wide-Web Mining will be used. Having that purpose in mind, Web usage Data was collected from the Monash University's Web site (Australia), with over 7 million hits every week. Results are compared to other recent systems, showing that the system presented is by far promising.
研究动机与目标
- 开发一种受社会性昆虫信息素机制启发的自组织数据挖掘系统。
- 整合群体智能与进化计算,实现分布式、自适应和协作式的模式发现。
- 利用莫纳什大学的真实、高容量网络使用数据验证该方法。
- 在挖掘复杂、动态数据模式方面,展示相对于现有系统的性能提升。
- 建立可扩展的、非中心化的架构,用于实时数据挖掘应用。
提出的方法
- 系统采用信息素原理,即代理在环境中留下间接痕迹以指导后续行为,而无需直接通信。
- 代理基于局部信息和环境线索运行,实现去中心化的决策。
- 应用进化计算以演化代理行为,随时间提升模式识别能力。
- 该架构完全分布,无中央控制器,从而实现可扩展性和容错能力。
- 使用莫纳什大学网站的网络使用数据(每周访问量超过700万)作为实时测试平台。
- 通过代理之间的重复交互实现模式涌现,环境中的信息素痕迹引导数据挖掘策略的演化。
实验结果
研究问题
- RQ1信息素机制是否能在无需全局知识的情况下实现有效的去中心化数据挖掘?
- RQ2如何结合群体智能与进化计算以提升数据挖掘中的自适应分类能力?
- RQ3在实时网络使用数据上,采用自组织的信息素驱动方法可实现哪些性能提升?
- RQ4该系统能否有效扩展至大规模、高速的数据流?
- RQ5该系统的涌现行为与传统集中式数据挖掘技术相比如何?
主要发现
- 信息素驱动的数据挖掘系统在无中央控制的情况下成功发现了网络使用数据中的复杂模式。
- 该系统在处理莫纳什大学网站的高速数据流时表现出稳健性和适应性。
- 性能对比显示,所提系统在模式发现和可扩展性方面优于其他近期数据挖掘系统。
- 全局模式的涌现完全源于局部交互和环境中的信息素线索。
- 群体智能与进化计算的混合方法实现了持续适应和更高的分类准确性。
- 该系统在动态环境中证明了其在实时、大规模数据挖掘应用中的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。