Skip to main content
QUICK REVIEW

[论文解读] Fault Tolerance in Distributed Neural Computing

А. Ю. Кулаков, Mark Zwoliński|arXiv (Cornell University)|Jan 1, 2015
Advanced Memory and Neural Computing参考文献 18被引用 6
一句话总结

本文提出一种具有去中心化、事件驱动时间管理的分布式前馈神经网络,对间歇性硬件和通信故障表现出内在容错能力。通过利用本地学习规则、权重冗余和分布式计算,该网络实现了优雅降级——在2%故障节点时保持90%准确率,5%故障节点时保持60%准确率,展示了无需集中控制或显式故障检测的鲁棒性。

ABSTRACT

With the increasing complexity of computing systems, complete hardware reliability can no longer be guaranteed. We need, however, to ensure overall system reliability. One of the most important features of artificial neural networks is their intrinsic fault-tolerance. The aim of this work is to investigate whether such networks have features that can be applied to wider computational systems. This paper presents an analysis, in both the learning and operational phases, of a distributed feed-forward neural network with decentralised event-driven time management, which is insensitive to intermittent faults caused by unreliable communication or faulty hardware components. The learning rules used in the model are local in space and time, which allows efficient scalable distributed implementation. We investigate the overhead caused by injected faults and analyse the sensitivity to limited failures in the computational hardware in different areas of the network.

研究动机与目标

  • 探究神经网络的内在容错能力是否可扩展至不可靠硬件上的更广泛计算系统。
  • 分析在间歇性硬件和通信故障下,分布式、事件驱动的前馈神经网络的容错性能。
  • 评估组件故障对可扩展、去中心化神经架构中学习和推理性能的影响。
  • 确定网络结构、权重分布和连接性如何影响故障弹性与优雅降级。

提出的方法

  • 设计一种具有去中心化、事件驱动时间管理的分布式前馈神经网络,以避免同步瓶颈。
  • 实施局部、时空局部的学习规则,实现在无全局协调下的可扩展、容错训练。
  • 在学习和推理阶段均注入受控的间歇性故障,以模拟硬件和通信故障。
  • 使用基于20个预学习模式下正确输出概率的连续可靠性度量来衡量性能退化。
  • 分析输入-隐藏层与隐藏-输出层之间权重分布和连接性的变化,以评估故障敏感性与弹性。
  • 使用包含2000个神经元的网络及小规模训练集,评估其在更大系统中的可扩展性和泛化潜力。

实验结果

研究问题

  • RQ1在间歇性硬件和通信故障下,分布式神经网络能在多大程度上维持性能?
  • RQ2在学习阶段注入故障如何影响网络的泛化能力与准确率保持能力?
  • RQ3权重分布与连接性结构在容错性与优雅降级中扮演何种角色?
  • RQ4本地学习规则如何促进去中心化系统中的故障弹性?
  • RQ5神经网络中的冗余与自组织特性是否可在无需显式故障检测或恢复机制的情况下实现容错?

主要发现

  • 当存在2%故障节点时,网络保持90%输出准确率,表明对低级别组件故障具有强韧性。
  • 在5%故障节点时,网络实现60%正确输出概率,表明为优雅降级而非灾难性故障。
  • 当故障节点达到10%时,性能退化至50%正确输出,表明在故障率增加时可靠性呈可预测的线性下降。
  • 当故障在学习阶段被注入时,网络性能下降极小,表明对动态故障条件具有鲁棒性。
  • 学习后,连接上的权重分布变得更加均匀,这与更快更有效的训练以及提升的容错性相关。
  • 隐藏层与输出层之间的连接比输入层到隐藏层的连接更不易受故障影响,表明故障敏感性存在结构上的非对称性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。