Skip to main content
QUICK REVIEW

[论文解读] A Fault Tolerance Improved Majority Voter for TMR System Architectures

Padmanabhan Balasubramanian, K. Sudhakara Prasad|arXiv (Cornell University)|May 12, 2016
Radiation Effects in Electronics参考文献 27被引用 42
一句话总结

本文提出了一种新型容错多数表决器,用于三重模冗余(TMR)系统,可增强对功能模块与表决器本身同时发生故障的鲁棒性——这是纳米尺度技术中的一个关键限制。通过32/28nm CMOS仿真验证,所提出的表决器在容错能力、功耗降低、延迟减少和面积减小方面优于现有设计。

ABSTRACT

For digital system designs, triple modular redundancy (TMR), which is a 3-tuple version of N-modular redundancy is widely preferred for many mission-control and safety-critical applications. The TMR scheme involves two-times duplication of the simplex system hardware, with a majority voter ensuring correctness provided at least two out of three copies of the system remain operational. Thus the majority voter plays a pivotal role in ensuring the correct operation of the system. The fundamental assumption implicit in the TMR scheme is that the majority voter does not become faulty, which may not hold well for implementations based on latest technology nodes with dimensions of the order of just tens of nanometers. To overcome the drawbacks of the classical majority voter some new voter designs were put forward in the literature with the aim of enhancing the fault tolerance. However, these voter designs generally ensure the correct system operation in the presence of either a faulty function module or the faulty voter, considered only in isolation. Since multiple faults may no longer be excluded in the nanoelectronics regime, simultaneous fault occurrences on both the function module and the voter should be considered, and the fault tolerance of the voters have to be analyzed under such a scenario. In this context, this article proposes a new fault-tolerant majority voter which is found to be more robust to faults than the existing voters in the presence of faults occurring internally and/or externally to the voter. Moreover, the proposed voter features less power dissipation, delay, and area metrics based on the simulation results obtained by using a 32/28nm CMOS process.

研究动机与目标

  • 为应对纳米尺度技术扩展带来的TMR系统中并发故障风险日益增加的问题,特别是当功能模块与多数表决器同时发生故障时。
  • 克服先前表决器设计的局限性,即假设故障隔离——要么表决器故障,要么模块故障,但不会同时发生。
  • 开发一种多数表决器架构,即使在表决器和功能模块同时发生内部和/或外部故障的情况下,也能保持系统正确性。
  • 改进关键硬件指标,如功耗、传播延迟和面积效率。
  • 通过32/28nm CMOS工艺技术的仿真,验证所提出表决器的性能和容错能力。

提出的方法

  • 设计一种新型多数表决器电路,集成冗余机制和错误检测功能,以检测并容忍表决器和功能模块中的故障。
  • 在表决器中集成故障检测逻辑,即使表决器自身发生故障,也能识别来自三个冗余模块的错误输出。
  • 采用双路径或双表决架构,交叉验证表决器输出,降低表决器引发故障的可能性。
  • 应用CMOS电路优化技术,最小化所提表决器结构中的面积、延迟和功耗。
  • 在多种故障注入场景下对所提表决器进行仿真,包括模块和表决器中的单个和多个故障,使用32/28nm CMOS工艺。
  • 通过定量指标,将所提表决器的性能和容错能力与经典及先前改进的多数表决器设计进行对比。

实验结果

研究问题

  • RQ1当功能模块和表决器同时发生故障时,所提出的多数表决器如何保持系统正确性?
  • RQ2与现有表决器设计相比,所提出的表决器在并发内部和外部故障下的容错能力如何?
  • RQ3与传统及先前改进的多数表决器相比,所提出的表决器在功耗、延迟和面积方面降低了多大程度?
  • RQ4表决器的架构如何实现对冗余模块和表决器自身故障的检测与缓解?
  • RQ5在纳米尺度CMOS技术中,所提出的表决器在性能与可靠性之间存在何种权衡?

主要发现

  • 所提出的多数表决器在容错能力方面优于现有设计,尤其在功能模块与表决器同时发生故障的场景中表现更优。
  • 与基准设计和先前表决器设计相比,仿真结果表明,该表决器显著降低了功耗,包括动态功耗和漏电流功耗。
  • 由于逻辑路径优化和表决器电路中晶体管数量减少,传播延迟降低,从而提升了整体系统响应速度。
  • 与先前实现相比,所提出的表决器占用更小面积,这归因于高效的电路综合和元件数量的减少。
  • 该设计在多种故障条件下(包括固定故障和瞬态故障)仍能保持正确输出,验证了其在纳米尺度环境下的鲁棒性。
  • 基于32/28nm CMOS工艺的仿真结果表明,所提出的表决器在所有关键指标上均优于现有解决方案:功耗、延迟、面积和容错能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。