论文部分内容阅读
得益于IP(Internet Protocol)技术的高度灵活性,当前通信领域的语音网络、数据传输网络都在过渡到全IP化网络。随着电信级IP网络通信数据量的提升,IP数据转发设备即路由器转发能力也在大幅度地提高,目前单台设备转发能力已经突破10T比特位每秒。类似于传统电信设备的高可靠性需求,负责IP数据转发的硬件设备故障将有可能导致IP网络连接出现中断。为了降低IP数据转发硬件设备的失效率和失效影响,从IP网络诞生至今,设备厂家们提出了一系列提高可靠性的解决方案。包括从协议层面增加了大量OAM(Operation and Maintenance)协议,硬件层面定义了ATCA(Advanced Telecom Computing Architecture)等标准。这些方案使IP网络系统具备了一定的冗余、自愈能力,一定程度上提高了IP网络鲁棒性,但一些关键硬件模块的失效问题依然困扰着设备商和网络运营商。本文从IP数据转发设备的硬件架构设计和可靠性功能模型出发,识别出了影响IP数据转发设备可靠性的几个关键的硬件故障问题,并进行了可靠性增强设计,包括以下主要工作:1.对业务处理板的隔离式电源模块故障,利用并联冗余思路给出了板级电源设计的可靠性解决方案,方案使用了Ti(Texas Instruments,德州仪器)的uc3902。2.对业务处理板的石英钟振的故障,利用并联冗余思路给出了板级时钟设计的可靠性解决方案。首次提出了钟振备份方案,选用了ADI(Analog Device,安那络半导体)推出的AD9574作为主要时钟器件,配合板级可编程逻辑实现了高可靠性时钟方案。3.对业务处理板的关键存储器资源的软失效、硬失效故障,参考通用处理器对存储器故障的处理策略,结合转发硬件加速器的业务模型,对转发硬件加速器下挂的内存设计了故障隔离、自愈方案。本文基于上述方案实现了对IP数据转发产品的可靠性的加强设计,提升了设备自身的鲁棒性。可靠性增强设计的效果通过故障注入测试进行了验证。高可靠性系统设计包含的对电源、钟振、存储器故障模式的识别,以及容错方案,可以被类似硬件架构的系统如服务器设计广泛借鉴,解决云化时代硬件层面的可靠性问题。