新闻中心

EEPW首页 > 嵌入式系统 > 设计应用 > 嵌入式系统的高可用性:始终可用

嵌入式系统的高可用性:始终可用

作者:Warren Webb,EDN技术编辑时间:2008-09-02来源:EDN China收藏

  设计人员正在调整各种高可用体系结构,以满足客户对用于下一代超级可靠系统应用的持久数据接口的需求。

  要 点

  ·高速串行数据链路和交换结构技术实现动态路径,人们能围绕不可操作的子系统重新设定信息路由。

  ·管理软件自动监视系统工作,并在发生故障或性能降低时用冗余元件来替换。

  ·热插拔特性实现无中断的修理和升级,并为发展容错自愈系统铺平了道路。

  ·刀片计算机集群以更低的采购和运营成本支持可扩展、高密度、高可用的服务器系统。

本文引用地址:http://www.eepw.com.cn/article/87623.htm

  随着普适计算时代的到来(届时用户将可随时随地访问信息和服务),系统设计人员在提高服务器、远程设备、数据传输基础设施的可用性方面承受着日益增大的压力。鉴于其应用,人们对系统可靠性的期望远远高于对多数其它计算系统的期望。终止或重启其中一些关键应用系统需要承担人身财产或重要信息损失的风险。在满足这些要求的过程中,嵌入式系统设计者运用各种智能硬件和软件冗余技巧在日常运行中实现高达 99.999% 的可用性,即每年停机时间不到六分钟。

  “”描述系统特性,它们使系统在发生硬件或软件故障时能够保持连续工作。高可用系统具有内置监视和复制数据路径,透明地取代可选硬件或软件组件复制正常功能,在出现故障时也能照常工作。一般而言,系统还支持在不中断运行的前提下替换故障组件或升级。随着通用连接的问世,数据安全也成了可用性的一个要素,这是因为未授权的黑客、恶意软件或外部“拒绝服务”攻击会导致预期功能中断。可用性一般定义为 /(+MTTR),其中 是指平均无故障时间,MTTR 是指平均修理时间。

  对于越来越多的嵌入式系统应用都变得十分必要,而不断提高的技术趋势使系统设计任务日益困难。例如,可以预见,随着客户需要嵌入式设备中有更多功能,增加的硬件和软件组件带来了新的故障模式。显然,增加的的组件不利于达到更高的可用性,甚至产生其它冗余性,从而不断加剧系统复杂性。当前向普遍连接发展的趋势也给高可用嵌入式系统设计者带来了许多数据安全与通信可靠性问题。虽然最可靠的系统可能使用有限资源的简便的单独设备,但设计者必须采用一种提高任意嵌入配置可用性的战略。

  不间断运行

  当前多数用于提高服务可用性的诀窍和技巧均源自电信行业。多年来,电信设备制造商设计了多种方案,以便提供不间断的服务,即使发生硬件和软件故障也是如此。遗憾的是,多数方案都是专有的,维护费用高,并且难以在要求演变时进行更新。它们还需要很长的开发周期。设备设计者无法利用 COTS(商用现货)构件,这是因为没有通用内置设备提高服务可用性。为了解决可用性难题,电路板制造商制定一系列可与专有系统性能匹敌的硬件和软件规范。

   (智能平台管理接口)规范是用来解决可用性问题的最早标准之一,它由戴尔、英特尔、惠普、NEC 公司制定,旨在从本地和远程监视设备,以便执行电源管理、冷却、电子键控和热插拔等事务处理。 与管理控制器相互配合,后者在主机处理器出现故障时可依靠自身运行。借助平台管理,操作人员能监视设备是否出现边际操作或潜在问题,并能在它们变成系统故障之前纠正它们。PICMG (Peripheral Component Interconnect Industrial Computer Manufacturers Group)组织把 的若干变体都包含到电路板级 CompactPCI 规范和 ATCA(高级电信计算架构)规范中。

  为了最大限度发挥 IPMI 的优势,设备客户需要具备热插拔功能,以便在不关闭系统的情况下替换出故障的系统板。热插拔系统要求硬件和软件能够在等待修理的同时,动态设定信号路由,使其绕过出故障的组件。必备热插拔技术之一是系统板和背板之间的物理连接。如果不控制电源涌流和背板信号连接,简单直连可能会干扰总线上的其它板。例如,CompactPCI 利用不同长度的分级引脚来控制通向背板的物理连接。卡片导向器确保板的插入垂直于背板。较长的引脚首先对接、供电并接地,以便对 PCI 总线信号预充电。串联电阻限制了电源电流浪涌。中等长度引脚连至处于预充电、高阻抗或禁用状态的 PCI 总线信号。最短的引脚支持总线通信。

  防故障交换结构

  串行交换结构技术是另一种设计创新,对于高可用性系统有多种好处。这些体系结构允许在计算节点之间设立动态数据路径,并支持多路并发数据传输。交换结构的一个主要好处是,每条连接均为直接的点到点数据路径,并带来更好的电特性,允许的频率和带宽高于总线体系结构。典型的交换结构使用多级开关在源和目标之间建立路由。这些动态路径对于高可用性设计也很有价值,使人们能围绕不可操作的子系统设定数据路由。多数主要电路板标准现在都规定交换结构,尽管它们并未提出具体的交换结构技术实现数据传输。与此相反,一系列附属规范为以太网、InfiniBand、StaRFabric、PCI Express、RapidIO 等各种交换结构对背板进行详细定义。虽然这种方法满足了业内不同观点的要求,但它也可能造成同一标准内部的互操作问题。

  VITA(VMEbus International Trade Association)41 VXS 为广泛应用的 VMEbus (Versa-module eurocard bus)增添了一些交换结构技术高可用性优势。VXS 规范定义了一种有效载荷卡、一种交换卡、一种新型高带宽背板连接器,并保留标准的并行 VMEbus 连接器。每个新型交换结构端口均包含两组四联串行位通道——一组用于输入数据,另一组用于输出数据,对于每条串行通道均支持 10 Gbps 数据速率。交换卡包含必要的结构交换功能,以便在有效负荷卡之间或围绕故障设定串行数据路由,或使其绕过故障。为了保持交换结构任意性,VITA 41子规范为 InfiniBand、串行RapidIO、GbE(千兆以太网)、PCI Express 定义了交换卡和有效载荷卡。

  PICMG(PCI Industrial Computer Manufacturers Group)针对电信设备的独特要求,发布了 ATCA 规范,提供 VME 和 CompactPCI 等开放体系结构的替代结构。ATCA 重点强调高可用性特性,采用高速串行数据链路和交换结构技术。超大板面积支持复杂的电信电路,并提供输入电源和冷却功能,实现每插槽高达 200 W 的功率。ATCA 规范具有适用于所有板和有源模块的热插拔功能,因此最大限度减少系统中断。一个机架管理元件(其规范基于IPMI)监视各插入模块的健康、功率、冷却甚至键控情况,以确保各子系统在高效率工作。各模块从冗余-48V直流馈电器获得电力,并从冗余控制与数据板获取数据,以防止单一故障使整个机箱停止运行。

  Adlink Technology公司利用 ATCA 的热插拔和机架管理特性优势,并延伸了它的性能极限,于最近发布了aTCA-6900 CPU刀片服务器,该服务器配备两颗四核 Intel Xeon 处理器和两个AdvancedMC (Mezzanine-Card)支架,以实现设计的灵活性(图 1)。aTCA-6900 CPU 刀片服务器可支持八颗CPU内核以及一种交换结构,后者包括2个10千兆以太网接口、2个PCI Express 接口和2个光通道接口。板载存储设备包括 4 GB USB 闪存和各种硬盘安装选件。前面板I/O包括视频、3个USB 2.0 端口、2 个 RJ-45 以太网端口以及 1 个 RJ-45 串口。aTCA-6900 起价不到 5000 美元。

  准确到达的数据流

  随着联网嵌入式设备的增多,对于专用可靠数据源的需求成了任何新产品开发过程中的主要考虑事项。如果人们采用多个设备,并且它们均需要各自不同而又同时存在的数据流,那么数据服务器处理要求就变得十分关键了。文件共享、安全监视、娱乐等许多嵌入式系统应用均需要来自专用服务器的独立且始终可用的数据流。为了达到对这些以数据为中心的项目可用性的期望,设计师正在转向每机架数百颗 CPU 并且每板多颗 CPU 的高密度电脑阵列。具有多块电脑板的系统一般称作刀片服务器,它具备系统管理、负载均衡、热插拔功能以及共享外设,为万维网访问和数据服务提供高度可靠的数据。单个刀片计算机一般不配备本地外设,要对它们进行远程管理。集群式服务器运行管理软件来平衡计算负载,报告故障,提供刀片配置信息,并监视热插拔事务处理。刀片服务器基本上是一些需要特殊软件管理系统以便达到最长正常运行时间的高可用性系统。单独的管理网络提高了服务器安全性,这是因为它可防止关键的操作系统信息和更新数据经过公共网络或互联网。

  几家开放源代码和商用软件组织致力于提高操作系统和嵌入固件的可靠性。例如,High Availability Linux Project 主办一项开放源代码开发工作,旨在为 Linux 操作系统提供一种集群体系结构,以提高可靠性、可用性和可服务性。Heartbeat 是该项目最知名的组成部分,在网络上定期向其它 Heartbeat 实例发送数据包来验证性能。当系统不再收到数据包时,它就按照用户提供的公式来假定发生了节点故障,并自动将服务路由到替代节点。

  与此类似,Service Availability Forum 由通信公司和计算设备公司组成,他们合作制定高可用性和管理软件接口规范。这些规范针对一些电信系统与服务开发商,其系统和服务采用 CompactPCI 和 ATCA 等 COTS 模块构建。他们的目的是允许更多地重复使用硬件和软件,并缩短产品开发周期。硬件平台接口规范定义了 COTS 硬件和高可用性管理中间件之间的接口(图 2)。于是各应用无需专有软件接口就能独立搜索、监视和管理硬件。

  得益于最新一代电路板标准和专门的软件开发员社区的帮助,设计师目前拥有多种工具使用现成可用的产品来配置高可用嵌入式系统。尽管发展趋势是多功能和复杂的嵌入式产品,但设计师可以把来自多家供应商的组件组合起来,以便满足其性能要求,并仍能达到甚至超过难以企及的“5 个 9”(99.999%) 可用性目标。

linux操作系统文章专题:linux操作系统详解(linux不再难懂)


评论


相关推荐

技术专区

关闭