一、高可用性基础概念 高可用性简述

  
90年代之前,大型机和小型机是支持关键应用的骨干系统,高可用性需要系统的可靠性、稳定性、安全性,需要快速处理能力、大存储容量及系统的可管理性。

全球事务和经济的变化加速了对新兴的性能价格比更高的信息技术体结构的需求,客户/服务器实现方法成为替代专用的、基于 RISC中等规模技术的解决案。  

  
随着企业日趋依赖 Internet和 Intranet、远程计算、远程通信、全球竞争和协作,企业对这些应用的可用性需求也日趋高涨。

  
本文叙述了高可用性最普遍使用的度量标准,解释了主要的停机原因,并且勾勒了客户使用 Microsoft Windows NT Server部署可靠系统的基础设施技术。

  
高可用性定义 可用性度量标准 可用性是测量计算机系统如何能够持续地对客户进行服务的尺度。它需要依赖于系统的可用性来防止出现故障和/或从故障中进行恢复。高可用性系统提供一个改进的或者比传统系统更高级的系统可用性,减少单个故障点。


Uptime(%) 99 99.9 99.99 99.999
Downtime 3.5 days /year 8.5 hours / year 1 hour / year 5 minutes / year
Class 可用性 高可用性 错误恢复 容错


故障平均时间和恢复平均时间是评定高可用性的参数之一软件和硬件组件具有不同的故障特点,从而使软件故障难于管理或预测。硬件组件通常具有称为指数故障分布的故障特性。在正常环境下,并且在经过初始阶段之后,硬件组件运行得越长,它发生故障的频率就越高。因此,如果知道了设备的平均故障时间( MTTF),那么就有可能预测出该设备进入故障状态的时间。

  
造成停机时间的原因: 软件故障、硬件故障、网络故障、操作故障、环境故障。


二、集群技术   

  
集群技术是实现系统高可用性的重要手段,本节将讨论什么是服务器集群、如何建立服务器集群及相关问题。  

  
什么是服务器“集群”?

  
服务器集群是作为单一系统进行管理的一组独立的服务器,用于实现更高的可用性、可管理性和更优异的可伸缩性。

  
怎样建立服务器集群?

  
服务器集群的最低要求是:(a)两台服务器通过网络互连;(b)允许每台服务器访问对方的磁盘数据;(c)专用的集群软件,如 Microsoft Cluster Server( MSCS)。专用软件可以提供包括故障检测、恢复等多种服务,并允许将服务器作为一个单一系统进行管理。

  
服务器集群有何优势?

  
服务器集群拥有三项主要优势:更高的可用性、更方便的可管理性以及更经济高效的可伸缩性。
可用性: MSCS能够自动检测应用或服务器故障,并可将其在幸存服务器上快速重新启动;而用户只会体验到瞬间的服务暂停。

  
可管理性: MSCS使管理员能够快速检查所有集群资源的状态,并轻松地将工作负载分配给集群之中的不同服务器。这对于人工负载平衡十分有用,并且无需将重要数据和应用脱机即可对服务器进行"滚动升级"。

  
可伸缩性: “支持集群”的应用可以通过 MSCS应用程序接口( API)使用 MSCS服务,从而在一个集群中的多台服务器上实现动态负载平衡和扩展。三种集群技术:共享磁盘、镜像磁盘、非共享。


三、双机双控容错系统方案综述


1、双机双控容错系统简介   

  
近年来随着计算机技术的飞速发展,服务器的性能有了大幅度的提升,服务器作为处理关键性事物的业务主机已随处可见。对于要求有高可用性和高安全性的系统,比如金融、邮电、交通、石油、电力、保险、证券等行业,用户提出了系统容错的要求。我公司根据用户这一要求,推出了双机双控容错系统方案。用二台服务器共同工作,当一台服务器的系统出现故障时,另一台服务器可确保系统正常运行,从而将系统风险降低到最低限度,保障了系统的高可靠性、高安全性和高可用性。

  
双机双控容错系统技术基础为近年来成熟起来的Cluster集群技术。Cluster集群技术出发点是提供高可靠性、可扩充性和抗灾难性。双机双控容错系统解决方案重点在提供高可靠性和高安全性,Cluster集群技术为此提供了技术上的保证。我公司为金融、邮电、交通、石油、电力、保险、证券等需要安全运行的系统度身定作了基于Cluster集群技术的双机双控容错系统方案。


2、Cluster集群技术

  
Cluster集群技术可如下定义:一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。Cluster大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可被所有的网络客户所使用。Cluster必须可以协调管理各分离的组件的错误和失败,并可透明地向Cluster中加入组件。


一个Cluster包含多台(至少二台)拥有共享数据储存空间的服务器。任何一台服务器运行一个应用时,应用数据被存储在共享的数据空间内。每台服务器的操作系统和应用程序文件存储在其各自的本地储存空间上。

  
Cluster内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管。当以上任一故障发生时,客户将能很快连接到新的应用服务上。

  
Cluster集群可由N台服务器构成,当我们取Cluster要求的最小值N=2时,就成为一个双机系统。


3、NetServer Clusters 双机双控容错系统方案


NetServer为双机双控容错系统提供了高品质和高可靠的硬件基础。 把稳定的产品与先进的技术相互结合,为客户提供全套的解决方案。

  
双机双控容错系统结合了 服务器产品的安全可靠性与Cluster技术的优点,相互配合二者的优势。 NetServer服务器针对Cluster技术做了许多优化和改进,满足了Cluster所有硬件连接要求,针对Cluster需求专门设计了特殊版本的NetRAID及NetRAID 3Si阵列卡。 与微软公司合作,提供了运行WolfPack的硬件平台,并且与第三方软件厂商一起充分分析了客户的需求,基于UNIX应用环境的实际情况,研制了双机双控软件ServerGuard;基于Windows NT应用环境的实际情况,研制了双机双控软件DataWare。 双机双控容错系统是 提供的全套解决方案,并由 提供技术保障。


四、 双机双控容错系统结构介绍


1、双机双控容错系统硬件结构

  
双机双控容错系统为二台 NetServer服务器,每台服务器拥有各自的系统盘,用来安装系统软件、数据库软件、应用软件和双机软件。二台服务器同时还拥有一共享的数据盘,用来存储应用数据。系统盘通过NETRAID卡1做RAID1镜象冗余,数据盘通过NETRAID卡2做RAID5或RAID50级冗余。二台服务器各自拥有两块RAID控制卡,系统为双控制卡结构,避免了单点故障,提高了系统的容错能力。


2、双机双控容错系统硬件及结构的优点

  
公司推出计算机产品时坚持MAP原则(Manageability、Availability和Performance), 的硬件设备以其良好的可管理性、可用性和高性能为整个系统提供了硬件保障。

  
NetServer服务器以其优秀的设计保证了系统拥有安全、可靠的硬件基础。NetServer设计时运用了许多先进技术。例如:ECC内存Scrubbing、支持独到的阵列级别RAID10、30和50考虑周到、精心设计的冷却系统,双机双控容错系统在设计时也从MAP的原则出发,使整个系统成为一个安全的、可靠的、可管理的和拥有良好性能的系统。
 

从可靠性角度出发 双重的保障、二个独立的RAID控制器、系统盘和共享数据盘分别做了不同等级的容错、?
从安全的角度出发 系统盘部分可做RAID1或RAID10镜象备份、共享数据盘部分做RAID5或RAID50 、人员无法接触到系统设备、
从管理的角度出发 方便的系统修复、维护相当便捷、可选的远程监控系统和远程报警、
从性能的角度出发 很好的数据读写性能、更多的数据空间、快速的多SCSI通道、
从应用的角度出发 多种操作平台、多种数据库、多种监控平台、


五、 双机容错系统硬件方案范例


考虑到针对不同行业的不同需求,对系统处理能力的要求也不近相同,我们推出了多套方案以供参考。


方案一:本方案采用服务器和磁盘柜组合,服务器内存为128MB可升级为4GB,933MHz-1GHz PIII CPU 两个, 10/100MB自适应网卡,32倍速的IDE光驱,133MHz的高速总线频率使系统处理性能有了较大的提高。 NetRAID2M磁盘阵列卡可以提供多路的SCSI通道。磁盘柜可以放置12块Ultra3 SCSI 160MB/s热插拔硬盘用以存储数据。采用RAID5/RAID50阵列模式,保证了数据冗余。24GB的内置DDS大容量磁带机保证数据的备份存储。

  
这是一个性能完备处理性能较高的组合方案,此方案可以有效的支持多任务模式。是一个很好的部门级双机容错方案。


方案二:本方案采用服务器和1个光纤通道磁盘阵列柜,所有服务器与磁盘柜均放置在 的机柜中,封闭式管理。安全可靠。服务器选配内存为512MB可升级为8GB,PIII Xeon 700MHz的CPU为两个,可升级为6个CPU。10/100MB自适应网卡。 FC-HBA光纤通道卡可以提供更高的I/O通道。每个RS12FC磁盘柜共可以放置12块Ultra 3 SCSI 160MB/s热插拔硬盘用以存储数据,总外置容量可达到655.2GB。采用RAID5或RAID50阵列模式,保证了数据冗余,极大的扩大存储容量,在采用RAID50阵列模式时,数据盘即使两块同时损坏也不会丢失数据。24GBX6的外置DDS大容量磁带机保证数据的备份存储。由于Lxr8500服务器采用对等PCI总线结构,在系统IO性能上有极大提高。

  
这是一个处理能力很强的组合方案并具有很好的扩充能力。此方案可以有效的支持多任务模式。是一个很好的企业级双机容错方案。