《机房基础设施等级拓扑标准》是一套客观的基准定义。是用来衡量某一特定信息机房基础设施之现实和预期可用性(或性能)的方法。它同样适用于衡量一组或多个机房(如一栋包含多个机房的建筑物)的现实可用性和预期可用性,下面跟着赛能一起来细读一下标准规范。
概要
信息机房的可用是指该机房按照设计能力不间断正常运行。而机房的可用性则以该机房每年不间断正常运行的时间来描述。无疑,机房每年可靠地不间断正常运行的时间越长,或者出现“每年中断不间断正常运行的时间”越少则表示该机房的可用性越高。随着互联网应用的爆炸性增长,对于信息机房基础设施高可用性要求压力不断增加。那些租用或直接使用信息机房(包括数据中心)的客户期望自己的机房可用性可以至少达到“五个九”或99.999%。随之而来的是对计算机硬件的可靠性和计算机软件可靠性的需求增加。不幸的是,面对频繁的业务需求,即使软件平台和计算机硬件的可靠性达到五个九,也不能保证机房可用性可以至少达到99.999%。就是说,依靠增加庞大投资,单纯提升软件平台和计算机硬件的可靠性对于机房整体高可用性保障很可能是不够的,除非再配上机房基础设施的补充容错措施(电源、冷却,和其他环境支持系统),才可以支持机房的高可用性目标。
《机房基础设施等级拓扑标准》针对机房基础设施的配置情况来衡量机房可用性。从机房的整体组成、各部分功能、容量与能力、可靠性、临界载荷、扩容预期和并发维护措施等多个角度出发,清晰定义并描述机房的可用性与机房基础设施拓扑配置(所拥有的容错组件及可分配路径)之间的对应关系。这种对应关系用来区分机房基础设施拓扑结构的四个等级定义。该标准专注于定义相对于四个等级(TierⅠ, TierⅡ,TierⅢ,TierⅣ)的机房基础设施拓扑结构及其性能确认测试,以确定机房的容错能力和同步维护性符合上述定义。在该标准中提供了机房基础设施系统设计和拓扑配置的典型用例,用来厘清等级分类的标准定义。
范围
《机房基础设施等级拓扑标准》认为,机房的基础设施必须具备可靠的容错措施和多种备份选择路径,确保机房的可用性不会因为机房内所有活动——包括计划内的活动(如定期维护、常规测试、业务开通、节能措施、机房改造、故障排除等)和计划外的活动(包括设备故障、意外事故、人为错误操作等)——受到预期之外的影响,以满足机房整体可用性要求。《机房基础设施等级拓扑标准》针对机房基础设施分类等级定义(TierⅠ, TierⅡ,TierⅢ,TierⅣ),建立了四个独特机房基础设施拓扑定义,以及遵循该定义的性能确认测试标准。该分类等级说明了保证机房不同可用性状态下,机房基础设施所需的拓扑结构。
一个典型的数据中心是由至少20个主要子系统构成的总和体。这些主要子系统包括机械、供电、消防、制冷、建筑物、安全等。每一个子系统又具有各自的分系统和组件。而所有这些都必须支持并行(同时)维护且具有故障容错措施,进而满足整体机房的容错要求和维护要求,保证整体机房的可用性。该标准基于这样一个事实:信息机房(含数据中心)的可用性(不间断正常运行时间),取决于机房基础设施中所有子系统单独可用性以及它们之间的成功整合运作,而对于其中某些个别的子系统(例如,发电,制冷,不间断电源等),需加以选择来维持运行。
每个子系统和经由这些子系统整合而成的信息机房基础设施,必须以机房整体不间断正常运行的相同目标来做一致性的配置,以满足相应特定等级的可用性要求。衡量一个机房的基础设施是否到达某个等级的规定要求由两个因素确定:按照标准拓扑配置后的确认测试结果和对于机房不间断运行的影响来衡量。这种测量方法不同于规范设计,或一份所需设备的清单。