意外事件和软硬件故障造成的停机总是让企业IT管理人员措手不及,尤其对于制造业、金融业、医疗、教学网课等行业来说,一旦服务器停机将严重影响在线业务和生产数据处理。此外,因灾害气候、疫情防控等原因,IT管理人员无法第一时间去公司处理故障,而过长的服务中断时间会给企业带来重大损失。
根据相关报告数据,80%的企业预计每小时的停机成本至少在2万美元以上,超过20%的企业估算其每小时的停机成本至少为10万美元。据报道,2021年12月,亚马逊AWS连续3次遭遇服务中断,中断时长超过7个小时。事故不但导致Netflix、Disney﹢等流媒体服务被中断,亚马逊电商平台和物流系统也受到影响。
为了预防服务突然中断,将两台服务器组成高可用集群,形成双机热备,以防止单点故障。群晖Synology High Availability(SHA)双机热备,大幅提升业务可靠性,分钟级故障转移提升业务连续性。
对于IT部署预算有限的企业来说,额外部署一套双机热备方案,不仅需要考虑到软硬件兼容性,更要考虑其部署费用。
群晖灾备方案软硬一体,不仅能满足企业云盘、整机备份、虚拟化存储等方案,SHA双机热备无需额外的软件许可证费用,在既有的群晖部署架构上,即可快速部署SHA。
通过群晖DSM 7.1提供的图形化操作界面,快速将两台相同硬件型号的群晖服务器组成一个SHA高可用集群。由活动服务器负责处理所有数据存储和应用运行,并且所有应用和数据将实时、持续复制至另一台无源服务器上。
如果当活动服务器发生故障导致停机,那么无源服务器将自动接管服务,以确保数据服务及应用实现分钟级故障转移,避免企业服务中断而导致业务长时间停摆。但为了实现自动故障转移,在部署SHA时需注意以下几点:
1)SHA需要使用两台相同型号的NAS,搭配相同型号、规格、数量、固件版本的硬盘所组建。并且确保所使用的硬件及附属配件都在群晖兼容列表中,硬盘使用的槽位必须两台设备一一对应。
2)创建SHA时,需确保心跳线是两台NAS之间进行直连,且不经过任何网络设备。此外,心跳线的连接速度不得慢于集群连接,心跳线的连接数量不小于集群连接。
3)创建SHA时,请确保所创建的集群IP地址,是企业PC所能访问的(例如:PC的IP地址是192.168.10.1,无法链接10.11.123网段,但是NAS最终所运行的环境是在10.11.123网段环境)
4)如需设置链路聚合,请先创建链路聚合之后再创建SHA,否则将无法创建链路聚合。
5)SHA设备创建存储空间,需同时扫描两台NAS上所有硬盘中的所有的块,所以会导致SHA的初次创建时间较长,具体时间视存储空间大小而定。
很多用户在部署双机热备后,不确定怎样的使用状况下,会触发自动故障转移。也就是哪些情况下无源服务器会自动接管服务:
1)存储空间损毁:活动服务器上的存储空间(例如存储空间、硬盘组、RAID Group、SSD缓存等)已损毁,但无源服务器上相应的存储空间运行正常。请注意,如果已损毁的存储池上没有存储空间或 iSCSI LUN(块级),则系统不会启动故障转移。
3)电源故障:活动服务器关闭或重启;无源服务器的两个电源设备出现故障或断电。
群晖灾备方案,除了双机热备应对意外故障,确保服务连续性外。将活动/无源服务器上的数据再通过快照部署同城/异地灾备中心,在面对勒索病毒时,可以快速恢复数据的安全版本。
群晖Snapshot Replication快照和复制能锁定快照时间点数据的完整状态,所以被快照保留的数据不会通过SMB等文件协议被病毒修改或加密,这也是为什么快照能够有效抵御勒索病毒的原因。同时其还原效率相对高效,对企业在线业务来说,可以减少因意外状况而导致业务停止的时间。
Snapshot Replication提供秒级快照,对于共享文件夹和iSCSI LUN提供最短5分钟快照频率,当遭受到病毒攻击,可以快速恢复到先前快照。
/Snapshot Replication快照与复制界面/‘’
群晖备份容灾部署方案
除了双机热备和快照应对意外状况和勒索病毒威胁的方案外,群晖对产品安全非常重视,群晖产品安全事件响应团队(PSIRT)负责管理群晖产品安全漏洞信息收集和调查等,并且在收到提交漏洞的8小时后进行初步评估,在一日内进行漏洞修复。