2018年08月22日 星期三
腾讯云丢数据 云安全遭拷问
本报记者 刘园园
视觉中国

    声称云服务器数据可靠性达99.9999999%的腾讯云,却把数据弄丢了。

    近日,创业公司“前沿数控”怒怼腾讯云,称其放在腾讯云服务器上的数据全部丢失,给其公司业务带来灾难性损失。腾讯云随后对这一事故予以承认并表达歉意。目前,双方已制定出共同认可的业务解决方案。虽然事件暂告一段落,但此事还是引发了公众对云服务安全的关注。

    事因“屋漏偏逢连夜雨”

    被怒怼后,腾讯云公开了此次故障的来龙去脉。

    腾讯云在其官方微信公号发布《关于客户“前沿数控”数据完整性受损的技术复盘》,其在该文中解释说,当天运维人员收到仓库Ⅰ空间使用率过高告警,从仓库Ⅰ选择一批云盘搬迁至新仓库Ⅱ。为加速搬迁,手动关闭了迁移过程中的数据校验。

    搬迁完成后,为了释放空间,运维人员对仓库Ⅰ中的源数据发起回收操作。当天晚上监控发现仓库Ⅱ部分云盘出现异常。

    “该故障缘起于因磁盘静默错误导致的单副本数据错误,再加上数据迁移过程中的两次不规范操作,导致云盘的三副本安全机制失效,并最终导致客户数据完整性受损。”腾讯云总结说。

    北京理工大学网络攻防对抗技术研究所所长闫怀志用“屋漏偏逢连夜雨”来形容这次事故。

    首先,腾讯云提供的云盘因所在物理硬盘固件漏洞导致静默错误。闫怀志解释说,硬盘存储硬件并非完美,因此设计了硬盘出错及异常报警机制。但该机制并不能将漏洞与错误全部识别并进行正确处理,偶尔会出现“漏网之鱼”,而且只有在用户使用的时候才会暴露出来,也就是出现静默错误。

    “静默错误一旦发生在元数据(用来描述数据特征的系统数据)中,将造成不可挽回的数据损失。”闫怀志对科技日报记者说。

    但他认为,更重要原因是云服务提供商违反了基本的数据迁移操作规范。因为正常的数据迁移默认使用数据校验功能,此外,还需对源数据仓库进行一定期限的数据保全,待确认迁移数据无异常后,方可进行仓库回收。

    而运维人员的操作连续违反上述操作规范,致使数据迁移出现异常后,又提前对源数据进行仓库回收。通常云服务商会采取对数据进行3个备份的机制来保障数据安全性,但两次违规操作,使数据异常扩散至三副本,最终导致数据无法恢复。

    三分靠技术七分靠管理

    云服务到底安不安全?所谓的数据可靠性达99.9999999%,夸张吗?

    “这些年与数据安全相关的技术一直在不停选代、升级,可以说已非常成熟。”华云数据执行副总裁、首席技术官谭瑞忠在接受科技日报记者采访时表示。

    谭瑞忠认为,腾讯云声称云服务器数据可靠性达99.9999999%,是单纯从技术角度计算出来的,并没有夸大。但很多时候存储在云端的数据丢失、被破坏或被盗取不是因为数据安全技术不可靠,而是人为原因。

    拿此次腾讯云事故来说,谭瑞忠认为,假如只是磁盘静默错误导致迁移数据时出错,而并没有后续的运维人员违规操作,“前沿数控”的数据完全可以通过数据三副本机制找回。

    “木桶理论警告我们,无论是技术短板还是管理短板,都会拉低云计算的整体安全性。”闫怀志说,这次事故再次证明信息安全三分靠技术,七分靠管理。

    闫怀志认为,企业不能天真地将云计算视作万能良方,认为将数据上云就能保障安全、一劳永逸,因为绝对的安全是不存在的。

    在闫怀志看来,从根本上来说,云服务安全保障没有什么捷径可走,应从技术和管理两方面入手,完善云存储信息安全保障体系。比如,在技术上,可以强制进行数据安全全流程校验,提升数据运维的流程化、规范化、自动化水平,减少甚至避免人工干预。在管理上,不仅应制定更为完善的管理体系,更应注重管理制度及措施的落实。

    “从行业发展趋势来看,云服务商都在努力将人工干预降到最低,提高云服务运营的自动化。”不过,谭瑞忠还建议,应推动云服务的开放性,也就是让用户的数据可以在公有云、私有云等不同云环境甚至不同云服务商之间自由迁移,并实现数据的实时同步,这样相当于给用户数据上了“双保险”。

    数据价值界定仍是难题

    此次腾讯云事故引起关注的另一个细节在于,腾讯云与“前沿数控”曾就赔偿问题产生较大分歧。

    据报道,“前沿数控”向腾讯云提出了1100万元的赔偿要求,而腾讯云则给出了“赔偿+补偿”总金额为13万余元的解决方案。

    “由于数据具有虚拟性和实质性的双重属性,数据价值的界定一直是老大难问题,在数据损失赔偿方面也容易产生分歧。”闫怀志说。

    “数据对企业生存越来越重要。”谭瑞忠告诉科技日报记者,但目前对数据价值的评估确实还没有成熟的方法。他认为,在出现类似事故后对数据价值的判断可以从多个维度来考虑。

    谭瑞忠解释说,判断数据价值的维度应该包括:客户业务对数据的依赖性,这需要对客户公司运营的方方面面进行深入了解;数据的破坏量,比如若只丢失了30分钟的数据,则只考虑30分钟数据的影响;云服务提供商与客户分别承担的责任等。就此次事件,谭瑞忠认为,除了将责任归咎于云服务商,也应考虑到客户并未对数据采取保护措施的责任。

    闫怀志也认为,云安全的责任问题牵涉到云服务提供商和客户两方面。针对本次事故而言,云服务提供商应负主要责任,而客户也该采取必要的备份措施以防万一,比如开启快照功能对重要数据定期备份等,绝不能做“甩手掌柜”。

    在数据价值界定问题上,闫怀志认为,云服务商在为用户提供云服务时,可提前进行安全风险评估,协商确认数据价值。用户如果声称自己的数据价值高,云服务提供商就可据此要求收取相应较高的服务费用,做到责权利平衡。在发生事故进行赔偿时,也有参考标准。

    “另外还可考虑设立数据第三方保险索赔制度。”闫怀志说,也就是为需要保护的数据投保并缴纳相应保费,一旦出现数据受损的情况,可根据投保额进行索赔,这样就转移了云计算服务提供商和用户的损失风险。

京ICP备06005116