atlassian说明断线原因出在更新服务搞乌龙 – 十轮网-九游会官网真人游戏第一品牌

协同软件confluence及jira服务软件的供应商atlassian网站4月初断线使多项软件用户无法使用云计算服务,估计还要4月下旬才能完全恢复服务。经过2个星期atlassian高层上周说明断线原因,是更新服务过程中团队沟通及技术失误造成。

上周的说明中,atlassian首席技术官sri viswanath表示断线并非出于网络攻击,或是系统大规模运行的错误,而是关闭旧式软件时出现操作失误。atlassian为了推出jira服务管理及jira软件的集成式app,名为insight–资产管理,必须关闭客户网站的旧app。

原有计划是工程团队提出要求,提供app的id,由另一个团队执行维护script来关闭旧app执行实例。但提出要求的团队给错了,给成了整个云计算网站的id。而执行关闭app任务的团队,原本应该使用日常维护专用、可回复作业的删除模式,却不慎使用了“永久删除”的模式,后者是用于法规遵循目的的删除任务。两项错误集合起来,导致将近400家托管在aws上的客户网站遭到删除。

发生断线事故后,该公司工程团队必须从备份回复网站。4月5日起,atlassian是以1次最多60个租户批次回复。每批完整作业需4到5天,这也使得回复作业大幅拉长。

viswanath承认atlassian团队的回应时间的确未达标准,他们更新为同时进行多个批次作业,以加速服务回复。此外,过去网站回复是半自动作业,这是因为需要人工验证每个网站的客户资料,现在他们也转向“更为自动化”的流程。

该公司表示,到4月12日为止,所有受影响的用户中99%的用户服务已经回复。大部分回复的客户中,都没资料损失,但仍然有客户表示,事件发生前损失最高5分钟的资料。

根据atlassian网站,jira software、jira service management、jira work management、confluence、opsgenie、atlassian access、atlassian developers、状态页等网站仍然显示有问题。

atlassian表示,除了加速回复剩下的客户网站,该公司将提供1对1支持,通过工单每日回应,以及事后报告。

发表评论