Cloudflare 在为期两天的故障后所有服务均已恢复至运行状态。

Cloudflare在为期两天的故障后所有服务均已恢复至运行状态。尝试恢复供电虽然我们尚未得到官方确认,但员工告诉我们,有三件事阻碍了发电机重新上线。首先,由于接地故障导致电路跳闸,因此需要对它们进行物理访问并手动重新启动。其次,Flexential的门禁系统没有备用电池供电,因此处于离线状态。第三,现场的夜班人员不包括经验丰富的操作或电气专家——夜班人员包括保安和一名只上岗一周的无人陪伴的技术人员。详情请看:

相关推荐

封面图片

Azure出现设备故障时 微软在澳大利亚数据中心园区只有三名员工

Azure出现设备故障时微软在澳大利亚数据中心园区只有三名员工该报告揭示了一些企业完全失去服务的原因:在此次事故中,许多存储节点被主动关闭或组件烧毁,以至于数据及其所有副本都处于离线状态。此外,在存储节点最终恢复后,托管25万多个数据库的"租户环"也发生了故障,尽管对客户的影响并不均衡。微软表示,两个受影响数据大厅的冷却能力"由七个冷却器组成,其中五个冷却器处于运行状态,两个冷却器处于备用状态(N+2)"。电源下陷(电压骤降)导致五个运行中的冷却器出现故障。此外,只有一台备用机组工作。微软表示,现场工作人员"执行了我们记录在案的应急操作程序(EOP),试图使冷却器重新启动,但没有成功"。该公司似乎被此次事件的规模吓到了,现场没有足够的工作人员,而且其应急程序也没有考虑到问题的规模。公司表示:"由于数据中心园区的规模,夜间团队的人员配备不足以及时重启冷却器。在更好地了解根本问题并采取适当的缓解措施之前,我们已暂时将团队人数从3人增至7人。"关于其EOP,微软表示"对于影响半径如此之大的事件而言,重新启动冷却器的EOP执行起来比较缓慢。""我们正在探索改进现有自动化的方法,以提高对各种电压骤降事件类型的应变能力。"虽然没有足够的员工来执行记录在案的程序,但如果有更多的员工,就能更快地达到同样的效果,因为冷水机组本身就存在问题。初步调查显示,冷水机组没有自动重新启动,"因为相应的泵没有从冷水机组获得运行信号"。"这一点非常重要,因为它是成功重启冷水机组不可或缺的因素,"微软公司表示。"我们正在与我们的OEM供应商合作,调查为什么冷却器没有命令各自的泵启动。"由于冷冻水回路温度已超过阈值",因此无法手动重启故障冷水机组。随着温度的升高,以及基础设施发出的热警告,微软别无选择,只能关闭服务器。这成功地使冷却水回路温度降至所需阈值以下,并恢复了冷却能力。不过,并非一切都能顺利恢复。这次事故影响了七家存储租户,其中五家为"标准"租户,两家为"高级"租户。微软表示,一些存储硬件"因数据大厅温度过高而损坏"。由于存储节点处于离线状态,因此无法进行诊断以排除故障。"因此,我们的现场数据中心团队需要手动移除组件,并逐一重新安装,以确定是哪个(些)特定组件导致每个节点无法启动,"微软说。"为了成功恢复数据和恢复受影响的节点,需要更换多个组件。还需要在个别服务器中临时重新安装一些原始/故障组件。"基础架构即代码自动化也出现故障,"错误地批准了过期请求,并将一些健康节点标记为不健康,从而减缓了存储恢复工作"。微软表示,托管25万多个SQL数据库的租户环的故障进一步减缓了恢复速度。该公司表示:"当我们试图将数据库从性能下降的环路中迁移出来时,SQL手头并没有经过良好测试的工具,而这些工具是为在源环路处于性能下降的情况下迁移数据库而构建的。很快,这就成为我们减轻影响的最大障碍。"最终的PIR预计将在几周内完成。...PC版:https://www.cnbeta.com.tw/articles/soft/1381623.htm手机版:https://m.cnbeta.com.tw/view/1381623.htm

封面图片

韩国Kakao服务几乎恢复全面运行 将制定用户赔偿计划

韩国Kakao服务几乎恢复全面运行将制定用户赔偿计划韩国Kakao公司本周二表示,在因数据中心发生火灾而导致服务中断后,现在其大部分服务几乎都处于全面运行状态,除了一些邮件服务仍处于部分瘫痪状态。由于位于首尔城南区板桥的SKC&C发生火灾,从上周六下午开始,包括KakaoTalk在内的几乎所有Kakao提供的在线服务都出现了严重故障。PC版:https://www.cnbeta.com/articles/soft/1328349.htm手机版:https://m.cnbeta.com/view/1328349.htm

封面图片

韦伯太空望远镜的故障可能由宇宙射线引起的 NIRISS已恢复全面运行

韦伯太空望远镜的故障可能由宇宙射线引起的NIRISS已恢复全面运行遇到宇宙射线是操作任何航天器的一个正常和预期的部分,这次宇宙射线事件影响了NIRISS电子装置的固态电路的逻辑,即现场可编程门阵列。韦伯工程师团队确定,重新启动仪器将使其恢复全部功能。在完成重启后,NIRISS的遥测数据显示出正常的时间,为了完全确认,团队安排了一次测试观测。1月28日,韦伯团队向仪器发出指令进行观测,结果在1月30日确认NIRISS已经恢复了全面的科学运作。近红外成像仪和无缝隙光谱仪(NIRISS)是韦伯的四个科学仪器之一。NIRISS提供近红外成像和光谱能力。作为唯一能够进行孔径掩膜干涉测量的仪器,NIRISS具有独特的能力,能够以高于其他成像器的分辨率捕捉明亮物体的图像。NIRISS是加拿大航天局的一项贡献。霍尼韦尔国际公司与蒙特利尔大学的一个团队合作,设计并建造了该仪器。额外的技术支持由加拿大国家研究委员会的Herzberg天文学和天体物理学研究中心提供。资料来源:NASA,ESA,AndiJames(STSCI)"NASA和CSA合作,在技术上尽可能地处理这个问题,利用对仪器所有操作领域的详细考虑。他们分析了所有可能的方法来安全地恢复电子设备。在执行操作时,在每个中间步骤都进行了审查。"位于马里兰州格林贝尔特的美国宇航局戈达德太空飞行中心的韦伯综合科学仪器模块(ISIM)系统工程师JulieVanCampen说:"我们现在很高兴地报告,韦伯的NIRISS仪器已经重新上线,且性能处于最佳状态。"相关文章:詹姆斯·韦伯太空望远镜刚刚遭遇了一个软件故障...PC版:https://www.cnbeta.com.tw/articles/soft/1342153.htm手机版:https://m.cnbeta.com.tw/view/1342153.htm

封面图片

亚马逊云计算服务出现本月以来第三次故障

亚马逊云计算服务出现本月以来第三次故障亚马逊公司的云计算部门周三再次出现故障,至少是本月以来的第三次,这似乎给一些公司造成了网络问题。AmazonWebServices(简称AWS)表示,已于美东时间周三上午7:35左右开始调查US-East-1区域的一些服务器连接问题,该地区的主机位于弗吉尼亚州北部,覆盖的城市包括波士顿、休斯敦和芝加哥。不到一个小时,AWS就在其状态控制面板上表示,在恢复电力方面开始取得进展。美东时间周三上午8:39,AWS在其网站上表示:“我们现在已经恢复了受影响的数据中心内各方面和网络设备的供电。”——华尔街日报

封面图片

数据中心停电后 Cloudflare控制面板和API出现大面积长时间故障

数据中心停电后Cloudflare控制面板和API出现大面积长时间故障Cloudflare表示:"这个问题会影响依赖于我们API基础设施的所有服务,包括ZeroTrust,WARP,Cloudflared,WaitingRoom,Gateway,Stream,MagicWAN,APIShield,Pages,Workers。""使用Dashboard/CloudflareAPI的客户会受到影响,因为请求可能会失败和/或显示错误"。客户目前在尝试登录其账户时遇到问题,并看到'Code:10000"身份验证错误,并且在尝试访问Cloudflare控制面板时出现内部服务器错误。Cloudflare表示,服务问题不会影响通过CloudflareCDN或CloudflareEdge安全功能进行的缓存文件交付。Cloudflare仪表板故障截屏仪表盘和API问题背后是数据中心停电主要业务停运两个小时后,该公司透露,持续的问题是由于多个数据中心停电造成的。"Cloudflare正在评估断电对数据中心的影响,同时服务也出现故障。我们将定期提供更新,直到问题得到解决,在我们努力缓解问题的过程中,感谢您的耐心等待。"这是Cloudflare自本周以来遭遇的第二次大面积故障,第一次是在10月30日星期一,包括Cloudflare站点和服务(Access,CDNCachePurge,Dashboard,Images,Pages,Turnstile,WaitingRoom,WARP,WorkersKV)在内的多个产品瘫痪。正如该公司在两天后发布的事后报告中解释的那样,周一的故障是由于用于部署新的WorkersKV版本的工具配置错误造成的。Cloudflare的MattSilverlock和KrisEvans说:"客户和Cloudflare团队都使用WorkersKV来管理配置数据、路由查询、静态资产捆绑、身份验证令牌和其他需要低延迟访问的数据。在此次事件中,由于KV使用的新部署工具中的一个错误,KV返回了它认为有效的HTTP401(未授权)状态代码,而不是请求的键值对。"美国东部时间11月02日20:12更新:Cloudflare发言人透露,此次持续中断的根本原因是发电机故障导致的区域性电力问题,导致设施脱机。"我们在俄勒冈州的多个冗余数据中心运行,为Cloudflare的控制平面(仪表盘、日志等)提供电力。一次区域性电力问题影响了该地区的多个设施。这些设施一夜之间无法发电。今天上午,多台发电机发生故障,导致这些设施完全断电,"发言人说。"我们已将故障转移到灾难恢复设施,大部分服务已经恢复。这次数据中心故障影响了Cloudflare的仪表盘和API,但并没有影响通过我们全球网络的流量。我们正在与我们的数据中心供应商合作,调查区域性停电和发电机故障的根本原因。我们预计将根据了解到的情况发布多篇博客,并在博客上线后与您分享。...PC版:https://www.cnbeta.com.tw/articles/soft/1394183.htm手机版:https://m.cnbeta.com.tw/view/1394183.htm

封面图片

文锦渡口岸明早7时起恢复供港鲜活食品清关服务

文锦渡口岸明早7时起恢复供港鲜活食品清关服务特区政府接获深圳当局通知,文锦渡口岸明早7时起恢复为运载鲜活食品车辆提供清关服务,其他车辆及旅客清关服务则继续暂停,直至另行公告。特区政府表示,所有运载鲜活食品车辆可恢复经文锦渡口岸进入香港,接受食环署食安中心人员抽查。其他车辆及跨境旅客需使用其他陆路口岸往返内地。特区政府会继续与深圳当局保持沟通及协调,如有关口岸的清关服务进一步恢复运作,会适时公布。文锦渡口岸早前因暴雨引起的水浸导致供电系统故障,需进行维修,需暂时停止旅客及货运清关服务。2023-10-1710:20:54

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人