Azure出现设备故障时微软在澳大利亚数据中心园区只有三名员工

Azure出现设备故障时微软在澳大利亚数据中心园区只有三名员工该报告揭示了一些企业完全失去服务的原因：在此次事故中，许多存储节点被主动关闭或组件烧毁，以至于数据及其所有副本都处于离线状态。此外，在存储节点最终恢复后，托管25万多个数据库的"租户环"也发生了故障，尽管对客户的影响并不均衡。微软表示，两个受影响数据大厅的冷却能力"由七个冷却器组成，其中五个冷却器处于运行状态，两个冷却器处于备用状态（N+2）"。电源下陷（电压骤降）导致五个运行中的冷却器出现故障。此外，只有一台备用机组工作。微软表示，现场工作人员"执行了我们记录在案的应急操作程序(EOP)，试图使冷却器重新启动，但没有成功"。该公司似乎被此次事件的规模吓到了，现场没有足够的工作人员，而且其应急程序也没有考虑到问题的规模。公司表示："由于数据中心园区的规模，夜间团队的人员配备不足以及时重启冷却器。在更好地了解根本问题并采取适当的缓解措施之前，我们已暂时将团队人数从3人增至7人。"关于其EOP，微软表示"对于影响半径如此之大的事件而言，重新启动冷却器的EOP执行起来比较缓慢。""我们正在探索改进现有自动化的方法，以提高对各种电压骤降事件类型的应变能力。"虽然没有足够的员工来执行记录在案的程序，但如果有更多的员工，就能更快地达到同样的效果，因为冷水机组本身就存在问题。初步调查显示，冷水机组没有自动重新启动，"因为相应的泵没有从冷水机组获得运行信号"。"这一点非常重要，因为它是成功重启冷水机组不可或缺的因素，"微软公司表示。"我们正在与我们的OEM供应商合作，调查为什么冷却器没有命令各自的泵启动。"由于冷冻水回路温度已超过阈值"，因此无法手动重启故障冷水机组。随着温度的升高，以及基础设施发出的热警告，微软别无选择，只能关闭服务器。这成功地使冷却水回路温度降至所需阈值以下，并恢复了冷却能力。不过，并非一切都能顺利恢复。这次事故影响了七家存储租户，其中五家为"标准"租户，两家为"高级"租户。微软表示，一些存储硬件"因数据大厅温度过高而损坏"。由于存储节点处于离线状态，因此无法进行诊断以排除故障。"因此，我们的现场数据中心团队需要手动移除组件，并逐一重新安装，以确定是哪个（些）特定组件导致每个节点无法启动，"微软说。"为了成功恢复数据和恢复受影响的节点，需要更换多个组件。还需要在个别服务器中临时重新安装一些原始/故障组件。"基础架构即代码自动化也出现故障，"错误地批准了过期请求，并将一些健康节点标记为不健康，从而减缓了存储恢复工作"。微软表示，托管25万多个SQL数据库的租户环的故障进一步减缓了恢复速度。该公司表示："当我们试图将数据库从性能下降的环路中迁移出来时，SQL手头并没有经过良好测试的工具，而这些工具是为在源环路处于性能下降的情况下迁移数据库而构建的。很快，这就成为我们减轻影响的最大障碍。"最终的PIR预计将在几周内完成。...PC版：https://www.cnbeta.com.tw/articles/soft/1381623.htm手机版：https://m.cnbeta.com.tw/view/1381623.htm

在Telegram中查看

相关推荐

微软数据中心故障新加坡多个机构网络服务中断

微软数据中心故障新加坡多个机构网络服务中断新加坡多个机构的网络服务星期三（2月8日）因数据中心故障中断，受影响的包括新加坡中央公积金局、易通卡公司、新加坡滨海艺术中心和南洋理工大学。发生故障的是微软云端服务平台Azure东南亚地区的数据中心。根据Azure网站上的声明，数据中心星期三上午3时19分发生电流突波（powersurge），使得一部分冷却单元无法运作，数据中心的温度也在抢修过程中升高。为了避免硬件损坏，工程师决定主动关闭部分计算和存储设备，这导致多个下游服务受到影响。直至昨日晚间10时，Azure宣布数据中心的冷却系统已经成功修复，并开始逐步有序地重启之前关闭的设备。投稿：@ZaiHuabot频道：@TestFlightCN

1. 运行微软软件的设备操作出现全局故障。

1.运行微软软件的设备操作出现全局故障。对银行、公用事业、航空公司、媒体、电信、蜂窝网络、互联网等造成重大干扰。美国民航局报告称，由于通讯问题，美国航空已禁止其所有飞机起飞。由于全球网络故障，911救援资源在美国多个州停止工作。西班牙机场遭遇“电脑系统事故”，可能导致航班延误——运营商Aena公司柏林机场报告称，由于技术故障，办理登机手续可能会延迟。-受重大IT中断影响的主要银行、媒体和航空公司-某些Microsoft服务受到严重干扰-美国多个州的911服务中断-伦敦证券交易所的服务中断2.Windows世界各地的用户都会在屏幕上看到BSOD错误或蓝屏死机CrowdStrike中断后，西班牙所有机场都遭遇了“计算机系统事件”。印度新闻频道TimesNow报道称，全球宕机的原因是“最近的CrowdStrike更新”。由于“全球重大混乱”，土耳其航空公司已暂停航班

1. 1. 运行微软软件的设备操作出现全局故障。

1.1.运行微软软件的设备操作出现全局故障。对银行、公用事业、航空公司、媒体、电信、蜂窝网络、互联网等造成重大干扰。美国民航局报告称，由于通讯问题，美国航空已禁止其所有飞机起飞。由于全球网络故障，911救援资源在美国多个州停止工作。西班牙机场遭遇“电脑系统事故”，可能导致航班延误——运营商Aena公司柏林机场报告称，由于技术故障，办理登机手续可能会延迟。-受重大IT中断影响的主要银行、媒体和航空公司-某些Microsoft服务受到严重干扰-美国多个州的911服务中断-伦敦证券交易所的服务中断2.Windows世界各地的用户都会在屏幕上看到BSOD错误或蓝屏死机CrowdStrike中断后，西班牙所有机场都遭遇了“计算机系统事件”。印度新闻频道TimesNow报道称，全球宕机的原因是“最近的CrowdStrike更新”。由于“全球重大混乱”，土耳其航空公司已暂停航班

微软结束将数据中心置于海底的实验

微软结束将数据中心置于海底的实验2020年，该公司公布了纳蒂克项目最大规模的测试结果。它证实了自己的理论，即把数据中心置于水下深处，就不会像正常安装在陆地上那样遇到许多可能导致硬件故障的问题。微软声称，与陆地数据中心相比，水下服务器的设备故障率仅为陆地数据中心的1/8。此外，这种水下服务器可在90天内完成设置和安装，而陆地数据中心的建设则需要长达两年的时间。但现在，微软已悄然证实，它已结束了水下数据中心实验。据数据中心动态网站报道，微软云运营与创新（CO+I）部门主管诺埃尔-沃尔什（NoelleWalsh）表示，公司"不会在世界任何地方建设海底数据中心"。威尔士补充道：我的团队为此付出了努力，并取得了成功。我们学到了很多关于海平面以下作业、振动和对服务器影响的知识。因此，我们将把这些经验应用到其他案例中。微软也发表了声明，表示未来不会继续建设水下数据中心：虽然我们目前没有在水中建立数据中心，但我们将继续把纳蒂克项目作为一个研究平台，探索、测试和验证有关数据中心可靠性和可持续性的新概念，例如液体浸泡。让我们拭目以待微软，尤其是微软可能需要建立更多的数据中心，以跟上当前提供人工智能服务的趋势。...PC版：https://www.cnbeta.com.tw/articles/soft/1435870.htm手机版：https://m.cnbeta.com.tw/view/1435870.htm

数据中心停电后 Cloudflare控制面板和API出现大面积长时间故障

数据中心停电后Cloudflare控制面板和API出现大面积长时间故障Cloudflare表示："这个问题会影响依赖于我们API基础设施的所有服务，包括ZeroTrust,WARP,Cloudflared,WaitingRoom,Gateway,Stream,MagicWAN,APIShield,Pages,Workers。""使用Dashboard/CloudflareAPI的客户会受到影响，因为请求可能会失败和/或显示错误"。客户目前在尝试登录其账户时遇到问题，并看到'Code：10000"身份验证错误，并且在尝试访问Cloudflare控制面板时出现内部服务器错误。Cloudflare表示，服务问题不会影响通过CloudflareCDN或CloudflareEdge安全功能进行的缓存文件交付。Cloudflare仪表板故障截屏仪表盘和API问题背后是数据中心停电主要业务停运两个小时后，该公司透露，持续的问题是由于多个数据中心停电造成的。"Cloudflare正在评估断电对数据中心的影响，同时服务也出现故障。我们将定期提供更新，直到问题得到解决，在我们努力缓解问题的过程中，感谢您的耐心等待。"这是Cloudflare自本周以来遭遇的第二次大面积故障，第一次是在10月30日星期一，包括Cloudflare站点和服务（Access,CDNCachePurge,Dashboard,Images,Pages,Turnstile,WaitingRoom,WARP,WorkersKV）在内的多个产品瘫痪。正如该公司在两天后发布的事后报告中解释的那样，周一的故障是由于用于部署新的WorkersKV版本的工具配置错误造成的。Cloudflare的MattSilverlock和KrisEvans说："客户和Cloudflare团队都使用WorkersKV来管理配置数据、路由查询、静态资产捆绑、身份验证令牌和其他需要低延迟访问的数据。在此次事件中，由于KV使用的新部署工具中的一个错误，KV返回了它认为有效的HTTP401（未授权）状态代码，而不是请求的键值对。"美国东部时间11月02日20:12更新：Cloudflare发言人透露，此次持续中断的根本原因是发电机故障导致的区域性电力问题，导致设施脱机。"我们在俄勒冈州的多个冗余数据中心运行，为Cloudflare的控制平面（仪表盘、日志等）提供电力。一次区域性电力问题影响了该地区的多个设施。这些设施一夜之间无法发电。今天上午，多台发电机发生故障，导致这些设施完全断电，"发言人说。"我们已将故障转移到灾难恢复设施，大部分服务已经恢复。这次数据中心故障影响了Cloudflare的仪表盘和API，但并没有影响通过我们全球网络的流量。我们正在与我们的数据中心供应商合作，调查区域性停电和发电机故障的根本原因。我们预计将根据了解到的情况发布多篇博客，并在博客上线后与您分享。...PC版：https://www.cnbeta.com.tw/articles/soft/1394183.htm手机版：https://m.cnbeta.com.tw/view/1394183.htm

微软确认水下数据中心项目已停运

微软确认水下数据中心项目已停运该海底项目多年来一直沉寂，但一直被媒体和其他公司视为一项正在进行的计划。该公司云运营+创新部门负责人诺埃尔·沃尔什告诉DCD：“我不会在世界任何地方建设海底数据中心。”该公司于2013年启动了Natick项目，并最终于2018年在苏格兰海岸部署了一个测试系统。855台服务器中只有6台发生故障，而陆地上的135台服务器中则有8台发生故障，微软指出稳定的外部温度是成功的一个因素。另一个原因是，数据中心充满了惰性氮气，而陆地数据中心则充满了活性氧气。微软在另一份声明中告诉DCD：“虽然我们目前还没有在水中建立数据中心，但我们将继续使用Natick项目作为研究平台，探索、测试和验证有关数据中心可靠性和可持续性的新概念，例如液体浸没。”去年，中国的海兰信公司在海南岛沿海部署了一个重达1,433吨的商业水下数据中心。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人