如何利用AI提高数据中心运行时间并减少成本？

发布时间：2021-06-16 14:42:56 所属栏目：大数据来源：互联网

导读：硬件故障在大型数据中心和云服务基础设施中非常普遍，这些故障可能导致违反服务水平协议（SLA）并造成巨大经济损失。内存故障是当今数据中心中最严重的硬件故障之一，众所周知，它严重影响了系统的可靠性、可用性和可维护性（RAS）。这些故障可能是由超出正

硬件故障在大型数据中心和云服务基础设施中非常普遍，这些故障可能导致违反服务水平协议（SLA）并造成巨大经济损失。

内存故障是当今数据中心中最严重的硬件故障之一，众所周知，它严重影响了系统的可靠性、可用性和可维护性（RAS）。这些故障可能是由超出正常使用范围的多种因素引起的，包括制造缺陷以及极端的环境或操作条件。

虽然普遍接受的技术，例如，纠错码（ECC）和可纠正错误，基于阈值的预测性故障分析（PFA））可克服双列直插式内存模块（DIMM）的一些可纠正错误，但它们具有成本、可靠性、覆盖范围和性能方面的影响。

可纠正错误数量的激增可能导致服务器性能下降，甚至导致拒绝服务。此外，ECC和基于阈值的可纠正错误的PFA不能帮助克服无法纠正的错误，如灾难性故障通常导致崩溃。

对于严重依赖服务器可靠性、可用性和可维护性的组织，英特尔内存故障预测（Intel MFP）是理想的解决方案。对于当今的数据中心而言，提前预测未来的内存故障已变得至关重要。通过分析历史数据以预测潜在的灾难性事件，英特尔®MFP可以在内存故障事件发生之前对其进行预测。

该解决方案具有多项创新和原始功能。它基于历史数据来预测行、列和单元格中的微型故障，并使用低开销的在线学习方法来提高其预测精度并避免干扰关键的计算任务。

这也使Intel MFP能够为主动内存故障管理生成估计的内存运行状况评分，从而使用户能够采取相应的措施。英特尔MFP与供应商无关，并且可以与其他数据中心管理解决方案（包括英特尔数据中心管理器（Intel DCM））一起使用。

将与内存故障相关的服务器崩溃减少40％

在腾讯的一个案例研究中，英特尔MFP算法的初步协作测试显示出快速的结果，并将内存故障和系统停机时间减少了五倍。合作伙伴还通过在操作系统级别明智地避免出现内存故障，直到更换了该内存模块为止，从而扩展了此支持。

在与美团的类似案例研究中，该公司发现由于内存错误导致的服务器崩溃减少了40％。该公司通过将Intel MFP集成到其现有数据中心管理解决方案中，监控了服务器内存模块的运行状况。通过分析以前由其数据中心管理软件收集的数据，他们能够为每个DRAM模块生成预测分数，然后采取适当的措施来维护其SLA并最大化服务正常运行时间。

借助新功能，英特尔与全球领先的AMI合作，通过其BIOS、BMC和安全解决方案为全球互联数字基础架构提供电源、管理和保护，并决心将这种支持扩展到整个行业。

因为捕获和分析内存错误需要UEFI和BMC固件之间紧密的联系，所以AMI致力于使Intel MFP易于被现有和将来的服务器平台采用。

捕获错误后，它们将由BIOS记录，然后某些元数据信息将传递到BMC固件。然后，BMC固件将获取此元数据，并通过Intel MFP引擎运行，以计算内存模块的运行状况得分。当检测到新的错误时，AMI解决方案将跟踪每个内存模块的运行状况评分，并公开结果供系统管理员进行分析。

AMI的默认实现在BUI的Web UI中提供当前的内存模块运行状况得分信息，并通过遵循DMTF Redfish标准的RESTful API公开相同的内存运行状况得分信息。

（编辑：宁德站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

数据管理战略企业可实	生活中无处不在的数据
选择嵌入式分析供应商	将让业务繁荣发展的十