处理器和内存负载、服务器温度和室温的统计信息

发布时间:2020-06-08

阅读量:830

随着人们向基于服务的基础设施部署和自动化程度的提高,存储管理员的角色正在发生变化。智能运维(AIOps)提供了一个框架,既可以减轻资源管理中繁琐任务的负担,同时也解决了通过扩展人力资源无法解决的挑战。

背景

AIOps是调研机构Gartner公司在2016年创造的一个术语。它描述了三个学科(自动化、性能管理和服务管理)组成一个框架来改进基础设施管理员的能力,其实现由多个层组成。

•第1层–数据源。实现自动化以及管理员执行的典型任务需要配置和使用数据。这包括来自系统的遥测和应用程序。

•第2层–实时处理。这意味着实时收集和处理遥测数据,以获取即时价值。

•第3层-规则/模式。需要使用已经确定的规则和模式来分析数据。供应商已经在开发算法,这些算法可以使用PB级的遥测分析,并将其转换为诸如异常检测和故障诊断之类的工具。

•第4层–域算法。其中包括特定于站点的知识,以了解本地化的使用模式和要求。

•第5层–自动化。使用应用程序接口(API)和命令行界面(CLI)来驱动诸如供应和退役(面向客户)之类的任务。这还包括自动化性能管理,例如在可用基础设施中重新平衡工作负载。

跨越所有这些层的是使用机器学习来观察和检测遥测数据中的趋势,异常,这对于工作人员而言是不切实际或无法计算的。因此需要了解人工智能/机器学习如何协助提供更有效的数据和存储管理。

人为因素

为什么企业需要在存储管理中引入诸如AIOps之类的工具?虽然全球创建的信息量继续呈指数级增长,但企业中生成的数据(更重要的是存储在企业中的数据)也呈指数级增长。以前被丢弃甚至没有创建的数据如今被视为具有某种可感知的未来价值。企业越来越多地使用机器学习和人工智能,从越来越多的机器生成的数据获取信息。企业现在正在存储数PB字节的信息,并希望对此进行实际操作。

敏捷性

业务流程正在推动对数据存储容量的更大需求,但这只是IT组织所面临挑战的一方面。平均修复时间(MTTR)对于确保基础设施可用性水平接近100%变得至关重要。IT组织通常希望在问题发生之前就识别并解决问题,而不是等待严重的失败。

•存储和数据保护中对API的需求;

•存储的智慧;

•存储管理和DevOps。

减少或管理硬件干预措施还有其他积极方面。IT部门希望将工程师在数据中心更换故障设备的时间降到最低。任何数据中心干预都是一种风险。众所周知,工程师会因更换而拔出错误的硬件,或者意外地碰到设备并造成意外的停机或重启。

随着企业之间的竞争,从数据分析中获取价值的时间越来越短。这意味着开发人员希望在更短的周期内访问存储设备,最好是自动化和按需访问。随着资源的创建、使用和返回到数据池中,人们预计其配置越来越灵活,这是任何存储管理员都无法有效跟踪的。

第1层-指标

为了实现有效的AIOps,系统需要测量存储操作信息的元数据和度量。这些端点从存储系统的物理和逻辑方面收集数据。例如,单个HDD硬盘或SSD硬盘操作的数据提供了有关温度、永久性和瞬态介质故障、吞吐量、性能和设备正常运行时间的信息。此集合扩展到存储机箱,记录有关前端端口活动、处理器和内存负载、服务器温度和室温的统计信息。

ALt4518550522397696处理器和内存负载、服务器温度和室温的统计信息

数据收集不仅限于硬件。存储软件非常复杂,许多供应商已将其设计模块化。软件端点可以跟踪内部应用程序崩溃、过度使用内存、硬件驱动程序中的错误以及甚至用于驱动软件的命令的使用。最后一点看起来似乎是一个不寻常的指标,但是,查看最终用户是否在充分利用可用的命令功能或配置正确的最佳实践选项集可能会很有用。

第2、3和4层–实时处理

如果无法实时进行整理和分析,那么所有这些信息都将毫无用处。通常,人们看到两层分析方法。首先,供应商将数据整理到大型的中央存储库或数据仓库中,这些存储库或数据仓库代表了整个客户安装群中数以万亿计的各个端点数据。

这些数据集合提供了足够的信息,可以对硬盘故障或可能影响整个客户群的配置问题进行统计分析。作为信息的长期存档,供应商使用这些数据来修复硬盘固件中的错误或主动替换易发生故障的介质。这个数据源还可用于验证存储操作系统软件的质量。

最终,这种类型的数据收集对供应商有利,因为它有助于提高系统可用性并减少由字段引发的支持调用的数量。不过,客户也看到了好处。通过代码更新可能引入的错误或其他问题可以避免或减轻。向管理员提供信息以做出明智的决策,而不是遇到其他客户已经遇到的问题。

异常现象

整理大量单个客户数据的第二个好处是能够使用机器学习和人工智能技术,突出配置中的异常或问题。这些场景可能包括确定性能热点、容量或吞吐量的意外增长,或基础设施的其他组件(如主机或虚拟机监控程序层)中的配置数据问题。

供应商越来越多地提供识别勒索软件,在多个硬件配置之间重新平衡工作负载,并为将来的升级或硬件更换提供建议的功能。最后一个选项特别有用,因为它允许管理员建立一个模型,该模型选择最有效的新硬件配置进行升级和替换。

人工智能/机器学习

在讨论过程中,都提到了机器学习和人工智能的使用。为什么这一点作为现代基础设施管理的特征变得如此重要?在存储领域,管理员将认识到许多问题很容易消耗数小时或数天的工作时间。


尽管在设计上取得了这些进步,但是仍然出现了人类难以识别的异常现象(勒索软件就是一个很好的例子)。人工智能提供了自动分析大量数据并创建经过训练的模型的功能,然后可以对活跃系统进行实时分析。

新工具

人们需要新的管理工具才能利用AIOps的优势。存储供应商已经开始从基于GUI的系统转移到管理界面,现在提供命令行界面(CLI)和应用程序接口(API)。命令行界面(CLI)提供了将命令集成到脚本和自动构建过程中的能力。应用程序接口(API)提供了更高级的交互级别,尤其是在提取报告或遥测数据时。

这并不意味着图形界面就此终结。实际上,更加精明的存储供应商已经转向使用GUI作为显示系统状态,显示增长和性能趋势的仪表板,并且通常转向基于异常的系统基础设施可视化。