首页 > IT > 正文

人工智能在IT运维中研究和应用

文章来源:
字体:
发布时间:2019-05-13 14:11:25

人工智能在IT运维中研究和应用


金融行业是当今实现电子化发展最靠前的行业之一,商业银行尤其如此。IT建设在此背景下也成为企业重中之重,几乎所有的重要业务都需要信息系统支撑。这对于信息系统的业务连续性要求非常高。一旦信息系统出现异常或者处理不及时,损失将会非常惨重。因此金融行业的IT运维首要任务是确保重要业务在运营中断事件发生后快速恢复,降低或消除因重要业务运营中断造成的影响和损失,保障业务持续运营。



系统多:电子化的高速发展直接反应在商业银行需要管理的信息系统规模越来越庞大。大量的系统占用了大量的硬件设备,产生了大量的数据。尤其是移动互联网等业务的发展,各类分布式技术的使用,大数据的使用等。系统的设备数量在这几年几乎是爆炸式的增长。这么多的系统都需要监控和管理好,对IT运维是非常大的挑战。


环境多:这里的环境多主要是指技术产品比较多。不同业务系统的特点要求差异化的技术产品。数据中心存在着众多不同型号的主机、存储、网络、中间件、数据库、大数据和分布式等产品。新业务的推广和新技术的运用是一个持续的过程。所以技术产品的监控和管理也是很大的挑战。


数据多:这里的数据仅仅是指运维过程中产生的可监控数据,非业务数据。即便如此,大量的系统、产品,产生了大量的监控数据。这里包含数据指标多和指标数据多两个方面。大量的指标要一一监控并制订规则费时费力。单个指标不停产生的数据量也非常可观,这些大数据也存在挖掘价值。


面对如此大规模的系统和数据需要进行管理,传统的监控和自动化运维存在一些痛点。数据中心现有的性能容量分析手段仅仅做到对性能容量的单项指标监控和进行大致的趋势分析。例如监控CPU、内存、IO、文件系统使用率等信息,然后根据经验人为设定阈值,超过阈值就进行告警。这种自动化运维是“基于人为指定规则”的模式,需要大量人力资源来分析和制订规则。


当告警发生后,还需要人及时登录系统分析是什么原因导致告警的产生。这一点完全依赖处理人的经验和水平。对于性能容量类问题的分析,人力运维是基于专家经验和产品理论的基础,无法快速准确定位到问题根源,在日常处理问题的过程中存在不足。因此当前的运维能力是不能做到对问题根源进行深度和快速分析的。


人工智能为IT运维带来转机

1.人工智能与机器学习。人工智能(Artificial Intelli-gence)是计算机科学的一个分支,是包含应用计算机科学、生物学、心理学、神经科学、数学、统计学和哲学等学科的科学和技术。人工智能的应用领域非常广泛,尤其在智能机器人、自然语言处理、图像识别、语音识别、专家系统、智能搜索等应用场景表现突出。“机器学习”(Machine Learning)是人工智能的核心研究领域之一,也是实现人工智能的核心方法。机器学习顾名思义,是赋予机器(计算机)学习的能力,通过分析已有的数据,获取数据的内部规律或者价值,并且实现对新数据的处理方法。


机器学习最强大的能力是分类和回归。众多机器学习模型都是为了实现这两种能力。各种应用场景都是基于这两种能力的应用。分类能力很好理解,例如判断一张图片是猫还是狗。回归则是预测连续的值,例如根据房屋的地理位置、面积等特征预测房价。在IT运维中,我们需要机器学习的分类能力来判断当前指标是正常还是异常,需要回归能力来预测容量等。将人工智能技术运用到IT运维中,将为解决传统IT运维面临的难题带来转机。


2.智能化运维AIOps。人工智能技术运用在IT运维中,提升运维能力,这就是AIOps(Artificial Intelligence for IT Operations)智能化运维。智能运维是在自动化运维的基础上,利用机器学习的能力,改进和完善现有运维方式。智能运维涉及场景也非常广泛,包含异常检测、异常预测、根因分析、舆情监控、异常自愈、智能变更、问答机器人、容量管理和容量预测等。智能运维的核心是挖掘海量运维数据的价值。因此在智能运维建设中涉及到大数据技术、人工智能技术、自动化技术等很多领域。