全国统一服务热线 0791-87879191

新闻资讯
产品中心
楼宇自控 智能照明 智能建筑管理 智能传感 智慧物联 智能组态 阀门自控 智慧监管
经典案例
楼宇 工厂 酒店 文博 枢纽 行业
关于我们

康沃思以数字、 物联、 数据、 AI为基础,以自主研发的DDC产品和自主领先的物联网框架,聚焦智能建筑和行业数字化转型,建设物联网基础设施。

0791-87879191

10万台服务器秒级管控 腾讯云如何使用AIOps进行日常管理?

时间:2023-01-16

领取程序员8分技术早餐

1 编者按

AIOps,指的是基于算法的IT运维(IT),是AI定义的一个新范畴,源自业界之前提到的ITOA(IT和)。 我们已经进入了一个使用数据科学和算法来自动化传统 IT 操作任务和流程的时代。 算法被集成到工具中,帮助企业进一步简化操作和维护,将人们从耗时且容易出错的流程中解放出来。

在过去的几年里, 、 、 等新技术不断涌现并流行起来,CI/CD 等概念也开始生根发芽。 采用智能化运维方式,提升了运维效率,减少了人工、流程操作带来的问题。 运维故障成为企业突破自动化运维束缚的最佳途径,“AIOps”(IT)应运而生。

腾讯云以海量网络服务为基础,经历了互联网门户时代、WEB2.0时代的历史变革智能监控系统,经历了不同形态产品的技术挑战,逐步积累了一套成熟的智能运维体系和运维策略,和移动互联网时代。 ,实现超过20万台设备秒级管控。

本文将结合腾讯云织云系统的搭建过程,详细讲解腾讯云如何通过对数据的智能存储和分析,对IT系统各个环节的问题进行快速定位、排查和预测,从而为其他行业实施AIOps。企业实践提供了一些方法、思路和解决方案。

2 腾讯云自动化运维体系及建设思路

腾讯云的智能运维系统不是一蹴而就的。 AIOps涉及的技术智能监控系统,从AI的角度来看,主要包括机器学习算法,以及与大数据相关的技术。 从Ops的角度来看,他们主要关注运维相关技术的自动化和监控。 因此,AIOps必须建立在高度完善的运维自动化之上。 只有没有 Ops 的 AI 不能被认为是 AIOps。 在谈AIOps之前,我们先来看看腾讯云自动化运维系统的整体运维框架。

运维对象识别

构建以业务价值为导向的运维体系,首先要明确运维对象。 为了更好地对运维对象进行分类管理,腾讯云将运维对象分为网络、设备、系统、组件、业务、用户六层。

(运维对象的层级划分)

图中展示了运维对象的层级划分结构。 从下到上,最底层是网络资源层,主要包括资源监控、云资源、交换机和负载均衡; 上面是设备资源层,主要负责主机监控、运行状态监控和资源池管理,上层是系统资源层,主要包括用户/密码管理、系统初始化、OS/内核和基本代理; 业务层和资源层分为API接口层,逻辑层和数据层主要用于组件选择、监控、包管理、配置管理; 业务层包括业务架构、分发、容灾、监控; 最上层是客户端适配,包括手机型号、调度方式、监控等模块,分层抽象管理可以让硬件运维对象和应用运维对象更加清晰。

(图运维对象模型)

不同的运维对象包括配置属性、业务属性、监控属性、工具相关属性,每个属性都随着运维对象生命周期的变化而变化。

CMDB配置管理

在对运维对象进行识别、抽象、标准化、配置后,CMDB可以更方便地对运维对象的记录、消费、更新等动作进行建模,从而构建运维在线体验库,让运维和运维成为可能。维修操作方式统一。 腾讯织云CMDB建立所有运维对象与业务模型之间的关联关系,为运维对象之间的关联分析提供数据支持。

(图智云CMDB模型)

图为腾讯智云CMDB管理模型,分为标准模型和自定义逻辑CI。 标准模型包括业务树、服务器、网络设置、IDC、专线/出口、应用程序等模块,主要针对基础数据库配置管理; 自定义逻辑CI提供标准组件CI和用户自定义CI,用户可根据业务需求自定义参数设置。

运维对象管理

在对运维对象进行抽象、配置和建模之后,在设计CMDB时,需要解决一个很重要的场景:让CMDB数据与运维工具、监控系统、生产环境保持一致,这决定了CMDB的应用是否真的方便。

(图运维对象生命周期管理)

在一致性环境保障方面,智云给出的方案是从运维对象的全生命周期开始管理,提供标准的工具或流程来完成该阶段所需的运维操作。 同时,通过控制CMDB数据的读写场景,保证CMDB与生产环境的数据一致性,实现运维平台运行可追溯、可审计。 这时候运维变更操作和监控告警的联动就是可用的数据库。

(运维管控操作图抽象)

智云在强大的CMDB配置数据的支持下,通过运维工具对运维对象的管理和运维,将所有的运维管控操作抽象为一个“资源-传递-执行”的过程,并设计知乎云工具平台。

智云工具平台工具化运维原子操作,提供版本、授权、定时任务、关联运维对象等不同管理纬度的支持。 通过原子工具的排列,实现工具间的串行调用,支持复杂运维场景下多个工具的执行。

(图场景工具链及工具排列)

运维PaaS的标准化和多样化

在智云平台的解决方案中,将运维自动化抽象为以CMDB为核心数据、工具链为场景驱动的解决方案。 针对运维过程中常见的发布、变更、批量操作场景,通过工具的编排,将频繁的运维操作转化为场景化的工具链,实现操作的统一化和标准化和维护操作,以及基于规则的运维自动化。

这样不仅可以降低运维操作对运维经验的依赖,还可以通过工具链的标准化大大降低运维操作的风险。 此外,智云提供抽象的原子工具和脚手架,运维可以灵活组装各自企业的标准化工具和流程,以同一个PaaS能力支撑千人业务运维场景。

(图为千人千面的运维PaaS解决方案)

3 智云立体监控解决方案

运维在腾讯云称为技术运营。 顾名思义,运维团队除了维护工作外,还负责技术数据的使用和挖掘。 技术数据最直接的使用场景就是服务质量的监控和告警。 腾讯云将运维中的服务质量保障定义分为三个纬度:

(图像质量保证的三个纬度)

根据CMDB对运维对象的管理思路,在质保场景下,构建三维监控体系需要明确各个架构层级的监控运维对象,以及生成的监控数据的作用通过运维监控系统中的运维对象。 在分布式服务、高可用架构等技术的影响下,业务架构日趋完善。 对于运维监控来说,要实现“全、准、快”的发现、分析和定位异常的能力,就必须有序地使用监控数据。

智云监控系统在构建监控能力时,将监控指标分为两类:

如果一个企业用低层指标代替高层指标的作用,质量管理很容易变得扑朔迷离。 因此,在规划监控处理或优化监控策略时,智云监控系统尽量将低层指标交给自动化工具,或利用高层指标进行收敛。 在衡量服务质量时,通常采用高层指标进行衡量,以提高指标告警与服务质量的相关性。 因为高层的指标往往是最核心、最需要关注的,最能反馈业务可用性。

(图智云立体监控系统)

高层指标必须能够实时反馈业务的真实状态。 在海量业务运维场景下,只需要观察整个集群的运维状态,无需深入到单机层面。 这是面向业务的运维思维与传统运维思维最显着的区别。

智云的三维监控系统,通过统一的监控告警平台,提供各个层级的监控能力,结合CMDB中运维对象的关系,将低层指标从业务上汇聚成高层指标——导向视角实现利用技术运营数据的价值挖掘。

4 腾讯云基于AIOps的探索与实践

在构建了高效的自动化运维体系后,腾讯云开始探索AI技术在运维领域的落地。 要使用AIOps技术解决具体的运维问题,首先需要了解AI的工作机制。 人工智能最广为人知的一点是它可以从大量的输入中总结出能够准确预测结果的规律或模型(算法)。 通过这些规则或算法,可以利用AI技术对运维中的一些数值模型、布尔模型、概率模型进行预测,从而简化运维流程,提高运维效率。

显然,人工智能技术在运维领域的应用,首要条件是有大量的数据可供机器学习(有监督或无监督学习),从而找到数据的规律或模型。

构建统一的数据管理平台

腾讯云在实施AIOps过程中,由于三维监控系统中各个监控系统的构建周期不同,各个业务和监控对象的数据格式不同,不同的运维监控数据独立存在于各个监控系统中,造成严重问题。 数据孤岛。 因此,在将机器学习和训练模型应用到智云系统之前,腾讯云首先构建了一套行之有效的运维数据治理解决方案——智云运维数据库。

下图为智云数据库的结构图。 异构数据源通过数据库的访问服务进入消息队列,在流处理平台上进行数据统计、翻译、计算等操作。 策略下发到统一告警平台进行告警处理。

(图文云数据银行平台)

智云运维数据银行提供运维数据集中采集和处理的平台化能力,为异构运维监控数据提供通用的流式数据处理和分析解决方案,如常规分析、数据翻译、数据处理数据统计、数值计算等逻辑。 考虑到平台对不同数据源的兼容性,Data Bank还提供了直接接入自定义插件的灵活性。

针对运维中常见的基于时间序列的数据模型,数据库内置OLAP多维数据下钻分析、高斯分布分析、聚类分析、GBDT等数据价值挖掘能力,丰富运维团队监控数据的分析方法。 在数据银行平台的支持下,腾讯云运维团队实现了海量监控数据的集中存储和分析。

时序数据智能监控系统

大量的监控数据经常会遇到误报、阈值配置困难等问题。 通过学习经典的AI算法,我们发现,要想很好地处理时序数据,让监控系统能够准确发现异常,必须解决一些监控数据问题。 比如非正态分布的数据、垂直周期波动的数据等,因为它们对时序数据异常检测的准确性造成了强烈的干扰,腾讯智云系统为此而生。

是腾讯云基于时序数据的智能监控系统。 智云通过对200万/分钟时序数据的反复训练,找到了有效的算法组合方案,采用统计算法(3-Sigma)+无监督算法(孤立森林),在海量监控数据中快速找到正样本,并人工标注通过监督学习方法采样数据。

(图时间序列异常检测技术框架)

上图展示了时间序列异常检测的技术框架。 作为时间序列异常检测模型,整体框架分为三大板块。 第一个是离线训练部分,第二个是在线预测部分,第三个是AB测试调优板。

智云利用人工标注的结果和计算出的特征来训练模型,通过模型判断快速识别时序数据的异常,实现对海量监控指标无阈值的秒级监控能力,适用于大-规模化数据和监控场景,具有不同的曲线和不平衡的数据政府模板。

织云一体化运维解决方案

除了上述的数据库大数据智能监控系统,腾讯云在AIOps上还有很多运维实践,包括使用决策树算法尝试解决告警根因分析的场景问题,使用算法或FP-算法尝试解决告警收敛的问题,使用NLP解决快速发现用户投诉的问题,使用强化学习尝试解决调优应用性能参数的问题……限于篇幅,本文这里就不细说了。

(图文云一体化运维解决方案)

总的来说,在海量业务的运维场景中,AIOps技术可以让监控数据更准确地发现和定位问题,并结合自动化运维能力,为无人运维提供高效的解决方案。 腾讯云的AIOps实施实践秉承业务驱动的原则,基于不同场景下的运维需求,通过智能手段完成对海量网络架构的智能监控和处理。

5 智云AIOps方案落地应用

除了支撑自身海量业务外,腾讯云基于多年的网络系统运维经验,以开放互助的态度,向业界输出了一整套智能运维方法论、技术体系和数据模型。 通过这些工具和理念,企业可以根据自身的业务特点和需求构建有效的AIOps体系。 本文以某金融公司为例,简要介绍腾讯智云解决方案在企业智能运维转型中的实施,希望能为大家提供参考。

企业运维痛点

金融企业采用的IT资源管理系统大多比较原始,如使用原始Excel管理数据,业务端缺乏统一规划和管理。 随着资本市场的兴起和繁荣,陈旧的IT基础设施和设计理念已经远去。 仅支持企业海量用户交易和结算业务的监控还不够,企业迫切需要一种高效、智能的运维方式来提升整体运营效率。

IAAS层的服务器和网络设备缺乏有效的统一监控、告警和自动化能力的支持;

全球化业务环境和运营支撑环境下的网络专线、公网出口的管理、流量分析、监控等;

用于业务支持的众多外部域名的服务质量测量;

私有云和公有云统一运维管理

业务方的运维缺乏有效的管理和规划。

智云系统智能运维解决方案

腾讯云针对企业痛点和诉求,规划建立整体IT运营生态,采用领先的AIOps理念,替代原有的资源管理方式,细化监控对象的数据粒度,抓取网络中的相关信息, 并测量域名。 公网接入质量、信息归属三级功能模块等,完成了交易所业务功能模块的梳理,建立了完善的权限控制机制,规范了应用服务版本管理和运维操作规范。 具体实现思路如下:

1.用CMDB替换原来的Excel管理资源

EXCEL的资源管理方式不仅效率低下,而且不能直观有效地反映每个物化资源对象的生命周期和运行状态。 腾讯云通过先配置后管理的理念对资源进行统一管理。 每个资源都有自己的可衡量和可操作的管理模型。

对象的类别、数量、关系(对象之间的关系)、状态等在CMDB中统一描述,通过与监控平台的实时联动,保证每个对象的服务质量可控、可衡量。

通过这种管理模型,实现硬件与业务的关联,将配置信息用于各种运维场景。 比如运维可以清楚的知道某个物理服务器,资源存放在某个IDC,存放在IDC的某个机架,连接到某个交换机的某个端口,服务器的资源在业务规划状态 某项业务分配的资源具体信息,业务运行状态下服务器的实际负载情况,触发服务器告警的条件。

2、细化监控对象的数据粒度

针对金融企业的服务器和网络设备资源,智云基于服务器代理数据上报、SNMP、网络设备分析等,精准测算各资源对象的状态、负载、服务质量等数据。例如,对于网络交易所设备监控,细化以下三个维度:

3、基于Xflow协议抓取网络会话信息

针对金融企业的网络出口和网络专线资源,智云可以基于设备厂商的Xflow协议抓取网络中的相关会话信息(ip+端口维度),对每个会话进行量化分析和展示,以帮助交换解决问题。 运维高频场景存在的问题包括:

4.衡量域名的公网访问质量

针对金融企业众多的业务支撑域名,智云通过分布在全国各地区不同运营商的170个拨测点进行实时拨测,精准测评域名公网访问质量。

5.划分三级功能模块的信息

结合腾讯内部最佳运维实践,围绕三级功能模块的设备、套餐、任务、监控等信息,以最佳效率提升运维管理。 例如,从业务模块的角度衡量和管理资源、权限和动作。

6、业务指标智能监控

为了保证服务质量,运维需要对服务、应用、基础设施进行监控和衡量,涉及的指标数量巨大,而传统的采用门限管理指标的监控方式需要大量的人工操作。 针对涉及众多指标的监控运维场景,智云提供了更智能的解决方案:

智云系统通过一系列实战改造,帮助集团建立了适合业务发展的完善的财务运维体系,如硬件性能、专线/出口、专线、域名流量分析、基于IAAS层的健康监控等根据自身需求,从而促进提升整个业务的运营监控质量,提升企业IT运营对业务提升的整体效果。

关于作者

梁定安(大梁),腾讯SNG运维技术总监,腾讯云织云产品负责人,腾讯云布道者,复旦大学客座讲师。 多年运维、运维经验,负责QQ空间、相册等SNG社交平台服务的运维规划和管理,经历了SNG运维标准化的全过程,自动化、智能化建设。 目前致力于腾讯云企业级运维解决方案智云产品化,积极探索新技术在运维领域的应用,为行业输出自动化、智能化运维能力。

相关活动

3月31日(周六),腾讯云与极客帮科技联合举办“微信小程序敏捷开发实战”沙龙。 专属于你的人气小程序,感兴趣的小伙伴扫描下方二维码或点击阅读原文报名吧!

随着全球电网的不断发展,电力线路监测和继电保护产品也在不断更新和改变设计模式。 作为全球领先的高性能信号处理解决方案供应商,ADI推出的高性能ADC系列一直引领着该领域的技术发展路线:第一代电力继电保护产品全部采用模拟开关和单通道16位ADC(如AD976、AD574)设计; 后来又出现了采用16位和14位模拟开关的第二代继电保护产品,在目前许多电力继电保护产品中仍有非常成功的应用案例; 随着技术的更新和产品技术的提高,特别是其±10V双极性多路同步输入等技术特点电力监测,已成为上一代电力继电保护的主流选择。 目前,该产品仍在大量电力监控和保护设备中使用。 中发挥重要作用。

本文引用地址:

随着智能电网管理的发展趋势电力监测,电力线路监测保护产品的设计面临着越来越多的挑战。 多通道电流和电压监控系统的设计人员需要应对诸如双电源、有限的模拟输入范围、低模拟输入阻抗,以及昂贵的分立器件带来的高成本等一系列复杂的设计挑战。 作为电力二次设备制造商的关键解决方案提供商,ADI 对全球电力设备公司的技术需求有着深刻的理解。 在成功应用经验的基础上,成功推出16位8通道同步采样系列,帮助客户更好应对智能电网时代二次设备开发的技术挑战。

简化电力线监控系统设计

该系列器件采用5V单电源供电,支持真正的±10V和±5V双极性信号输入,各通道采样率可达. 在单个芯片中集成多个通道,可支持变电站自动化设备中三相电流、电压和零线的测量。 同步采样允许保留相位信息,同时可以在宽动态范围内对双极性电压和电流进行采样。

该系列的所有八个通道都能够实现高达 200 kSPS 的采样率。 它具有内置的低噪声、高阻抗输入和信号调节放大器,可以处理高达 22 kHz 的输入频率。 信噪比(SNR)高达90dB,选用片上数字滤波器可以进一步提高SNR性能,减少误码,扩频和提高抗混叠抑制。 使用信号和内部振荡器控制转换过程和数据采集。 通过两个引脚,可以同时对所有八个模拟输入或两组模拟输入通道(一组四个模拟输入)进行采样,以解决变压器之间的相位差。

内部信号调理电路包含一个低噪声、高输入阻抗的信号调理电路,其等效输入阻抗与采样率完全无关,固定为1MΩ。 同时,输入端集成了具有40 dB抗混叠抑制特性的滤波器,简化了前端设计,无需外部驱动和滤波电路。 因此,次级变压器输出的信号可以直接接入,无需经过运算放大器的缓冲。 内部集成了2.5V带隙电压基准和基准缓冲电路。 在设计应用中,可根据系统要求选择内置参考或外部参考。 在多芯片ADC的设计中,如果需要高绝对精度,需要高初始精度和低温度系数的外部参考,以消除由于不同设备内置参考之间的差异而产生的误差。 建议选择初始精度为0.04%,温度系数为3ppm/℃的。 如果需要匹配多个ADC通道之间的值,可以设置第一个芯片工作在内置参考模式,其余为外部参考模式,然后通过内置参考提供其余部分第一个芯片的输出。 因此,在不增加外部参考的情况下,可以保证多个通道之间数据的匹配。

图 3:出色的性能优势使您的系统设计更加轻松。

而100mW的低工作功耗和仅25mW的待机功耗保持了ADI在ADC低功耗技术方面的优势,尤其是当一块板上有多个多通道ADC时(有些系统需要一块板上有多达数百个ADC通道) ,功耗是一个重要的考虑因素,而这种低功耗特性是简化系统热设计和提高系统可靠性的关键因素之一。