《企业应用运维管理指标体系白皮书.docx》由会员分享,可在线阅读,更多相关《企业应用运维管理指标体系白皮书.docx(29页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、企业应用运维管理指标体系白皮书前言3一、数字化时代企业1T运维的战略转型31. 1企业IT运维概述4L2IT运维背景:企业的数字化基础设施和应用现状41国家政策引导数字化支撑企业经营开展41. 2. 2云计算的普及形成了多样化的IT基础设施布局51. 2. 3云原生带来了运维技术和理念的深刻变化61. 2. 4数字经济环境下IT运维的价值创造属性更加显著71. 3数字化时代企业IT运维的战略部署81. 3. 1企业IT运维的全面战略价值81. 3. 2企业的IT运维组织架构革新93. 3企业IT运维的本钱效益考量101. 4企业IT运维的需求和难点12数字化时代,企业更需要体系化的运维指导12
2、1.4.21 T人才本钱高企,企业运维需要系统性的知识沉淀13维部门的战略转型需要疏通与其他部门的协作渠道14二、企业应用运维管理指标体系152. 1业务监测161. 1业务数据价值162. 1.2业务数据分析的作用171.3运营指标分类181. 1. 4业务分析常见指标说明182.2用户端体验监测192.2. 1用户端体验监测价值19用户端数据分析作用19用户端监测实现形式202. 2. 4用户端监测常见指标说明 202. 3应用端监测202.3. 1应用端监测意义20应用监测价值21应用监测常见功能222. 3. 4应用监测常见指标说明222.4网络监测221网络监测价值222.4. 2网
3、络监测常用实现方式234. 3网络监测常见指标说明232. 5资源层监测231资源层监测价值231.1.1 资源层监测包含内容24资源层监测常用指标242. 6中间件监测24企业IT运维部门的组织架构关系企业业务例CTO其他职能在各职能部门中,财务部 门的预算形成影响着n运 维部门的运维产品采购, 在传统经营环境中,该部 分预算被视为纯粹的费用, 对企业经营没有直接价值 在数字化经营环境下,运 维部门能够并应当充分考 量甚至化运维对企业经 营产生的价值,为采购流 程提供更充分的依据 传统来看,斤运堆属于企 业的“后台甚至后勤” 部门,与业务侧泾渭清楚. 随着企业经营的数字化转 型,运维部门能够
4、通过数 据洞察赋能业务创新,开 始具备企业中台属性在数字化经营环境下,IT 运维侧与业务侧应当开展 充分的协同,通过数字化 洞察为业务决策提供依据来源:艾瑞咨询研究院自主研究及绘制.C2022.5 (Research Inc.运维部门要充分发挥对业务侧以及企业整体的赋能价值,在配备具备大数据、 智能分析等运维产品之外,也需要在组织架构方面进行改良。企业需要创设业务 侧与运维部门的沟通渠道,并将之形成固有的制度体系,使得运维部门的建议能 够传到达业务侧并有效落实一一由于涉及到企业的组织架构调整,这可能是一个 相对缓慢的过程,但对于企业IT能力的充分发挥至关重要。1. 3. 3企业IT运维的本钱效
5、益考量从运维部门的本钱投入上看,以运维服务器(如监测服务器、备份服务器等) 为代表的运维硬件的购置本钱和设备运行过程中产生的电力及损耗占据60-70% 的比例,其他本钱主要包括运维软件及IT人力投入。通过智能化、体系化的运 维创新,企业能够减少占较大比重的运维硬件固定投入,并降低重复性的人力投 入,将优秀的IT设备和人才资源投入到更具创造性的开发工作中去。企业运维部门本钱结构估算来源:根据公开资料、企业访谈,结合艾9颇计模型核苜.02022.5 iResearch Inc.在新兴的智能运维领域,在提升可用性、稳定性之外,智能运维的重要价 值就在于减少重复的人工投入,提升自动化水平,因此企业在评
6、估智能运维成 效的时候,也需要综合考虑智能运维的这一属性为企业带来的本钱优化。对于 运维数据体系建设较完善的企业,还应当将运维给业务部门带来的价值增量纳 入考察范围,由于基线难以确认,又涉及企业组织架构间的协调,这一指标相 对难以构建,但管理层仍然需要注重这一价值,以便正确衡量智能运维投入的 性价比。2021年全球企业:智能运维效果评估指标选取调研来源:EMA (2021),艾瑞咨询研究院根据公开窗4研究及绘制.C2022.5 (Research Inc.1.4企业IT运维的需求和难点1.4. 1数字化时代,企业更需要体系化的运维指导前互联网经济时代,企业的运维体系是从内部视角出发构建的,现今
7、需要向 应用端视角转变,二者的根本目虽然是一致的,但在运维工作的方法上需要更新, 企业随之产生了对新环境下的运维体系的方法论需求。结合下列图中国内某头部 厂商城商行的运维现状、问题和开展规划可见,要适应上述的基础架构和业务形 式变化,企业需要系统化的方法论指导、明确的指标体系的引导。这些前期工作 的积累和沉淀,能够为企业运维工作带来执行效率和管理效率的提升。中国某银行的IT运维体系和开展规划中国某头部上市城商行:本行现行的运维体系主要分成三个层面,第一层面是整体涉及SLA协议的各种管理和规划指标,典型代表 是全年的服务可用性,针对不同的服务会有所不同;第二层面是用于实际监控中的瞬时流量指标,一
8、般是 用于实时预警的,例如交易量、客户数、消息数、连通率等;第三层面是用于n资源规划的存量指标,主 要是回答计算、网络和其他资源是否足量的问题,用以支撑未来的IT资源采购决策。本行运维部门的工作过程中,面临的主要问题包括:近年来随着互联网和云原生应用的普及,银行IT生产 能力的开展速度显著高于运维能力的开展速度,银行缺少运维体系的研究结论和方法指导,导致局部运维 工作无法有效开展,导致运维效率没有得到提升,例如,一些数字化经营环境下需要的运维指标没有采集 能力,以及运维侧的数据和业务部、应急管理部等其他部门没有在流程和协作机制上打通。/ 6本行的运维工作未来主要开展方向包括:构建符合数字化经营
9、环境的运维指标体系,在此基础上,一方面是升级运维技术,将基于运维指标的监控、告警、修复落到实处,另一方面是将运维指标和部门KPI的关联 进行重构和更新,再打通运维和业务部门的关系,赋能业务部门创新.来源:艾瑞咨询研究院自主研究及绘制.02022.5 iResearch Inc人才本钱高企,企业运维需要系统性的知识沉淀随着数字经济的开展及其创造的社会经济价值持续提升,我国的IT人才成 本在市场需求的刺激下持续提升,国家统计局数据显示,IT行业(信息传输、 计算机服务和软件业)的城镇就业人员年均薪酬在所有宏观大类行业中位居第 一,保持较高的同比增速,且IT行业的平均薪酬自2016年首次超过金融行业
10、 以来就一直位居榜首位置,如果以8%的复合增长率计算,到2025年IT行业人 才平均年薪将超过26万元。2020年中国宏观大类行业城镇就业人员平均薪资TOP5及增速10 0%8 3%6 0%4 8%178信息传输、计算机科学研究、技术服务服务和软件业和地质勘查业金融业电力、燃气及水的生产和供应业卫生、社会保障 和社会福利业城镇单位就业人员平均工资(万元)一增速(%)来源:国家统计局,艾瑞咨询研究院根据公开资料研究及绘制.C2022.5 (Research Inc.IT人才本钱的提高,给企业带来的直接影响是增加了聘请包含运维在内的 员工的本钱。另一方面,在社会分工细化和产业整合的大环境下,IT人
11、才更可 能向专业的信息科技企业流动,甲方企业更有可能面临人才缺乏和流失问题。 对于企业而言,减少对人力和经验的依赖是应对上述问题的有效方法,而为了 达成这一目标,企业需要为运维工作建设系统性的指标、流程和组织协作体 系。中国某传统行业企业的IT运维体系和开展规划中国某能源生产和供应企业: 企业的运维系统现状:在数字化转型的大背景下,企业目前的运维系统主要分为两局部,一是面向能源开 卜采的生产的系统运维,而是面向产品销售和售后的系统运维,两局部共同的诉求是稳定性、可用性要求高, 要能够保障系统平安平稳运行. 企业运维部门的工作过程中,面临的主要问题:由于公司属于传统行业,运维工作很多时候I:檄依
12、靠公司 IT专家的经验意见,近年来在数字化运维产品的推广过程中这T青况有所好转,但整体来说数字化能力对 我们磁工作的渗敬还有提升空间。 企业的运维工作未来主要开展方向:由于公司在国内业务分布较广,未来需要将运维工作中积累的经验进 (0) 行总结,构建全国范围内统一的运维标准体系,拉平相对欠兴旺地区的运维能力,为各地的工作人员和用 弋少 户提供一致的高质量体验。来源:艾瑞咨询研究院自主研究及绘制.C2022.5 (Research Inc.1. 4. 3运维部门的战略转型需要疏通与其他部门的协作渠道为了发挥企业运维侧的战略价值,企业需要自上而下地打通运维部门和其他 部门之间的沟通渠道,形成合力,
13、共同赋能于企业的数字化转型升级。下列图展示 了中国某头部互联网企业的运维开展状况和未来规划,对于互联网企业而言,基 于数据的运维技术相较其他传统行业更加程度,但由于互联网业务的数字型,运 维部门也承当着更贴近业务侧的职责,为了更好地赋能业务创新,运维部门不仅 需要运维技术的迭代,也需要通过建立更完善的、能够持续赋能和迭代的运维指 标体系的方式,来疏通和业务部门、管理层沟通的渠道,使运维部门能够充分发 挥技术优势和创新能力,提升运维工作给企业都带来的价值,增加运维工作的投 入产出比。中国某互联网企业的IT运维体系和开展规划中国某头部互联网企业:公司现行的运维体系主要是根据与用户和顶层应用的“距离
14、”来分层的,“1线”运维是面向由客户操作、 .应用程序的运维,直接针对客户侧的体验情况、应用的服务质量进行监控和评估;“15线”的运维是与1-线服务和用户感知直接关联的后台技术,如网络、CDN的运维;“2线”运维是针对某个产品的底层技术和产品逻辑的运维,在开发运维一体化的背景下,2线”运维和应用开发人员的职责有了越来越多的重 tt; “3线”运维是面向底层IT基础设施的运维工作。企业运维部门的工作过程中,面临的主要问题包括:对于互联网行业来说,运维侧和业务侧的距离比传统 行业要小很多,运维部门需要根据业务部门的需求,配合公司开展战略进行技术更新和运维体系的构建, 除了技术难度之外,工作职责的范
15、围更广、协作需求也更高,还需要在沟通效率方面做出提升。企业的运维工作未来主要开展方向包括:除了升级运维工具和技术之外,还需要和业务部门、管理层有更 好的沟通渠道,这一方面需要公司制度的完善,另一方面也需要运维部门出具一套成熟的管理指标体系, 方便和其他部门进行长期、可持续、可迭代的的沟通。来源:艾瑞咨询研究院自主研究及绘制.02022.5 iResearch Inc.二、企业应用运维管理指标体系前文阐释了企业IT运维的内涵,以及在当前数字经济开展的大环境下企业IT运维工作在技术、战略、组织架构等方面面临的变化,并就企业IT运维的战略开展方向以及需要解决的需求和难点进行了列举。前文已经提及,企业
16、FT 运维正在经历从“后台”向“中台”的转变,进一步发挥其在企业中“降本增 效”的效果。艾瑞咨询认为,为了提升运维的投入产出比并提升运维侧对业务 侧的价值创造属性,企业的运维部门需要构建一套运维管理指标体系,这将帮 助企业运维部门形成高效的工作流体系,提升日常运维工作的效率,减轻运维 工作对人工和经验的依赖,并为基于大数据的智能运维应用的部署提供支持和 引导。企业应用运维管理指标体系全局示意图用户端用户端来源:博杳数据,艾瑞咨询研究院根据公开资料研究及绘制.2022.5 iResearch Inc上图以博睿数据的企业应用运维指标体系为例,展示了一种的全新的 企IT运维指标体系,这一体系从业务视
17、角切入,以业务场景为主题,以 业务连续性为宗旨,通过直面业务场景、正向梳理IT调用链、逆向接入 数据源等实施步骤,最终构建起具备概览所有业务场景健康度、俯瞰多维 立体化IT指标等能力的资源指标管理体系。本章后文内容基于这一指标 体系,以业务端-用户端-应用层-网络层-资源层-中间件-数据库的顺序展 示了各版块主要的运维指标,并对各版块运维的价值、作用和实现方式进 行了说明。2.1 业务监测业务数据价值业务端是企业应用运维指标体系的首要关注点。对于企业来说,业务状况是 企业管理者最关心的局部,也是企业所有决策的基础,而随着大数据和人工智能 技术的开展,大量企业借助信息技术实现转型升级。下列图展示
18、了我们对业务端核心运维指标的分层以及实践中局部企业的对业务端运维指标的关注点,艾瑞咨询 认为,业务数据指标能够为业务侧员工和管理者提供数据洞察,员工和管理者做 决策时不再仅仅是按照经验“拍脑袋”,而是基于数据分析的结果进行战略调整 及决策规划。业务端核心运维指标体系及企业应用案例*业务端 高权重 转化率 点击率 7日留存 PV ROI 留存率 UV 新增用户数 中权重活跃用户数平均停留时间老用户数活跃天数 每日流失用户 活跃用户ID数低权重 日活跃率 周活跃率新增用户占比人均消费金额 页面访问次数 触发次数 达成人数中国头部互联网银行由于我们的业务基本都通过数字化渠道开展,本行在业务侧比拟看重
19、新增用户数量、转化率和 留存率等表达市场拓展能力的指标. 中国头部上市城商行在业务侧,本行最为关注的指标是与经营收入最为相关的,例如用户数量、日常的业务发生量 也就是交易笔数和交易金额等指标。 互联网娱乐企业营销推广和流量转化仍然是我们扩大市场影响力的重要战略,因此我们的App触达客户数量、广告 点击率、客户转化率等指标是我们比拟关注的,也是我们和市场推广合作伙伴进行商务合作的重要数据参考。来源:博杳数据,艾瑞咨询研究院根据公开资料、专家访谈研究及绘制.02022.5 iResearch Inc.2. 1.2业务数据分析的作用寻找优质渠道:发现高量级、高质量渠道、发现真正价值来源。提升关键 转
20、化:探索发现用户关键行为,建立业务关键路径、提升用户转化效果、降低 关键业务环节用户流失。识别高价值用户:整合自有数据和第三方数据,掌握 用户全景画像,识别高价值用户,并针对潜在购买人群进行产品升级营销、交 叉营销、复购营销,提升用户粘性和全生命周期价值。提升触达效果:整合推 送、邮件、短信类的多渠道对用户进行全方位触达,并基于数据进行分群个性 化触达,真正实现千人千面,做到精准投放。提升营销效果:以推广页为起点 进行转化分析,提升营销活动效果。针对未响应、未购买等人群,通过不同活 动进行分层创意营销,提升活动效果和R0I4。2. 1.3运营指标分类运营指标是量化衡量标准、衡量目标的单位或方法
21、,针对企业的Web、APP、 小程序上的指标通常分为以下几种形式:主要运营指标类型指标类型指标说明用户级指标以用户进行分类,包含用户数量,触发某事件的用户数量等访问级指标以访问进行分类,包含访问,访问次数,访问时长等相关的指标行为级指标行为级指标是统计分析用户行为的指标,常用于某行为事件的次数、趋势、分布、持续时间等轲:艾瑞咨询研丽自主研02022.5 (Research Inc.其它常见的指标类型如下列图所示:其它常见的指标类型指标类型维度类指标比率类指标常见于维度的平均值、中值、极值,或者维度类型的去重数等 常用于分析的指标,比方转化率、留存率、跳出率、退出率及触达率等来源:艾瑞咨询研究院
22、自主研究及给制.02022.5 (Research Inc.2. 1.4业务分析常见指标说明转化率:转化率指在一个统计周期内,完成转化行为的次数占推广信息总点 击次数的比率。计算公式为:转化率=(转化次数/点击量)X100%。例如10名 用户看到某个搜索推广的结果,其中5名用户点击了某一推广结果并被跳转到目 标URL上,之后其中的2名用户有了后续转化的行为。点击率:“点击率”来自 于英文 “Click-through Rate” (点进率)以及 “Clicks Ratio” (点击率), 是指网站页面上某一内容被点击的次数与被显示次数之比,即clicks/views, 能够反映网页上某一内容的
23、受关注程度,经常用来衡量广告的吸引程度。UV (Unique Visitor)独立访客:统计1天内访问某站点的用户数(以cookie为 依据),通常将访问网站的一台电脑客户端计为一个访客,可以理解为访问某网 站的电脑的数量。网站判断来访电脑的身份是通过来访电脑的cookies实现的。 假设更换了 IP后但不清除cookies,再访问相同网站,该网站的统计中UV数不变。假设用户不保存cookies访问、清除cookies或者更换设备访问,计数会加1。(更 多业务监测指标说明,请点击文末小程序查看完整报告。)2. 2用户端体验监测2. 2.1用户端体验监测价值用户端(APP、小程序、网站等)是企业
24、与用户的数字触点,同时也是企业 获客、留客的重要途径。在互联网/数字化服务的整个链条上,客户需首要关注 的是用户端体验及表现,从而使得用户端体验成为数字化经营中企业产品力和市 场竞争力的重要组成局部。下列图展示了用户端核心运维指标体系及局部企业的关 注点,艾瑞咨询认为,以提升体验为核心的用户端运维质量会直接影响用户对企 也的印象和评价,是企业开展运维工作良好的着力点。用户端核心运维指标体系及企业应用案例、户端高权重 可优化延时体验评分首屏时间 ANR 卡顿整体性能崩溃可用性 白屏时间通过率.可交互时间-首次渲染时间本权重 活跃用户数 JS错误请求错误率请求错误劫持比例 DNS时间低权重 400
25、错误率 ping耗时 SSL建连时间响应时间500错误率 TCP建连时间信息量 设备型号 600端率 CDN蜥匹除 CDN运营商匹配CDN请求性能应用安装耗时首包时间中国某能源生产和供应企业由于经营的数字化转型不断深入,我们的一些业务要配合电子应用来开展,对于个人用 户来说,我们的应用交互设计是否友好、使用时是否有频繁的卡顿等因素显著影响用户对我们的满意度,也会影响 我们的市场竞争力.中国头部互联网上市企业作为提供互联网服务的企业,以用户体验为核心的用户端运维是我们运维工作的关键,我 们对各种膨响用户体验的指标有全方位的关注,但对于不同类型的服务,核心运维指标可能有所侧重:对于游戏 App来说
26、,降低延迟、防止闪退、减少游戏内BUG的发生是运维侧必须要关注的;对于社交App来说,我们比拟注 重整体的性能和交互体验,保证高并发状况下的低延迟和稳定性;对于一些面向企业的应用和解决方案,客户对安 全稳定的要求可能会更高.来源:溥睿数据.艾瑞咨询研究院根据公开资料、专家访谈研究及绘制.02022.5 (Research Inc.用户端数据分析作用分析客户端的性能及可用性表现,全面掌握不同终端、不同地域、不同运营 商网络中的业务体验差异,快速定位问题成因是外部网络问题还是终端问题,确 保业务在全国范围的终端侧可用。2. 6. 1中间件价值242. 6. 2消息中间件常见指标25交易中间件常见指
27、标252. 7数据库监测262.7. 1数据库价值26数据库分类262.7. 3数据库监测常用指标说明 272. 2. 3用户端监测实现形式用户端真实用户体验监测通用方案有两种:无侵入式模拟监测和代码注入式 的体验监测。无侵入式监测也称作模拟监测,采用分布在全国不同地区、不同运 营商监测点,定时动态地访问网站服务及应用;代码注入式监测那么是对全量用户 数据的收集,通过SDK注入的方式全面掌握用户的感知和行为数据,不仅可以及 时发现网页/APP/小程序上线后存在的应用性能不良、崩溃、卡顿等问题的原因, 还可以真实反映用户的留存与操作情况,帮助开发者对APP进行优化,提高用户 粘性。2. 2. 4
28、用户端监测常见指标说明可优化延时:衡量会话受可优化问题的影响的时间量,如果解决了相应的可 优化问题,用户就可以在更短的时间内完成会话。使用投影法可以计算会话可优 化延时。体验评分:以百分制计算会话的综合体验评分。体验评分;(执行通过 率/100%)舍尾取整X (1-可用性)X100X (1-可优化延时/会话整体耗时X权重 A+(l-请求错误率)X权重B+(请求警示率)X权重C,不可用或非100%通过的 会话,会话体验评分为0。权重使用主客观综合赋权法确定,权重=0.8X主观权 重+(1-0. 8) X客观权重,0.8为初始权重参数。首屏时间:用户访问网站时,页 面第一屏的翻开展现时间。(更多用
29、户端监测指标说明,请点击文末小程序查看 完整报告。)3应用端监测2.3. 1应用端监测意义艾瑞咨询认为,用户端指标所反映的访问情况只是一个表象,用户端真正所 访问到的其实是网站的后台应用,当前企业面临着日益激增的IT复杂性和业务 需求的快速变化,IT应用在运行过程中发生性能下降或者服务不可用等故障的 可能性大大增加,从而影响业务服务的正常运行。下列图展示了应用端核心运维指 标体系及局部企业的关注点:企业的数字化业务正在不断增加,业务系统之间的 关联性也在持续提升,同时,企业的IT系统的规模和架构的复杂度也在提升, 传统企业可能缺乏专业的运维团队以及专业的业务应用监控工具来应对。由于虚 拟化和云
30、技术的高速开展、终端设备类型的增加和网络接入方式的多样化,如何 更高效、智能地在应用容器中部署和管理探针,成为各大企业运维人员更加关心的问题,而有效地管理这些应用,保证业务的连续性和IT系统的稳定性是业务 开展的迫切需要,企业需要对软件应用程序的可用性进行监视和管理。应用层核心运维指标体系及企业应用案例应用层高权重健康度 Apdex响应时间错误率APP吞吐率中权重慢请求次数 慢请求占比 调用MQ次数调用库错误率 调用数据库次数 调用数据库响应时间低权重调用外部服务次数调用外部服务响应时间调用外部服务错误率 调用MQ错误率中国头部互联网上市企业一般来说客户端的运维是站在客户的第一视角下,直接关注
31、客户的体验和需求,而在应用 层面,我们更加关注应用本身的健康度或者说整体性能,这通常是一个整体、综合的技术和管理体系,是将应用作 为我们企业的一类资产而不简单是产品一去进行综合管理的一种工作方式。通过对应用架构的不断完善,我们认 为能够从长期来看提升我们的开发工作和服务的质量.来源:博客数据,艾瑞咨询研究院根据公开资料、专家访谈研究及绘制.C2022.5 iResearch Inc.2. 3. 2应用监测价值应用监测能够帮助企业快速定位问题和节约本钱:通过应用监测,探针对 慢请求进行深度分析,让企业能够在几秒钟内了解性能问题的根本原因,并深 入到最小维度开掘特定调用的堆栈跟踪信息,只需几秒钟就
32、能找出关于响应时 间延迟的类目和方法;运维人员可以清晰地了解当前应用性能情况,例如是否 是代码原因导致的应用用户体验下降,进一步导致客户的流失;针对业务工程 的全部代码(包括用户级别代码)进行全程自动跟踪,且无需研发团队配合, 既高效又节约了本钱。协助企业持续关注应用性能状态,并获取实时反响:企 业通过监测平台开始对应用进行检测后,系统会持续地接收所采集的样本数 据,采集数据最小周期为1分钟,保证用户每次看到的报告数据都是最新的, 真正做到对应用的实时跟踪。当监测平台发现潜在的服务器处理问题到达一定 标准时,会以报警的形式第一时间通知运维人员,引起运维人员的重视,及时 处理,从而最大限度降低损
33、失。助力企业应用容器化部署:对于采用应用容器 化部署的公司来说,应用架构较为复杂,版本的迭代和功能更新频率较高。采 用SmartAgent技术的应用监控,可自动对宿主机上所有目标应用进程进行自动 识别和探针部署、配置,整个过程无需用户任何手工干预,实现服务端应用性 能监测的探针自动化部署和配置。2. 3. 3应用监测常见功能应用逻辑拓扑发现与可视化:以业务视角透视IT系统架构,通过应用拓扑 完整展现IT系统架构,帮助用户掌握业务在各个环节的性能表现。用户事务剖 析:对指定的用户事务请求进行完整的追踪,包括在整个请求过程中调用的所有 服务和组件。应用组件深入钻取:支持对用户级代码进行分析,可呈现
34、每一个类、 每一个方法的执行效率,帮助研发团队了解业务性能表现的每一个细节。3. 3. 4应用监测常见指标说明健康度:应用健康度的标示,展示应用当前是否有性能问题。常分为四个等 级:正常、较慢、很慢、停滞。Apdex:全称是 Application Performance Index, 是由Apdex联盟开发的用于评估应用性能的工业标准。Apdex标准从用户的角度 出发,将对应用响应时间的表现,转为用户对于应用性能的可量化范围为0T的 满意度评价。响应时间:应用的平均响应时间。(更多应用端监测指标说明,请 点击文末小程序查看完整报告。)4网络监测3.1.1 网络监测价值各个应用之间的调用通过网
35、络来实现,各个企业IT建设的规模与复杂度与 日俱增,需要通过网络监测对现有运维流程进行优化,不断提升管理和运维水平。 下列图展示了用户端核心运维指标体系及局部企业的关注点,艾瑞咨询认为,网络 设施衔接着企业的IT基础资源和用户端的使用体验,也能够反映企业的客户数 量、业务流量和业务的时间、地域等特征,在特殊场景下更牵涉数据平安等问题, 能够在很大程度上帮助提升企业数字化服务的创新力和产品力。网络侧核心运维指标体系及企业应用案例一网络层高权重中权重低权重客户链接数客户端延时丢包率 流量 吞吐量事件连接数建连成功率流出包数服务器延时网络评分 流出字节包大小分布建连成功率带宽流入吞吐量 大包占比 重
36、传时延 流入字节流出吞吐显 中包占比。窗口中国大型券商网络质量对于公司开展证券业务的服务质量是非常关键的,不仅会影响用户使用我们的系统的体验, 更有可能给用户带来直接的经济损失,所以我们非常关注网络稳定和时延情况,而这些对应到技术底层又可能涉及 到数据率、时延、抖动、丢包等维度的指标。中国头部互联网上市企业由于公司的很多应用服务面向海高并发的用户,网络质后会对我们的用户体验产生显 著膨响,时延会导致用户的投诉或者转向我们的竞争对手,所以我们对网络的关注度也常高,除了运营商为我们 提供的基础网络服务之外,我们也有专业的CDN,需要在日常服务过程中关注能够代表网络质量的丢包、时延指标. 同时,客户
37、链接的数量也能直接反响我们的市场拓展度,还能够通过数据分析来指导我们的营销部门和产品部门的 定时投放等经营行为.来源:博钥姬,艾瑞咨询研究院根据公开资料,专家访谈研究及绘制.02022.5 iResearch Inc.网络监测常用实现方式业内常用的网络性能分析通过自动采集网络中传输的数据包,提炼加工出 网络侧的指标数据进行分析展示,具备数据回溯、定位故障、告警、分析报告 等功能。3.1.2 网络监测常见指标说明流量:传输数据的总量(单位Byte)。吞吐量:传输数据的速率(单位bps)。建连成功率:建连成功次数占总请求次数的比率。(更多网络监测指标说明,请 点击文末小程序查看完整报告o )2.
38、5资源层监测 资源层监测价值网站所有服务均表达在基础资源层面,因此基础资源监控是所有监控中最 底层的局部,也是实现AIOps不可或缺的一环。下列图展示了资源层核心运维指标 体系及局部企业的关注点,艾瑞咨询认为,针对基础IT资源的监控运维虽然是 相对传统的运维内容,但仍然具备底层基础性地位。资源层核心运维指标体系及企业应用案例CPU使用率 内存使用率集群节点总数GPU使用率磁盘使用率 Node使用集群中调度完成Pod数当前进程翻开文件数集群中处于Succeeded阶段的Pod数 集群中处于Running阶段的Pod数当前内核空间占CPU百分比 GPU显存空间量磁盘每秒写入字节数过去五分钟系统平均
39、负载调度器调度频率 集群Job数集群Secret数调度器在线实例数当前用户空间占用CPU百分比集群Namespace数集群Endpoint数中国头部信息科技企业公司在提供互联网服务的同时也有云计算业务,我们的基础云服务既对内支撑内部管理系统 和经营系统,也作为一种服务和产品对外输出,我们有专门的云服务运维团队对服务器的各项基础指标,例如CPU 和内存使用率等进行监控,并将监控数据作为发现系统故障、优化资源采购、提升基础硬件技术水平的重要参考标 准。来源:博杏数据,艾瑞咨询研究院根据公开资料、专家访谈研究及绘制.2022.5 (Research Inc.2. 5. 2资源层监测包含内容主要针对容
40、器监测,物联网监控,其监控对象为:物理服务器、操作系 统、私有云、公有云。2. 5. 3资源层监测常用指标CPU使用率:服务器运行的程序占用的CPU资源,表示服务器在某个时间点 的运行程序的情况。内存使用率:表达进程在服务器中所开销的内存使用率。除 此之外还有磁盘使用率及GPU使用率、当前进程翻开文件数、过去5分钟系统平 均负载、当前内核空间占用CPU百分比、GPU显存空闲量、磁盘每秒写入字节数 等。2.6中间件监测2.6. 1中间件价值中间件是介于应用系统和系统软件之间的一类软件,位于客户机服务器的操 作系统之上,管理计算资源和网络通信,衔接网络上应用系统的各个局部或不同 的应用,从而实现资
41、源共享、功能共享的目的。中间件是一类独立的系统软件服 务程序,分布式应用软件借助中间件在不同的技术之间共享资源,根据链接的资 源和功能的不同,中间件分为消息中间件、交易中间件和服务器中间件等种类。随着计算机技术的快速开展,更多的应用软件需要在多种不同的网络协议、硬件 以及网络平台环境中运行。这导致了软件开发者面临数据离散、操作困难、系统 匹配程度低等问题,需要开发多种应用程序来实现管理和运营,而中间件技术的 开展在很大程度上减轻了开发者的负担,使得网络的运行更有效率。来源:博吞数据,艾瑞咨询研究院根据公开资料、专家访谈研究及绘制.C2022.5 iResearch Inc中间件核心运维指标体系
42、高权重消息订阅详情消息请阅数量消息推送平均耗时 消息订阅平均耗时消息推送详情消息推送数量中权重 Young GC平均数量 Eden平均使用情况Full GC平均数量老年代使用率 Eden使用率 Young GC平均时间 Full GC平均时间低权重 OSS请求数量 OSS请求平均耗时2. 6. 2消息中间件常见指标消息中间件利用高效可靠的消息传递机制进行数据交流,并基于数据通信 来实现分布式系统的集成。只要有网络就会有数据传递,消息中间件的应用牵 涉到数据传输的平安可靠,在任何网络环境下都具备较强的刚需属性。消息中 间件包含老牌的ActiveMQ5、RabbitMQ以及炙手可热的Kafka,
43、RocketMQ等。 消息中间件常见指标包括:消息订阅错误数、消息订阅数量、消息推送平均耗 时、消息推送错误数、消息推送数量、消息订阅平拒绝耗时。2. 6. 3交易中间件常见指标交易中间件是协助开发在线交易系统(OLTP)的C/S/S应用框架,其主要功能 包括:1、支持大量客户端的链接和高并发交易的处理;2、便捷定制应用服务功 能,实现服务器端的业务逻辑;3、对企业各个层次的IT资源均衡使用;4、提 供一定程度的交易平安保证。交易中间件在金融、财税、运输、电力、电信等行 业中具有广泛应用和推广。交易中间件通常使用java来开发,所以在运维监测 过程中需要关注JVM的使用情况,常见指标包括:新生
44、代内存的垃圾收集事件称 为Young GC10 (又称Minor GO,当JVM无法为新对象分配新生代内存空间时会触发Young GC,需要关注其产生的平均数量和平均时间。Full GC11:清理 整个堆的GC事件,包括新生代、老年代、元空间等,需要关注指标的平均数量 及平均时间。一般情况下,新创立的对象都会被分配到Edenl2区,为大多数对 象分配内存的池,所以需要实时了解Eden区使用率及平均使用情况。在新生代 中经历了N次垃圾回收后仍然存活的对象,就会被放到老年代。需要关注老年代 使用率指标,用于对老年代区域中数据进行整理及分析。2. 7数据库监测2. 7.1数据库价值数据库是按照数据结
45、构来组织、存储和管理数据的仓库,是一个长期存储在 计算机内的、有组织的、可共享的、统一管理的大量数据的集合。下列图展示了数 据库领域的核心运维指标体系,艾瑞咨询认为,在数据成为企业重要的经营资产 的环境下,对核心数据库的高效运维能够帮助企业从数据底层维护系统的问题和 信息平安,同时,在湖仓一体等新型数据库构建模式不断渗透的条件下,面向数 据库的运维也将迎来挑战和创新,需要企业投入更多的关注。来源:博杳数据,艾瑞咨询研究院根据公开资料、专家访谈研究及绘制.02022.5 iResearch Inc.数据库核心运维指标体系高权重置旬响应时间直询错误率 QPS连接数 连接数利用率健康度 中权重数据库
46、请求数 数据库请求平均耗时 SQL查询耗时名数据库请求详情 低权重 Tair内存数据库请求数 Tairig求详情 Tair请求平均耗时数据库分类数据库的种类多样,不同数据库面对不同的场景各具适配性,按照不同的 分类方法,数据库有多种分类,详细内容请查看艾瑞咨询2021年中国数据库 行业研究报告。2.7.2 数据库监测常用指标说明查询响应时间:即从提交查询到结果返回所需的时间。QPS13:每秒查询率 QPS是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。查 询错误率:数据库查询过程中出错概率。IT运维对企业开展数字化业务、实现数字化转型具有重要意义。为了 提升运维的投入产出比,并提
47、升运维侧对业务侧的价值创造属性,企业的 运维部门需要构建一套指标体系。本报告首先阐释了企业IT运维的内 涵,以及在当前数字经济开展的大环境下企业IT运维工作在技术、战 略、组织架构等方面面临的变化和问题,并展示了一种以业务和应用为着 眼点的企业应用运维管理指标体系,对该体系的原理、设计和实践进行了 详细说明。本报告内容着眼于运维指标体系的构建,分为三个章节:第一章阐释 了在当前数字经济开展的大环境下,企业IT运维工作在技术、战略、组 织架构等方面面临的变化和问题;第二章展示了以业务和应用为着眼点的 企业应用运维管理指标体系,从业务、用户端、应用端、网络、资源层、 中间件、数据库七个层面,分别说明其运维价值和重要运维指标;第三章 主要基于调研、验证、阈值、评价体系、闭环等五个步骤,对该指标体系 的建设进行了说明。本报告目录 1数字化时代企业IT运维的战略转型2企业应用运维管理指标体系 3企业应用运维管理指标体系建设实践1.1企业IT运维概述1.1企业IT运维概述2.1业务监测1.2 n运维背景:企业的数字化基础 设施和现状1.3 数字化时代企业IT运维的战略
限制150内