当前,领先的数字原生企业不断用数字化手段颠覆传统行业,金融行业内领先企业也在积极拥抱数字化。随着企业的数字化转型,运维面临的挑战越来越大,需要全方位、全过程实时收集与分析挖掘运维数据,以智能感知的形式触达到不同角色,构建出多层次网状感知防护体系,解决如异常定位准确性和时效性、系统病态发现、自愈驱动等难题。必示科技赋能广发证券运维数字化实践,打造智能运维数据中台,构建运维场景端对端的数据基座,结合AIOps算法形成数字化运维的决策大脑,提供便捷、准确的运维数据服务,推动运维数据分析民主化,落地一系列敏捷的运维工作场景,打造运维数字化工作空间。
随着运维数字化建设的推进,围绕“洞察、决策、执行”闭环的运维数据分析成为运维工作重要组成部分。运维数据价值越来越大的同时,运维团队面临以下挑战与价值期望:
运维数据量大,缺乏实时采集、计算、加工的平台能力,且传统数据统计方法,无法满足动态基线、多维指标分析等分析要求。
运维数据种类多样、标准化不足、数据质量参差不齐、数据安全缺乏管控,且缺乏数据治理的组织、流程、技术支持。
数据孤岛现象严重,引发重复建设、关联性不足,且数据生产成本与数据服务消费成本高,导致很难广泛地应用运维数据分析。
以经验导向的工作模式为主,需降低运维分析门槛,将运维分析能力民主化,沉淀经验知识,激发运维专家的创造力。
为了解决上述痛点与期望,需落地运维数据平台,实现海量运维数据实时的“采存算管用”能力,提供可共享、可复用的运维数据服务,并提供数据治理的平台化能力,落地敏捷的运维数据分析场景。
广发证券打造了组织、流程、平台、场景四位一体的数字化运维体系,平台由“监、管、控、析”四大平台组成。其中,“析”对应运维数据平台,是打造运维数据中台的基础,向上支撑运维场景的敏捷,向下支持融合各类数据源(见图1)。
图1 运维数据平台定位分析
从运维平台体系看,运维数据平台定位为数据中台。运维数据中台重点建立统一数据“采存算管用”的基础能力,实现所有运维数据的集中管控,对各源端运维数据进行二次加工处理,落地运维主题流水、指标体系相关数据资产,形成可复用的、服务化的数据能力,以更好的服务于运维场景应用。
从数字化思维看,运维数据平台提供感知、决策、执行的闭环能力。感知能力指能够实时、在线察觉生产运行环境、生产对象、业务状况、客户体验的变化;决策能力指运用算法对实时感知的信息进行数据分析,为应急、变更等IT服务管理提供数据决策;决策将伴随待执行,需确保管理、风险、协同、机器决策的传导机制顺畅,推动决策执行落地。
从平台能力看,运维数据平台提供一体化的数据采、存、算、管、用全流程数据能力。平台需具备统一、多样化的数据采控能力,兼顾实时感知与离线海量分析运维场景的数据存储、数据建模、数据清洗、计算加工、调度任务、规则引擎的数据计算能力,以及面向数据治理的数据管理能力,围绕主题流水、指标中心、算法中心、数据可视化提供全在线的数据服务管理。
从管理协作看,运维数据平台重点是推进运维数据分析民主化。随着数字化思维的不断深入,任何一个岗位都需要数据的支撑,数据分析已经向民主化转变。数据平台需要让数据和分析能力可以广泛地被所有背景的人所掌握,即运维数据平台要解决的首要问题是构建一套体系能够降低运维角色使用、利用、分析数据的门槛,让不同岗位能够低成本地消费数据,让数据工作者能够更容易地使用越来越复杂和多元化的数据技术和工具体系,达到数据赋能运维的效果。
从运维数据场景看,运维数据平台重点是提升数据质量并加速数据消费应用。比如:提供各种看板与报表,给管理决策、一线运维、服务台、业务运营等角色提供数据感知与决策能力;提供线上或线下的数据支持,成为统一的数据采集、交换、处理与提供工作效能平台,降低运维数据生产成本;分析运维对象数据,通过引入领先的算法挖掘数据,提升数据分析效益;建设开放数据平台,向运维以外的关联团队输出数据服务等。
运维数据平台在技术层面需要重点解决四个问题:
以下对广发证券运维数据中台的几个重要技术组成部分进行介绍。
低代码的数据处理中心提升数据研发效率。数据处理中心是一个低代码算子编排平台(见图2),允许运维数据研发人员通过图形化界面,将不同功能的算子组合起来,实现数据处理任务的编排和流程控制,从而加速数据处理应用程序的开发和部署,降低运维数据开发门槛。
图2 低代码的数据处理中心
数据管控中心管控数据模型。遵循数据仓库的建设范式,将数据分层,大的层面分为贴源层和标准层。贴源层无损保存业务原始数据,标准层数据保存标准化规范数据;设计上兼顾考虑实时感知与离线海量运维场景。
以指标中心与主题数据作为数据关键交付。构建指标体系,并将指标与指标体系关联,赋予指标可读的业务说明,形成指标数据资产(指标体系见图3)。可构建主题数据业务域,将具体的主题数据关联上业务域,形成主题数据资产。主题数据是一份宽表,用户可基于主题数据进行二次分析以生成指标。另外,用户也可以根据原生指标通过可视化地选择数据函数处理指标,快速查看函数计算结果,对有业务价值的函数持久化,生成基于原生指标的衍生指标。
图3 指标体系逻辑图
高可靠与可扩展性的计算调度中心。调度中心管理和调配平台提供的传统型、大数据型及算法型数据挖掘任务,具备灵活、高可用、可扩展的调度能力,能够与企业现有的大数据平台打通,并支持Java、Python、Flink、Spark、Shell 等多种任务类型。
算法赋能监控中心的异常检测能力。算法中心主要针对与AIOps相关的运维算法服务的输出(算法的应用见图4)。算法指训练、学习模型的方法,算法服务提供数据输入,输出基于计算后的数据输出。在实现上,可重点将算法输出结合智能监控中心、运行感知中心的场景工具,用户可以在场景工具中基于指标、模型流水数据,配置基于算法的监控与感知策略,实现智能化的运维管理能力。
图4 算法应用
建立一站式的运维数据门户。运维数据门户作为数据服务的入口,支持数据消费用户按需获取数据服务,用户可以根据关键词找到数据服务、预览数据示例、观察数据指标趋势、数据服务API,以及可以根据数据指标函数申请生成新的衍生指标。同时,数据门户还为运维供应方提供数据服务运营管理相关的数据统计功能。
建立运行分析感知场景。推动运行分析、巡检分析、应急中心等离线与在线的数据分析场景。场景在设计上采用指标、策略、报告/看板、评估意见四层,其中指标应用了指标中心提供的在线数据服务,承担源端数据分析源材料,以及可视化的指标数据分析组件;策略应用了监控中心的多维度的异常检测服务,辅助指标数据分析的数据决策,帮助上层数据分析场景提供数据决策;报告与看板是带有主题的数据分析场景的输出,用户可以基于报告定期查看某一时间切面的运行状况,也可以基于看板查看在线的运行状况;评估意见是为了推动数据分析场景与人工作的闭环连接,即每份运行分析报告需要围绕已确认评估意见、已阅读、已确认风险等状态制定评估意见的记录。
图5 以核心交易为例的场景研发
以数据治理为重点的数据管理。数据平台的数据治理应围绕数据采集、数据存储、数据资产管理、运维指标管理、主数据管理、元数据管理、数据质量管理、数据安全管理等方面进行建设。从实施上,考虑到有限的运维数据治理资源投入,可将运维数据治理的技术平台与企业已有的运维平台体系进行融合,形成以运维数据中台为代表的运维数据资产管理、数据采集、数据存储,以运维指标体系为代表的主数据管理,以CMDB与知识库为代表的元数据管理,以监控为代表的数据质量、数据安全管理,以运维门户涉及的数据运营管理。
图6 数据质量管理
打造可复用、共享化的运维数据中台,加速运维数字化场景研发效率。打破运维数据孤岛,运维数据中台实现了对多源、异构的运维数据统一“采存算管用”的全生命周期的管理能力,支持对复杂、格式多样的运维数据加工,落地运维主题流水、指标体系相关数据资产,形成可复用的数据服务化能力。对于数据中台和智能化运维场景的交付,大大减少数据采集、集成、处理、标准化的时间,运维场景应用的开发时间从月为单位到以天为单位。同时减少了试错成本,在极短的时间内,极小的成本下可以实现数据创新应用的研发,实现数据运维理念(DataOps)。
推动运维数据分析民主化,落地运维专家经验知识,激发创新。运维数据中台既提供一站式托拉拽数据集成及开发工具,又提供低代码的数据采控与分析算子,赋能运维开发(OpsDev),支撑快速的数据集成及加工处理,利用所见即所得的数据服务,一站式的数据门户等能力,降低了运维专家使用、利用、分析数据的门槛,激发创新。
支撑智能运维场景化,赋能打造运行天网感知体系。运维数据平台上线后,有效的支撑了基于数据的运维场景建设,包括:应急可观测中心、性能容量评估、季度风险评估、系统运行巡检、应急演练、技术运营与业务运营主题看板、交易系统功能号异常检测等场景建设,有效的赋能了运行天网感知体系建设。
落地运维数据资产管理,支持运维数据治理。平台构建了数据质量中心,由场景驱动数据治理,及时发现数据质量问题,实现了数据“边使用边治理”,数据用治闭环融合。
“数据、算法、场景、知识”是AIOps的4个关键要素。运维数据中台将海量、复杂的运行数据进行整合、处理和分析,提供运维智能算法服务,为组织提供全面、准确、实时、智能、敏捷的IT基础数据服务支持。下一步,我司将推动AIOps场景建设,为运维专家提供“实时感知、辅助决策”的能力,并给运维组织带来一种人机协同的运维模式。人机协同的模式将发挥人与机器人特长,增加运维机器人岗位,重塑 “大计算” “海量数据分析” “操作性” “流程化” “规律性” “7*24” “人机体验”等类型的运维工作,形成一个相互协同融合的解决方案。