随着企业数智化转型的深入,企业对数据研发和数据治理提出了更高的要求。但当前企业数据管理模式在交付效率、治理落地、治理成效上难以满足,制约企业发展。本实践以DataOps思想为指导,构建研发治理一体化机制,有效应对企业面临的挑战,助力企业数智化转型。
企业数智化转型的深入给企业数据管理带来了许多显著的变化,数据在各单位的生产活动对接越来越深,各单位对大数据的应用诉求也越来越多,呈急速增长趋势。同时企业看数用数在交付效率、治理落地、治理成效上也面临新的挑战:
-?交付效率的挑战:随着企业数据治理的建设进程推进,企业分散建设较多治理工具,包括需求管理、离线开发、实时开发、模型设计等工具。从单工具单环节来看效能可达最优,但研发的整体交付效率仍跟不上业务的期望。
-?治理落地的挑战:治理落地的挑战主要表现为研发与治理的脱节,需求研发方往往为了实现需求的快速交付而忽视数据治理的要求,而治理工作的介入要滞后于研发环节,造成了研发落地实施与数据治理存在着两张皮的现象。
-?治理成效的挑战:传统的治理机制缺乏自驱动力、同时存在价值不显性,效果难以量化等问题,数据治理往往被看成成本消耗中心,难以保障数据治理的持续推进,治理缺乏持续推动力。
DataOps将敏捷、精益等理念融入数据研发过程,通过对数据相关人员、工具和流程的重新组织,打破协作壁垒,构建集研发、治理、运营于一体的自动化数据流水线,不断提高数据产品交付效率与质量,实现高质量数字化发展[1]。本实践以DataOps思想为指导,通过对人员、工具、流程的重新组织,建立从需求提出、设计、研发、测试、交维于一体化的交付流水线,实现横向到边全链路管理。同时将数据治理融合到数据研发过程中,建立从企业级到需求级、模型级、代码级、数据级的全层级治理融合,最后通过治用互促机制,促进数据治理成效反哺,推进良性的数据治理循环。
研发治理一体化架构图
本实践从一体化需求交付流水线、一体化研发治理融合、一体化治用互促三方面进行阐述:
在应对交付效率的挑战上,我们建立落地了很多机制、流程、工具,在这里重点分享一体化需求交付流水线的实践。它是一种将敏捷、精益等理念融入数据需求交付过程中,对人员、工具、流程重新组织,构建流水线式数据生产。为保证流水线的高效协同性,各核心组件进行了如下提升:
-?提需:传统的提需存在需求不清晰、需求重复、入口体验差等问题。为此一体化流水线引进了智能需求客服助手,通过助手整合原有的提需渠道,提供向导式的查数、提需机制,并为后端管理人员提供需求的自动分类及派单能力,提升协同效率。
-?设计:传统的数据设计模式存在设计工作重复、设计能力单一等问题。为此一体化流水线对数据模型、质量、安全、存储等设计能力进行了整合,实现概念、逻辑、物理层的统一设计,减少80%信息输入量。在人机交互上,结合大模型提供设计、开发产物生成能力,提升设计到研发的协同性。
-?研发:传统的数据研发模式存在工具分散、工具孤立、调试等待过长等问题。为此一体化流水线在数据底座上整合计算和存储能力,提供存算分离的弹性计算的研发模式。在流批协同上,一体化流水线整合hudi技术栈提供批流一体协同研发能力,整体提升数据开发协同性。
-?测试:传统的数据测试模式存在数据安全、测试效率低等问题。为此一体化流水线与数据虚拟化技术进行结合,通过数据镜像方式构建数据沙箱自动隔离机制,同时内置数据测试框架,整体提升数据安全性和测试效率。
-?交维:传统的数据交维以人工为主,效率低下容易出错。为此一体化流水线对数据生产过程进行全方位建档建立数据运维知识库,自动生成数据交维报告及数据稽核监控规则,提升数据交维效率。
在应对研发治理脱节的挑战上,我们从组织、文化、制度上落地了很多举措,这里重点分享研发治理一体融合的几种方式。早期企业数据管理实践主要采用“强落标、硬标准”的融合方式,数据研发人员感觉到“工作量增加”,不利于一体化治理工作的推进。因此后期的实践企业主要推进“治理融入细无声”的融合策略,根据实践总结成“自动式”、“推荐式”、“运动式”、“事后式”四种:
-?自动式融合:指数据治理标准被自动引用并执行。这种方式通常应用在数据治理最基础环节。常见的场景包括数据架构中的分层标准、分域标准、实体标准、命名标准、字段标准、需求模板标准等自动引用和执行。这种方式落标效果最好,缺乏一定灵活性。
-?推荐式融合:指数据治理标准在研发过程中通过推荐方式被引用和执行。常见的场景包括标准字段的推荐、质量规则的推荐、存储周期的推荐、开发脚本的自动生成等。这种方式相对灵活,但通常结合事后式检测规则使用,以保证最终一致性。
-?运动式融合:指数据治理标准在研发过程中仅针对“增量运动”部分进行引用和执行。这里列举一个典型的场景:数据研发人员需要调整存量模型,但该存量模型全量字段元数据不合规,全量治理难以推进。为兼顾研发进度和治理要求,对变更内容进行精细化识别,仅增量部分引用和执行治理标准,以“运动”方式驱动治理。
-?事后式融合:指数据治理标准引用和执行进行事后监控分析,通常作为一体化治理的一种保障制度。监控范围包括异常新增行为、异常变更行为、异常删除行为是否合规。这种融合方式通常结合数据研发的Owner制度和工单流程进行闭环管理,确保一体化治理体系的落地。
在应对治理成效应用的挑战上,本实践建立了治理成效量化体系及数据治理应用转化机制,"以用促治、以治促用"的理念是指通过数据的有效使用促进数据治理的改进,同时通过严格的数据治理促进数据的高效和安全使用,这里重点分享“治”、“用”互促的场景:
-?以用促治:以用促治强调通过数据使用驱动数据治理完善。以“监控网络性能数据来优化其服务和网络”为例,企业在进行网络优化用数看数时,可能会遇到信号强度、流量分配等指标准确性、一致性疑问。一方面平台会提供智能客服助手提供自然语言式的“问诊”服务,另一方面智能数据治理中心会根据问诊信息不断检查数据不合规性,以自动或者工单方式对数据进行完善治理。
-?以治促用:以治促用强调严格的数据治理驱动数据的高效使用。以数据血缘应用为例,尽管平台提供了字段级、口径级的血缘能力,血缘解释准确率也达97%以上。但仍存在不可信的可能,导致数据血缘只能定位是“辅助”用于分析参考。而在研发治理一体化体系下,平台对血缘进行严格治理,通过人工、数据用例、逆向验证等手段对数据血缘进行可信保证,推动数据血缘直接用于数据生产及运维活动中。
本实践基于DataOps构建研发治理一体化体系,在提升交付效率、降低治理成本方面取得较好成效,有效应对企业当前面临的数据管理挑战。未来将继续推动DataOps与大模型、Data Fabric等技术深度融合,助力企业数字智能化加速转型。
文献引用:
[1] 中国信通院.DataOps实践指南解读.