数据质量表示数据是否能满足业务需求或达到某种标准,能够满足需求的数据就是高质量数据,不能满足需求的数据就是低质量数据。
数据质量直接影响结果:
数据质量差的危害很多,会导致数据统计不准确,进而导致决策不正确,损失金钱。还会增加各种各样的成本,沟通成本,数据处理成本等;客户看到数据变动较大或与实际出入过大会导致信誉度降低等一系列问题产生。
数据质量维度包含如下内容:准确性、一致性、有效性、及时性、完整性、唯一性;简称六性,他们各自的含义如下:
除了以上六性之外,有些资料还会有其他的性质,比如合理性、关联性等。
数据质量测量是指为了达到某种预期,按照一定的标准从数据质量维度进行衡量,以确定数据达到预期的程度。
我们为什么要对数据进行质量测量,必须是有目的的,否则测量结果将毫无意义。
数据质量测量的结果必须是可以重复测量的,这代表着我们测量结果的准确性以及真实性。
我们通过数据质量测量的到的结果必须是可以解释通的,比如某个指标和实际差异过大,就要通过业务层次去解释为什么会差异过大。
数据质量管理就是我们对数据整个的生命周期都要对数据的质量进行管控,对数据从计划、 获取、存储、 共享、 维护、 应用到消亡生命周期的每个阶段可能引发的数据质量问题, 进行识别、 测量、 监控、 预警等一系列管理活动, 并通过改善和提高组织的管理水平使数据质量获得进一步提高。 数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值, 并最终为企业赢得经济效益。
根因分析就是对可能导致某种问题的根本原因进行分析,要考虑多个层面的因素,比如导致数据质量差的原因可能有如下:人为因素、系统行为、流程因素、环境条件等。
找到导致问题的根本原因再找出适当的解决方案并制定预防措施。
“拨开迷雾见明月“分析任何问题都应该找到问题的本质。 进行数据质量问题的根因分析, 不仅在于解决业务部门和技术部门的矛盾, 更重要的是能够帮助企业利益干系人发现数据质量问题的症结所在, 从而找到适当的解决方案。
数据是具有生命周期的,数据的“一生”要经历规划设计(定义) 、 数据创建、 数据使用、 数据老化、 数据消亡五个阶段, 每个阶段都有可能发生数据质量问题。
在数据设计阶段,数据的定义或设计不当会产生数据质量问题。
比如:数据字段存在二义性、手机号码长度限制等。
将不准确的数据录入到系统。
比如:数据拼写错误,数据录入错误,丢失数据记录,列表选择了不争取的选项。
在数据使用阶段, 要关注是否正确使用和解释了数据。
比如:“客户”数据在多个系统中共存,多个系统中重复录入,结构不一致。系统迁移过程中数据值的丢失、错位、不完整等。
数据不是静止的,是可能随着时间发生变化的。
比如:手机号的更换、客户联系人的变更。
数据消亡阶段, 对使用完的数据进行归档及销毁操作。
如下图:
鱼骨图是由日本管理大师石川馨先生提出的一种把握结果和原因的方便而有效的方法, 故名“石川图”。 它是一种透过现象看本质的分析方法, 非常适用于数据质量问题的根因分析。鱼骨图是因果分析中常用的工具。
首先, 需要从多个维度对引发问题的直接原因进行归集;
其次, 依次列出直接原因所导致的问题“事实”;
然后, 分析每一个“事实”发生的原因;
最后, 找到导致问题发生的根本原因。 鱼骨图有助于探索阻碍结果的因素, 适用于数据质量问题的分析。
5Why分析法的精髓就是多问几个为什么, 鼓励解决问题的人努力避开主观假设和逻辑陷阱, 从结果着手, 沿着因果关系链条顺藤摸瓜, 穿越不同的抽象层面, 直至找出原有问题的根本原因。
故障树图是一种逻辑因果关系图, 是一种图形演绎法, 是故障事件在一定条件下的逻辑推理方法, 可针对某一故障事件进行层层追踪分析。 故障树图的特点是直观明了, 思路清晰, 逻辑性强, 既可以进行定性分析, 也可以进行定量分析。 它体现了以系统工程方法研究安全问题的系统性、准确性和预测性。
帕累托图是条形图和折线图的组合, 条形图的长度代表问题的频率, 折线表示累积频率, 横坐标表示影响质量的各项因素, 按影响程度的大小(出现频数) 从左到右排列 。 通过对排列图的观察分析可以抓住影响质量的主要因素, 进而确定问题的优先级。
帕累托图是基于80/20法则的分析, 即认为发生的全部问题中有80%是由20%的问题原因引起的。 这意味着, 如果有针对主要问题的解决方案, 则可以解决大部分的数据质量问题。
数据质量管理应秉持预防为主的理念, 坚持将“以预控为核心, 以满足业务需求为目标”作为工作的根本出发点和落脚点, 加强数据质量管理的事前预防、 事中控制、 事后补救的各种措施, 以实现企业数据质量的持续提升。
事前预防策略:
事中控制策略:
事后补救策略:
数据质量管理工具用于为企业特定的数据集定义数据质量规则, 进行数据质量评估, 开展数据质量稽核, 并促进企业数据质量及相关业务流程的优化和改进。
数据质量管理是用于识别、 理解和纠正数据缺陷的过程, 通过数据缺陷的发现和纠正提升企业数据质量, 以支持企业的业务协同和决策支持。 在实践中, 数据质量管理工具具有一系列关键功能, 如数据质量分析、 数据解析、 数据标准化、 数据清洗、 数据匹配、 数据集成和数据质量监控等。
定义数据质量指标是数据质量测量和管理的第一步, 主要涉及数据质量维度、 数据质量指标、 权重和期望值等。 数据质量指标是由业务人员根据各测量类别对不同业务实体提出的数据质量衡量标准, 它是各数据质量测量类别在不同业务实体上的具体体现。
企业的数据质量维度一般包括数据唯一性、 一致性、 准确性、 关联性、 完整性、 及时性等。 数据质量维度反映了数据质量不同的规格标准, 也体现了高层次的指标度量的特点。
针对不同的数据质量检核对象, 依据数据质量维度, 定义数据质量指标。每个数据质量指标都是从业务实体的角度对质量问题进行简单描述, 都包含一个或多个信息项, 这些信息项就是每一个业务实体具体要检核的对象。 我们可以在每一个数据质量指标的基础上根据不同的信息项确定具体的检核方法。
依据实际业务所需为数据质量指标定义度量的标准, 一个数据质量指标可以设置多个度量标准, 为每个度量指标设置可接受的阈值、 权重等。 例如:对“有效客户”的度量, 就需要设置多个维度的度量指标, 如最后一次登录时间、 访问频次、 有效交易次数、 最后一次交易时间等。 度量指标得分低于可接受水平的数据不符合业务用户的期望, 必须加以改进以避免对业务和分析产生负面影响。
数据质量测量是数据质量管理平台的核心功能, 支持基于给定数据质量维度、 数据质量规则和指标对目标数据集实施定期或持续的测量。
用各种统计和分析算法以及业务规则来探究数据集的内容及其数据元素的特征。 数据质量管理工具支持以下三种数据质量剖析类型。
通过对不同业务需求和数据质量问题的收集、 分类、 抽象和概括, 采用定量和定性的数据质量分析方法, 对数据质量问题进行评估, 确定哪些数据缺陷对业务流程有重大影响, 为下一步制定数据问题的解决方案奠定基础。