大数据实践之路 读后感

发布时间:2023年12月29日

欢迎关注公众号:数据运营入表资产化服务,获取更多算法源码材料

2023数据资源入表白皮书,推荐系统源码下载-CSDN博客

浅析研发支出费用化和资本化的区别-CSDN博客

商业银行数据资产估值白皮书,推荐系统源码下载-CSDN博客

用友BIP数据资产入表解决方案白皮书,推荐系统源码下载-CSDN博客

1、内容总体概括

简单来说一下,本书内容可以分四个大部分:一是介绍了数据中台的五大功能模块即元数据中心、数据指标中心、数据资产中心、数仓模型中心、数据服务中心为基础,这部分的构建可以帮助企业更好的梳理自己业务上的数据资产,且使其得到有效的管理和应用;接着第二部分主要围绕数据分析这个岗位来谈了数据分析的分析流程、常见的三种业务场景、分析师需要具备的核心能力、个人成长等;接着第三部分谈了BI系统和用户画像两个知识点,这两部分也是数据分析常见的工作内容;最后一部分以三个数据应用实例来结尾即电商反作弊、咨询个性化推荐、电商个性化推荐。

本书的“故事”叙述方式是我比较喜欢的方式,即以对话、模拟实际业务工作场景来进行叙述的。

2、个人阅读体感

2.1 数据中台的部分:

主要原因是我自己以前在瞎子摸灯的情况下做过,而我当时基本网上各种看现有的资料来搭建自己公司的数据中台,而这本书算是帮我回顾了以前做过的东西和反思,比如数据指标我当时是按照原生指标和派生指标来规划的,和本书不谋而合;但是数据仓库我也没有理完整到底是怎么个架构,因为这部分当时是开发人员负责的,而本书这块正好给了我去补充这点;还有数据资产部分,我当时有做了数据的监控,但是资产成本这块就是欠考虑的,我没有太去考虑这点。总之,这部分的内容,我觉得对于要进行数据中台的搭建工作的同学是可以进行参考,算是讲的全的,细致,同时也建议可以去看一些中台建设的实例配合去看。

2.2 数据分析理论:

这部分虽然有的同学说就是一些概念的堆叠,我倒觉得有的地方可以去借鉴。

比如数据赋能业务,看完后我想到的是大家经常讨论的:怎么体现数分的价值?答案就是数据和业务结合,当然过程必须是满足逻辑闭环(论据要支撑结论)+业务闭环(业务策略要在业务上能够行的通),此处我想再加一个观点:紧扣目标。

比如数据分析团队部分,这部分通过将独立的分析团队和存在于业务的数分岗,因为部门不同,所以你的职责和发展肯定不同,当你知道了这个不同,我觉得就可以帮你在求职的时候有了一个参考依据。前几天有人朋友说,我准备去独立的数据分析部分,在那边更能体现自己的价值啥的。

再比如数据分析过程,我倒觉得无论是在做需求、作专题分析等,这个分析过程是始终是贯穿我们的工作中的。其中有两点我觉得说的很好。第一、始终从解决问题本身出发;第二、核心是分析的思路和方法。

其他部分,自行可以结合自己工作体会。

2.3 用户画像部分:

这部分内容主要以知识理论为主,虽然我没有做过,但是整个体系很完整,值得学习。因为没有太多参与用户画像,感触不深。个人觉得可以看一些实际的案例来更深理解。

3、推荐介绍

本书所讲的知识框架比较完整,偏基础,但是似乎有点太完整,我倒觉得再有一点实际可能遇到的问题,怎么解决,可能会好点。毕竟实际业务纷繁复杂,变化和影响因素很多。适合数据中台搭建、数分人来看。

4、分模块阐述重点内容

4.1 数据中台内容模块

1)元数据中心:

可以系统、全面地查询元数据信息;变更评估及精准变更周知;协助数据问题定位及解决。 核心功能:数据整合;数据管理;数据地图。

数据整合:要支持不同的结构化/非结构化的数据源,且要考虑不同数据源的不同集群。##通过配置定时采集器的方式,对数据进行采集。采集计划有两种:场景采集、周期采集。

数据管理:就是管理数据中台所有的元数据,元数据即描述数据的数据。

元数据数据类型的三大类别:数据属性、数据字典、数据血缘。

1)数据属性主要是关于数据本身的描述。其包括以下几种类型:基础信息、标签信息、业务信息、技术信息、权限信息。
2)数据字典主要描述数据的结构信息。其主要的数据来源是数仓模型中心的数据表的相关配置、调度系统等。
3)数据血缘主要描述表与表之间的关系。其主要的数据来源是数仓模型中心的调度依赖配置、数据指标中心的指标生产逻辑、数据服务中心的逻辑表配置信息等。数据血缘的作用:问题定位排查;指标波动分析;数据预警与产出保障;

数据地图是基于所有元数据搭建起来的数据资产列表。能够解决有什么数据的问题,还能够进行检索,解决数据在哪里的问题。

2)数据指标中心:

数据指标中心是规范化开发指标并对其进行管理和维护的系统,它将指标的组成部分解耦拆分开来,并在逻辑表中进行规范的定义,在此基础上,按照一定的规则对指标的组成部分进行自由拼装,实现自定义指标的功能。

指标管理:(1)一级指标,即原子指标与小部分全平台的核心指标,在从各个业务部门收集需求后,统一由数据中台来产出,有一套完整、规范的开发流程:需求—评审—排期—开发—测试—验收—上线。所有维护管理工作都由数据中台负责。(2)二级指标,即派生指标,由各个业务部门自行通过指标中心生成,没有严格的开发流程,各个业务部门根据需要自行创建,但需要遵守指标命名规范。

3)数据仓库模型中心:

研发流程线:依据业务分析,抽象出主题域---梳理且确定每个主题域下的业务过程---依据业务过程,定义分析维度---构建总线矩阵---数仓分层建设(包括ODS层(操作数据储存层)、CDM(公共维度模型层)ADS(应用层))。

4)数据资产中心:

数据资产中心是建立在元数据之上,对数据进行统计性治理的系统,它主要针对两个方面:质量与成本。

数据资产质量治理:按照业务规则,在数据的关键加工节点上,对每个产出表,设计一个监控规则,来确保数据的完整性(监控表的数量变化)、准确性(主要解决数据记录准确性问题)、一致性(主要解决数据在不同模型中的一致性问题)、规范性(监控代码的规范性,如表命名规范、表注释、生命周期设置等)、时效性(及时地提供服务)。

数据资产成本治理:从数据产品直接应用的数据表开始往回溯源,来计算成本。

5)数据服务中心:

数据服务中心要解决的问题:减少“数据孤岛”及高效地将数据开放出去。

数据服务的形式:数据服务中心通过配置化的方式,将不同数据源的表(关系型数据库、NoSQL数据库、HBase等)通过映射模型生成API,与API调用者形成隔离,既保证了数据的安全,又可以以标准化的方式高效地进行数据的交付。

4.2 数据分析理论

1)数据赋能业务:数据赋能业务有四个环节:数据表现、业务原因、业务策略、作用方式。其过程如下图所示:

需要考虑的问题:在数据赋能业务过程中,业务策略需要考虑两个闭环问题才能确保策略的有效性,即逻辑闭(论据要能够支撑结论)、业务闭环(业务策略在业务上要能够行得通,且能够调整和迭代)

2)数据分析过程:这个可以说是贯穿了整个该岗位的整个工作中

1)明确分析目的;2)明确分析思路;##抓住重点:始终从解决问题本身出发。3)获取数据 ;4)处理与分析数据:关注数据处理的效率、分析的结论以及呈现的方式。

##核心:注意思路和方法;5)撰写报告;补充:推动策略落地、复盘
##复盘的考察点:(1)落地的策略是否可以解决业务出现的问题?(2)落地的质量如何?(3)分析的框架有没有问题?(4)分析得出的结论有没有问题?

3)数据分析的3种场景:

预测性分析、描述性分析和诊断性分析。(1)预测性分析:基于现有的数据,结合实际情况,预测业务未来的发展。##分析思路和方法:按照数据分析的流程进行。(2)描述性分析:有逻辑、成体系地拆解业务,用合理的指标整体评估业务的状态。##对业务的描述性分析,同样按照数据分析的流程进行。(3)诊断性分析:针对业务的异常波动,分析背后的原因,并提出解决策略。##评估标准:一般是关键指标的变化符合预期。

4)数据分析的核心能力:专业能力和影响力

理解业务:
1)参与业务:实际参与业务作业一段时间。(2)调研/访谈一线业务人员。(3)多与业务部门打交道。
##对数据分析师来说, 完整的工作场景是业务—数据—信息—知识—合作。数据分析师 要尽量参与更多的环节,尤其不要只是停留在数据这个环节。

5)数据分析师的工作:

(1)偏向外的战略分析;(2)偏向内的业务分析;#补充:调研的工作。
##记住:数据只是辅助数据分析师更好地理解业务的工具。

6)个人成长:

不要只关注做了多少事,不要太多关注自己的短期收益,要看长期收益。多关注自己长期的成长、核心竞争力的培养等。

7)数据分析团队:

两种存在形式:(1)以独立的实线部门存在。(2)存在于业务部门中。##两种组织架构没有哪个是绝对合理的,只需看组织架构是否适应当前企业业务发展的需要。

8)数据分析师的工作方式:

想清楚当下自己的核心诉求是什么,要学会不断地根据客观环境调整自己的状态,让自己的工作与核心诉求保持一致,最大地激发自己的热情与创造力,要经常反观自己是否还位于第一象限。可以参考如下的工作象限图:

4.3 BI系统+用户画像

1)BI系统: BI系统的代表tableau、PowerBI、帆软等。是数据计算分析和操作交互的系统。

BI系统的核心功能:选择数据源并建立数据模型、创建可视化数据报表,以及数据分析与可视化结果展示。

2)用户画像:

在精细化运营中,用户画像体系的建设有很重要的作用。

a、用户画像基础:

用户画像概念:

用户画像是指从用户的基础信息、用户行为、业务信息等海量数据中,抽象出一个个标签,通过给用户贴上若干标签来还原用户全貌的过程。

用户标签:

用户标签是通过对用户的基础信息、用户行为、业务信息等数据,进行数据建模所产生的用户特征。其标签值具有高度概括、相互独立及可枚举、可穷尽的特点。例如,性别可枚举为男、女、未知。

用户分群:

用户分群是指由批量用户组成的用户群体,可通过筛选标签组合来获取。例如,可通过筛 选“25~30岁、女性、母婴类商品意向”等标签组合,来获取母婴类人群。

b、用户画像建设:

建设用户画像体系,最主要的是把握一个中心和一条主线。即用户画像体系=一个中心+一条主线。

  • 一个中心:

以经济建设为中心。用户画像体系本质是为了服务商业活动,需要秉持“降成本、提效率、创收益”的基本准则。

  • 一条主线:

一条主线即产品研发的基本流程为主线。 建设用户画像体系在实施层面,本质上是一个产品化的过程,因此用户画像体系的建设符合产品研发的基本规律。?用户画像体系建设可以分为需求阶段、产品规划阶段、产品设计阶段、开发测试阶段和运营阶段这5个阶段。

##用户画像的应用:1)精准广告投放;2)智能运营;3)智能客服;4)智能风控,比如营销反“薅羊毛”,做法:利用用户画像以及特征,切入智能风控。

4.4 实际案例

1)电商反作弊体系:

解决方案:a、事前阶段:活动规则设计,此营销活动规则,技术方案(接入第三方风控系统、白名单数据维护、有监督机器学习)。b、事中阶段:无监督机器学习,真人操作识别,孤立森林模型。c、事后阶段:反例特点,规则思路建设。

2)资讯个性化推荐:

个性化推荐,就是按照每个用户的喜好,在合适的时间、合适的场景,把合适的内容,以合适的形式呈现给用户,满足用户的需求。

资讯推荐的组成,如下图所示:

3)电商个性化推荐:

a、定义:App为用户推送消息就是push。

b、目标:push的目标是获取新用户、激活老用户、召回流失的用户。

c、本质:push的本质是将合适的内容,在合适的时间和合适的场景下,推荐给合适的用户,并带来转化。

d、push的衡量:从短期、长期、用户行为分析。即从短期来看,push的衡量指标是拉新数量和拉新贡献度。从长期来看,push的衡量指标从推送、点击、到达、浏览、加购、下单、支付、复购整个链条来提高,为最后的GMV负责。从用户行为路径来看,一条push经历了到达、展示、点击、浏览、加购、下单、支付的流程。

Push的衡量指标,如下图所示:

e、push的优化方向:效率高、算法准、推荐好、展示靓。

文章来源:https://blog.csdn.net/shenxiaoming77/article/details/135291563
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。