欢迎关注WX公众号:数据运营入表资产化服务
获取更多算法源码材料
2023数据资源入表白皮书,推荐系统源码下载-CSDN博客
浅析研发支出费用化和资本化的区别-CSDN博客
商业银行数据资产估值白皮书,推荐系统源码下载-CSDN博客
用友BIP数据资产入表解决方案白皮书,推荐系统源码下载-CSDN博客
?
一、实时数仓架构解决了什么问题
二、离线数仓如何分层以及每个层级的用途
三、数仓分层的必要性
四、Lambda架构
五、Kappa架构
六、具体五种方案的解析
七、选型建议
八、分享
九、结语&延伸思考
一、实时数仓架构解决了什么问题
传统数据仓库主要处理T+1数据,即今天产生的数据分析结果明天才能看到,这已经无法满足企业对实时数据处理的需求。因此,实时数仓架构应运而生,其能够提供实时数据处理的能力,以满足企业对于数据实时性的迫切需求。
实时数仓架构可以提高数据处理的速度和效率,使企业能够更快地获取数据洞察,从而更好地支持决策和业务运营,为企业提供更好的数据支持。
二、离线数仓如何分层以及每个层级的用途
在介绍实时数仓前,我们先回顾下离线数仓的分层架构,这将对我们后面理解实时数仓架构设计具有很大帮助。
数仓一般分为以下几层:
三、数仓分层的必要性
数仓分层的必要性主要体现在以下几个方面:
四、Lambda架构
Lambda架构将数据分为实时数据和离线数据。
针对实时数据使用流式计算引擎进行计算(例如Flink),针对离线数据使用批量计算引擎(例如Spark)计算。然后分别将计算结果存储在不同的存储引擎上对外提供数据服务。
这种架构的优点是离线数据和实时数据各自计算,既能保障实时为业务提供服务,又能保障历史数据的快速分析。它分别结合了离线计算引擎与流式计算引擎二者的优势。
但是有一个缺点是离线数据和实时数据的一致性比较难保障,一般在离线数据产生后会使用离线数据清洗实时数据来保障数据的强一致性。
五、Kappa架构
这种架构将数据源的数据全部转换为流式数据,并将计算统一到流式计算引擎上。
这种方式的特点使架构变得更加简单,但是不足之处是需要保障数据都是实时的数据,如果数据是离线的话也需要转化为流式数据的架构进行数据处理,具体架构可结合这张图来看。