Flink实时电商数仓(十)
发布时间:2024年01月02日
common模块回顾
- app
- BaseApp: 作为其他子模块中使用Flink - StreamAPI的父类,实现了StreamAPI中的通用逻辑,在其他子模块中只需编写关于数据处理的核心逻辑。
- BaseSQLApp: 作为其他子模块中使用Flink- SQLAPI的父类。在里面设置了使用SQL API的环境、并行度、检查点等固定逻辑。
- bean:存放其他子模块中使用到的javaBean对象,因为如果一直使用jsonObject对象调用数据的话,需要使用类似
getString("字段名")
的方式,没有直接使用javaBean对象那么方便。 - constant
- 存储字符串常量
- 为了保证一致性,如果某个常量修改时,只需在这里修改即可对整个项目进行修改
- function
- DorisMapFunction:将javaBean对象转换为对应的json字符串对象,并且将驼峰式命名方式修改为蛇形命名方式。便于写入doris。
- util
- DateFormateUtil
- FlinkSinkUtil
- FlinkSourceUtil
- HBaseUtil
- IkUtil
- JdbcUtil
- SQLUtil
- getUpsertKafakaSQL: 一定要声明主键,支持撤回流
- getDorisSinkSQL: 用于写入Doris
dim层回顾
- Flink-cdc监控mysql中的维度配置表
- 将监控的数据流做成广播流
- 将广播流和读取数据的主流进行connect
- 主流数据根据广播流的配置信息进行分流,注意需要先提前缓存一次配置表信息
- 达到动态拆分数据表的效果
dwd层FlinkSQL回顾
- 注意join时会将所有数据都存储到内存中,需要考虑设置TTL
- 大表join小表时,可以考虑使用lookup join
- 如果数据流有明确的先后关系时,考虑使用Interval join
在支付成功模块,由于订单详情表处理时已经存在撤回流,但支付成功模块也是使用left join方式调用订单详情数据,会导致产生两次撤回流。在后续dws层处理时,要注意对数据进行去重过滤。
dws层回顾
- 如何判断使用FlinkSQL还是StreamAPI
- 如果比较标准化, 比如简单的开窗聚合,一般使用FlinkSQL
- 如果需要使用状态处理数据,比如判断是否为独立用户,使用StreamAPI
交易域sku粒度订单下单各窗口汇总
维度关联优化
- 旁路缓存:独立缓存服务有(redis, memcache).
- 使用旁路缓存时要注意保持数据的一致性,如果数据发生修改和删除,直接删除redis中的数据。
同步+旁路缓存模式
- 引入Jedis相关依赖
<dependency>
<groupId>redis.clients</groupId>
<artifactId>jedis</artifactId>
</dependency>
- 创建Redis工具类RedisUtil
- 在RichMapFunction中的open和close方法中获取和关闭HBase和Redisd的连接。
- 拼接对应的redisRowKey
- 读取Redis缓存的数据,jsonObj的字符串
- 判断redis读取到的数据是否为空
- 没有数据:需要读取HBase;
jsonObj = HBaseUtil.getCells()
, 读取到数据后,使用jedis.setex()
存储到redis - redis有缓存,直接返回
- 进行维度关联
Dim层写入HBase修正
- 在dim层将数据写入HBase时,需要同时获取Redis的连接。
- 判断redis中的缓存是否发生变化
- 判断数据类型是修改或删除时,删除Redis中对应的数据
- 拼写数据的rowkey
- 使用
jedis.del(rediskey)
来删除
文章来源:https://blog.csdn.net/qq_44273739/article/details/135332977
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:chenni525@qq.com进行投诉反馈,一经查实,立即删除!