数据去重,用DISTINCT还是GROUP BY?

发布时间:2023年12月28日



1、背景概述


在执行某个去重任务时:

select count(distinct sta_id) num from tab_user

MapReduce Job卡在了最后一个ReduceTask,任务迟迟未运行成功,ReduceTask只有一个

如果某个Job任务卡在99%不动,例如,某个Reduce的时间比其他Reduce时间长的多,大部分Task在1分钟左右完成,只有一个Task执行20多分钟还没完成。这时我们就应该考虑出现数据倾斜了

如果每个ReduceTask执行时间差不多,都特别长,不一定是数据倾斜导致的,可能是ReduceTask设置过少导致的。这时可以调整ReduceTask个数

一般一个Reduce处理的数据是1G(默认),所以首先想到的是能不能增加Reduce处理的数据量和个数来解决上述问题:

-- 指定每个Redcue处理的数据size
set hive.exec.reducers.bytes.per.reducer = 12000000;

-- 指定ReduceTask的个数
set mapred.reduce.tasks = 100;

经验证,调整了上述参数后,问题依旧没有得到解决

这种问题该怎么处理呢?问题的原因还得从以下两条SQL的区别与原理说起:

文章来源:https://blog.csdn.net/weixin_55629186/article/details/135273592
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。