1.join
(1)建中间表(大表重复使用,逻辑重复使用,关联多逻辑复杂)
(2)建子查询(减少数据量,减少大表关联)
2.on
(1)null值处理
(2)关联字段唯一
(3)数据倾斜
- 过滤倾斜key(关于驱动表的取,用join key分布最均匀的表作为驱动表
做好列裁剪和filter操作,以达到两表做join的时候,数据量相对变小的效果) - BroadCastJoin(即map join)(使用map join让小的维度表(1000条以下的记录条数) 先进内存。在map端完成reduce)
- 分层汇总
- 拆分倾斜key
- 随机数处理倾斜key(大表Join大表:
把空值的key变成一个字符串加上随机数,把倾斜的数据分到不同的reduce上,由于null值关联不上,处理后并不影响最终结果)
-where+分区过滤
配置参数
1.调整task(调整处理文件大小,调整partition个数)
2.调整executor
3.调整memory
版权声明:本文为weixin_42908473原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。