专栏中心

EEPW首页 > 专栏 > 离线数仓优化简述

离线数仓优化简述

发布人:天翼云开发者 时间:2025-07-24 来源:工程师 发布文章

本文分享自天翼云开发者社区《离线数仓优化简述》,作者:徐****东

1、业务层面

    计算量太大是不是必须的,是否可以减少参与计算的用户量或者时间跨度;
    计算逻辑是否过于复杂,是否可以简化。

2、模型层面

    是否有现成的数据可以使用或者基于现成的数据进行加工;
    是否可以将整个计算逻辑进行合理拆分,降低每个子任务的复杂度,同时提高复用的可能性;
    维度退化,空间和时间的权衡。

3、系统层面(遵循一些计算引擎建议的使用规则和参数设置)

    使用Spark3引擎,自动合并小文件;
    输入文件的存储格式、压缩格式、大小;
    输出文件的大小;
    启用压缩;
    分区、分桶;
    拉链表;
    yarn队列的设置;
    合适的计算引擎;
    task的内存设置;
    task处理的数据量;
    task的数量;
    并行度优化;
    调整参数减少Map数量;
    调整参数减少reduce数量。

4、sql、代码层面

    列裁剪,避免select *;
    分区裁剪,使用分区字段过滤;
    条件限制;
    谓词下推;
    map端预聚合;
    大key的过滤;
    打散倾斜key;
    合适的join方式;
    用Distribute By Rand控制分区中数据量;
    group by优化;
    中间结果的缓存和复用;
    小文件优化。

5、任务层面

    减少任务依赖,尽可能缩短链路;
    业务链路/逻辑重构/改写;
    任务分级,任务数评估,错峰调度;
    任务依赖降级,周级别的任务依赖天级别,天级别依赖小时级别,小时级别依赖分钟级别;
    避免频繁创建任务;
    核心任务优先保证产出,双链路机制开启;
    耗时长的任务拆分成子任务。任务批次提交;
    资源动态扩容;
    资源腾挪调整;
    无用任务下线。


专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词: 大数据 离线数仓

相关推荐

IDC预计,2028年中国大数据总体市场规模将超621亿美元

智能计算 2025-04-21

物联网开发者大会清华张林演讲

资源下载 2016-12-13

丰田将与腾讯在电动汽车人工智能、云计算和大数据方面展开合作

IDC预计,2029年中国大数据总体市场规模将超730亿美元

智能计算 2025-09-11

晶圆代工厂商牵手RISC-V企业,瞄准低功耗AI芯片

上海:加快智算芯片国产化部署

大数据产业链构成分析

基于大数据与深度学习的穿戴式运动心率算法

2024年政府工作十大任务发布,大数据、人工智能是重点

大数据时代

资源下载 2015-05-23

GMIF2024聚焦产业创新之道 共谋存储生态繁荣发展

用大数据方法协助研发下一代电池电解液

如何快速搭建Hadoop运行环境

资源下载 2020-04-01

工信部:我国新能源汽车发展正带动产业生态全面重塑

大数据在物流行业的应用

资源下载 2020-04-03
更多 培训课堂
更多 焦点
更多 视频

技术专区