[591] Spark+ClickHouse实战企业级数据仓库，进军大厂必备 - 全方位提升项目开发经验，上手 ClickHouse+Spark，实现个人的成长蜕变风筝自习室-课程资源-网盘资源风筝自习室

网站资源均收集于公开网络，仅供学习和交流。版权归版权人所有，所标价格为资源收集整理费用，如喜欢作品请支持正版。

网盘链接：

此处内容已隐藏，请付费后查看

1. 从0到1搭建项目开发环境，快速上手大数据开发

1-1 大数据时代，你还不知道数据仓库么？
1-2 本章概览
1-3 基于IDEA + Maven构建Spark工程
1-4 数据开发环境(Spark/Hive/Hadoop/MySQL/IDEA)搭建
1-5 Maven安装配置
1-6 源码、启动脚本、配置等自动构建打包
1-7 项目多模块规划与自动构建打包

2. 项目关键技术准备，学习通用的数据处理技术

2-1 本章概览
2-2 IPv4和数值转换
2-3 IP地址简写和全写的格式转换
2-4 IP地址二分查找
2-5 Spark自定义IP函数
2-6 初识Grok通用数据解析器
2-7 在程序中解析Grok
2-8 自定义Grok表达式
2-9 Grok工具类封装
2-10 在Spark中集成Grok
2-11 Grok的序列化问题与源码修改
2-12 Spark源码优化，支持对MySQL的数据进行更新
2-13 【阶段作业】如何读取Grok的资源文件

3. 项目数据准备，操练基于Spark的数据开发与优化

3-1 本章概览
3-2 项目业务数据
3-3 生成IP、域名、IP位置的中间数据（上）
3-4 生成IP、域名、IP位置的中间数据（下）
3-5 生成域名备案、IP位置、违规实体数据
3-6 基于Grok模拟安全访问日志
3-7 安全访问日志生成之广播变量优化
3-8 【阶段作业】超大广播变量如何优化？

4. 初识OLAP数仓架构

4-1 本章概览
4-2 基于Lambda架构的数仓
4-3 基于Kappa架构的数仓
4-4 基于实时OLAP架构的数仓
4-5 【面试官来啦】面试讨论题

5. 详解数据仓库基础理论，掌握数据仓库的实施流程

5-1 本章概览
5-2 数据仓库的定义
5-3 3NF范式建模
5-4 Kimball和Inmon数据仓库架构
5-5 数据仓库建模方法
5-6 事实表与维度表
5-7 星型、雪花和星座维度模型
5-8 数据仓库构建流程
5-9 数据仓库分层模型
5-10 【面试官来啦】面试讨论题

6. 【项目实战第一篇】项目业务流程与ODS层数据同步

6-1 课程目录
6-2 项目业务流程与技术架构
6-3 ODS数据同步技术架构
6-4 基于HDFS API的数据同步
6-5 基于HDFS API的数据同步工具封装
6-6 业务数据库的数据同步
6-7 【阶段作业】Spark如何读取配置文件？
6-8 【阶段作业】HDFS数据同步多线程优化

7. 快速上手OLAP分析引擎ClickHouse

7-1 本章概览
7-2 初识OLAP分析引擎ClickHouse
7-3 ClickHouse与MySQL、Hbase、Elasticsearch
7-4 ClickHouse单机版安装
7-5 ClickHouse快速入门
7-6 ClickHouse-client使用
7-7 ClickHouse常用的数据格式
7-8 可视化工具DBeaver安装配置
7-9 ClickHouse表引擎快速入门
7-10 ClickHouse学习建议

8. 基于Spark源码自定义ClickHouse外部数据源，简化数据写入流程

8-1 本章概览
8-2 JDBC操作ClickHouse
8-3 使用Spark将数据写入ClickHouse
8-4 Spark写ClickHouse的配置化改造
8-5 在Spark中集成写ClickHouse的通用能力
8-6 基于Spark源码自定义ClickHouse外部数据源

9. 数仓高级之维度模型设计

9-1 本章概览
9-2 维度相关基本概念
9-3 维度设计的基本方法
9-4 维度设计的反规范化
9-5 一致性维度集成
9-6 维度模型设计原则和方式
9-7 缓慢变化维度SCD
9-8 维度的层次关系
9-9 其他常见的维度模型
9-10 【面试官来啦】面试讨论题

10. 【项目实战第二篇】构建项目公共维度层

10-1 本章概览
10-2 反规范化维度合并之应用内容的模型设计与实现
10-3 公共方法封装
10-4 维度合并拆分之IP域名备案模型设计
10-5 IP域名备案维度代码实现
10-6 违规IP域名数据入库
10-7 维度层次结构扁平化之IP地址段区域维度模型设计
10-8 IP地址段区域维度代码实现
10-9 【阶段作业】ClickHouse的覆盖写功能

11. ClickHouse的MergeTree系列引擎原理、实践与优化

11-1 本章概览
11-2 表引擎概述
11-3 MergeTree引擎
11-4 表/列的TTL生命周期
11-5 数据片段存储合并机制与自定义分区
11-6 主键、索引、数据标记的工作机制
11-7 性能优化利器之跳数索引的基本使用
11-8 性能优化利器之跳数索引实现原理与使用场景
11-9 【重难点梳理】性能优化利器之跳数索引
11-10 性能优化利器之Projection
11-11 【重难点梳理】性能优化利器之Projection
11-12 【阶段作业】Projection的使用有哪些限制？
11-13 ReplacingMergeTree引擎
11-14 【重难点梳理】ReplacingMergeTree引擎
11-15 SummingMergeTree引擎
11-16 【重难点梳理】SummingMergeTree引擎
11-17 AggregatingMergeTree引擎
11-18 【重难点梳理】AggregatingMergeTree引擎
11-19 CollapsingMergeTree引擎
11-20 【重难点梳理】CollapsingMergeTree引擎
11-21 VersionedCollapsingMergeTree引擎
11-22 【重难点梳理】VersionedCollapsingMergeTree引擎
11-23 MergeTree系列引擎选型对比
11-24 数据实时更新删除
11-25 【重难点梳理】如何实现数据的实时更新删除

12. 数仓高级之事实表模型设计

12-1 本章概览
12-2 事实表设计过程
12-3 事务、无事实事实表模型设计
12-4 多事务事实表模型设计
12-5 周期快照事实表模型设计
12-6 累积快照事实表模型设计
12-7 聚集事实表模型设计
12-8 六类事实表对比
12-9 【面试官来啦】面试讨论题

13. 【项目实战第三篇】数据清洗加工，构建项目数据明细层

13-1 本章概览
13-2 事务无事实事实表模型建模
13-3 日志事务事实表代码实现（上）
13-4 日志事务事实表代码实现（下）
13-5 日志拦截无事实事实表代码实现
13-6 累计快照事实表建模与代码实现
13-7 Spark资源参数调优
13-8 【重难点梳理】Spark资源参数调优
13-9 大数据量场景下的程序部署与优化实践
13-10 周期性快照事实表模型设计与实现
13-11 【重难点梳理】周期性快照事实表模型设计与实现
13-12 【面试官来啦】面试讨论题
13-13 【阶段作业】结合数据进行模型设计

14. 构建ClickHouse分布式集群，掌握分布式环境的数据查询、写入优化方案

14-1 本章概览
14-2 集群规划与环境准备
14-3 ClickHouse集群安装配置
14-4 ClickHouse集群功能验证
14-5 ClickHouse的原子写入与去重
14-6 ClickHouse分布式集群部署
14-7 Zookeeper关键优化点
14-8 复制表与副本同步机制
14-9 分布式表与本地表

15. 【项目实战第四篇】负载均衡与高可用方案实践，自定义Spark写本地分片表策略

15-1 本章概览
15-2 负载均衡与高可用五问
15-3 分布式请求的副本高可用和负载均衡
15-4 基于代码层面的负载均衡与高可用
15-5 基于Nginx反向代理TCP与HTTP的负载均衡与高可用
15-6 【重难点梳理】基于Nginx反向代理TCP/HTTP的负载均衡与高可用
15-7 基于Chproxy的负载均衡与高可用
15-8 【重难点梳理】基于Chproxy的负载均衡与高可用
15-9 Spark如何写本地表方案
15-10 Spark写本地表之随机策略代码实现
15-11 Spark写本地表之轮询策略代码实现
15-12 大数据量场景写ClickHouse集群的程序部署与优化
15-13 Spark自定义分片路由与方案总结
15-14 【面试官来啦】面试讨论题
15-15 【阶段作业】Spark实现分片key的自定义路由策略

16. 【项目实战第五篇】如何选择合适的维度表存储方案

16-1 本章概览
16-2 Log系列引擎
16-3 MySQL引擎
16-4 【重难点梳理】MySQL引擎
16-5 HDFS引擎与HA配置
16-6 【重难点梳理】HDFS引擎与HA配置
16-7 高性能数据检索的RocksDB引擎
16-8 【重难点梳理】高性能数据检索的RocksDB引擎
16-9 Kafka引擎
16-10 JDBC引擎引擎
16-11 Merge表引擎
16-12 【重难点梳理】Merge表引擎
16-13 Join表引擎
16-14 【重难点梳理】Join表引擎
16-15 深入浅出ClickHouse数据字典（上）
16-16 深入浅出ClickHouse数据字典（下）
16-17 【重难点梳理】深入浅出ClickHouse数据字典
16-18 分布式场景的表关联子查询的运行流程与优化
16-19 分布式场景下的维度表存储选型优化
16-20 项目的维度表存储优化
16-21 【重难点梳理】项目的维度表存储优化

17. 【项目实战第六篇】数据汇总层与应用查询优化

17-1 本章概览
17-2 主键与排序键优化
17-3 聚合查询优化
17-4 物化视图提速
17-5 DWS层之IP流量监测主题
17-6 【重难点梳理】DWS层之构建IP流量监测
17-7 DWS层之区域流量分析主题
17-8 【重难点梳理】DWS层之构建区域流量分析主题
17-9 构建数据应用层(ADS)
17-10 【重难点梳理】构建AWS数据应用层
17-11 应用查询优化案例
17-12 【重难点梳理】应用查询优化案例
17-13 数据写入与查询优化常用经验法则
17-14 【阶段作业】构建违规IP/域名的上下行流量聚集事实表汇总模型

18. 【项目实战第七篇】基于轻量级BI工具的数据展示与可视化监控

18-1 本章概览
18-2 基于轻量级BI工具的数据可视化效果
18-3 Superset环境搭建与基本使用
18-4 【重难点梳理】Superset环境搭建与基本使用
18-5 Superset查询分析可视化展示
18-6 Grafana的安装与ClickHouse数据源管理
18-7 【重难点梳理】Grafana的安装与ClickHouse数据源管理
18-8 Granfana查询分析可视化展示
18-9 ClickHouse监控概述
18-10 ClickHouse系统表+ Granfana可视化监控
18-11 Promethues安装与ClickHouse的metric采集
18-12 【重难点梳理】Promethues安装与ClickHouse的metric采集
18-13 prometheus + Granfana可视化监控

19. 数仓管理之调度系统DolphinScheduler 3.x

19-1 本章概览
19-2 我们为什么需要配合调度系统
19-3 DolphinScheduler单机部署
19-4 快速上手DolphinScheduler
19-5 DolphinScheduler源码编译
19-6 DolphinScheduler伪集群安装
19-7 【重难点梳理】dolphinscheduler集群部署
19-8 工作流管理之子流程管理
19-9 工作流管理之依赖检查管理
19-10 工作流管理之Conditions条件分支判断
19-11 工作流管理之Switch条件分支判断
19-12 本地和HDFS两种文件资源管理方式
19-13 内置参数、本地参数、全局参数和参数传递
19-14 如何动态生成自定义参数
19-15 Spark任务节点管理
19-16 流程告警管理
19-17 数仓项目之文件数据源同步
19-18 数仓项目之Spark工作流调度

20. 构建现代数据技术栈的元数据管理平台

20-1 本章概览
20-2 为什么数仓管理中需要元数据管理
20-3 元数据体系架构的演进
20-4 DataHub的元数据体系架构
20-5 DataHub元数据系统搭建
20-6 基于Pull(拉取）流程的元数据摄取
20-7 基于Pull的元数据摄取实践
20-8 DataHub的MetaData元数据模型
20-9 基于Kafka的Sink接收器同步MySQL元数据
20-10 ClickHouse的元数据摄取实践
20-11 可视化BI工具的元数据摄取
20-12 构建数据集之间的血缘链路实践
20-13 构建数据集与可视化BI工具的血缘链路实践
20-14 自定义基于元数据事件的实时响应流程

21. 通用数据质量管理实践

21-1 本章概览
21-2 如果数仓不考虑数据质量会有什么危害
21-3 数据质量评估标准
21-4 数据质量管理架构与数据模型
21-5 通用数据质量管理工具之配置逻辑
21-6 通用数据质量管理工具之代码实践
21-7 通用数据质量管理工具之历史周期性质量指标对比
21-8 单数据源的检查之唯一性校验
21-9 单数据源的检查之表字段长度校验
21-10 单数据源的检查之表记录数检查
21-11 单数据源的检查之枚举值校验
21-12 多数据源检查之准确性检查
21-13 【阶段作业】及时性检查和多数据源的值对比功能

网站资源均收集于公开网络，仅供学习和交流。版权归版权人所有，所标价格为资源收集整理费用，如喜欢作品请支持正版。

THE END

[591] Spark+ClickHouse实战企业级数据仓库，进军大厂必备 - 全方位提升项目开发经验，上手 ClickHouse+Spark，实现个人的成长蜕变

1. 从0到1搭建项目开发环境，快速上手大数据开发

2. 项目关键技术准备，学习通用的数据处理技术

3. 项目数据准备，操练基于Spark的数据开发与优化

4. 初识OLAP数仓架构

5. 详解数据仓库基础理论，掌握数据仓库的实施流程

6. 【项目实战第一篇】项目业务流程与ODS层数据同步

7. 快速上手OLAP分析引擎ClickHouse

8. 基于Spark源码自定义ClickHouse外部数据源，简化数据写入流程

9. 数仓高级之维度模型设计

10. 【项目实战第二篇】构建项目公共维度层

11. ClickHouse的MergeTree系列引擎原理、实践与优化

12. 数仓高级之事实表模型设计

13. 【项目实战第三篇】数据清洗加工，构建项目数据明细层

14. 构建ClickHouse分布式集群，掌握分布式环境的数据查询、写入优化方案

15. 【项目实战第四篇】负载均衡与高可用方案实践，自定义Spark写本地分片表策略

16. 【项目实战第五篇】如何选择合适的维度表存储方案

17. 【项目实战第六篇】数据汇总层与应用查询优化

18. 【项目实战第七篇】基于轻量级BI工具的数据展示与可视化监控

19. 数仓管理之调度系统DolphinScheduler 3.x

20. 构建现代数据技术栈的元数据管理平台

21. 通用数据质量管理实践

请登录后发表评论

公告