[591] Spark+ClickHouse实战企业级数据仓库,进军大厂必备 - 全方位提升项目开发经验,上手 ClickHouse+Spark,实现个人的成长蜕变

[591] Spark+ClickHouse实战企业级数据仓库,进军大厂必备风筝自习室-课程资源-网盘资源风筝自习室
[591] Spark+ClickHouse实战企业级数据仓库,进军大厂必备 - 全方位提升项目开发经验,上手 ClickHouse+Spark,实现个人的成长蜕变
此内容为付费阅读,请付费后查看
500积分
付费阅读

image

网站资源均收集于公开网络,仅供学习和交流。版权归版权人所有,所标价格为资源收集整理费用,如喜欢作品请支持正版。

网盘链接:

1. 从0到1搭建项目开发环境,快速上手大数据开发

  • 1-1 大数据时代,你还不知道数据仓库么?
  • 1-2 本章概览
  • 1-3 基于IDEA + Maven构建Spark工程
  • 1-4 数据开发环境(Spark/Hive/Hadoop/MySQL/IDEA)搭建
  • 1-5 Maven安装配置
  • 1-6 源码、启动脚本、配置等自动构建打包
  • 1-7 项目多模块规划与自动构建打包

2. 项目关键技术准备,学习通用的数据处理技术

  • 2-1 本章概览
  • 2-2 IPv4和数值转换
  • 2-3 IP地址简写和全写的格式转换
  • 2-4 IP地址二分查找
  • 2-5 Spark自定义IP函数
  • 2-6 初识Grok通用数据解析器
  • 2-7 在程序中解析Grok
  • 2-8 自定义Grok表达式
  • 2-9 Grok工具类封装
  • 2-10 在Spark中集成Grok
  • 2-11 Grok的序列化问题与源码修改
  • 2-12 Spark源码优化,支持对MySQL的数据进行更新
  • 2-13 【阶段作业】如何读取Grok的资源文件

3. 项目数据准备,操练基于Spark的数据开发与优化

  • 3-1 本章概览
  • 3-2 项目业务数据
  • 3-3 生成IP、域名、IP位置的中间数据(上)
  • 3-4 生成IP、域名、IP位置的中间数据(下)
  • 3-5 生成域名备案、IP位置、违规实体数据
  • 3-6 基于Grok模拟安全访问日志
  • 3-7 安全访问日志生成之广播变量优化
  • 3-8 【阶段作业】超大广播变量如何优化?

4. 初识OLAP数仓架构

  • 4-1 本章概览
  • 4-2 基于Lambda架构的数仓
  • 4-3 基于Kappa架构的数仓
  • 4-4 基于实时OLAP架构的数仓
  • 4-5 【面试官来啦】面试讨论题

5. 详解数据仓库基础理论,掌握数据仓库的实施流程

  • 5-1 本章概览
  • 5-2 数据仓库的定义
  • 5-3 3NF范式建模
  • 5-4 Kimball和Inmon数据仓库架构
  • 5-5 数据仓库建模方法
  • 5-6 事实表与维度表
  • 5-7 星型、雪花和星座维度模型
  • 5-8 数据仓库构建流程
  • 5-9 数据仓库分层模型
  • 5-10 【面试官来啦】面试讨论题

6. 【项目实战第一篇】项目业务流程与ODS层数据同步

  • 6-1 课程目录
  • 6-2 项目业务流程与技术架构
  • 6-3 ODS数据同步技术架构
  • 6-4 基于HDFS API的数据同步
  • 6-5 基于HDFS API的数据同步工具封装
  • 6-6 业务数据库的数据同步
  • 6-7 【阶段作业】Spark如何读取配置文件?
  • 6-8 【阶段作业】HDFS数据同步多线程优化

7. 快速上手OLAP分析引擎ClickHouse

  • 7-1 本章概览
  • 7-2 初识OLAP分析引擎ClickHouse
  • 7-3 ClickHouse与MySQL、Hbase、Elasticsearch
  • 7-4 ClickHouse单机版安装
  • 7-5 ClickHouse快速入门
  • 7-6 ClickHouse-client使用
  • 7-7 ClickHouse常用的数据格式
  • 7-8 可视化工具DBeaver安装配置
  • 7-9 ClickHouse表引擎快速入门
  • 7-10 ClickHouse学习建议

8. 基于Spark源码自定义ClickHouse外部数据源,简化数据写入流程

  • 8-1 本章概览
  • 8-2 JDBC操作ClickHouse
  • 8-3 使用Spark将数据写入ClickHouse
  • 8-4 Spark写ClickHouse的配置化改造
  • 8-5 在Spark中集成写ClickHouse的通用能力
  • 8-6 基于Spark源码自定义ClickHouse外部数据源

9. 数仓高级之维度模型设计

  • 9-1 本章概览
  • 9-2 维度相关基本概念
  • 9-3 维度设计的基本方法
  • 9-4 维度设计的反规范化
  • 9-5 一致性维度集成
  • 9-6 维度模型设计原则和方式
  • 9-7 缓慢变化维度SCD
  • 9-8 维度的层次关系
  • 9-9 其他常见的维度模型
  • 9-10 【面试官来啦】面试讨论题

10. 【项目实战第二篇】构建项目公共维度层

  • 10-1 本章概览
  • 10-2 反规范化维度合并之应用内容的模型设计与实现
  • 10-3 公共方法封装
  • 10-4 维度合并拆分之IP域名备案模型设计
  • 10-5 IP域名备案维度代码实现
  • 10-6 违规IP域名数据入库
  • 10-7 维度层次结构扁平化之IP地址段区域维度模型设计
  • 10-8 IP地址段区域维度代码实现
  • 10-9 【阶段作业】ClickHouse的覆盖写功能

11. ClickHouse的MergeTree系列引擎原理、实践与优化

  • 11-1 本章概览
  • 11-2 表引擎概述
  • 11-3 MergeTree引擎
  • 11-4 表/列的TTL生命周期
  • 11-5 数据片段存储合并机制与自定义分区
  • 11-6 主键、索引、数据标记的工作机制
  • 11-7 性能优化利器之跳数索引的基本使用
  • 11-8 性能优化利器之跳数索引实现原理与使用场景
  • 11-9 【重难点梳理】性能优化利器之跳数索引
  • 11-10 性能优化利器之Projection
  • 11-11 【重难点梳理】性能优化利器之Projection
  • 11-12 【阶段作业】Projection的使用有哪些限制?
  • 11-13 ReplacingMergeTree引擎
  • 11-14 【重难点梳理】ReplacingMergeTree引擎
  • 11-15 SummingMergeTree引擎
  • 11-16 【重难点梳理】SummingMergeTree引擎
  • 11-17 AggregatingMergeTree引擎
  • 11-18 【重难点梳理】AggregatingMergeTree引擎
  • 11-19 CollapsingMergeTree引擎
  • 11-20 【重难点梳理】CollapsingMergeTree引擎
  • 11-21 VersionedCollapsingMergeTree引擎
  • 11-22 【重难点梳理】VersionedCollapsingMergeTree引擎
  • 11-23 MergeTree系列引擎选型对比
  • 11-24 数据实时更新删除
  • 11-25 【重难点梳理】如何实现数据的实时更新删除

12. 数仓高级之事实表模型设计

  • 12-1 本章概览
  • 12-2 事实表设计过程
  • 12-3 事务、无事实事实表模型设计
  • 12-4 多事务事实表模型设计
  • 12-5 周期快照事实表模型设计
  • 12-6 累积快照事实表模型设计
  • 12-7 聚集事实表模型设计
  • 12-8 六类事实表对比
  • 12-9 【面试官来啦】面试讨论题

13. 【项目实战第三篇】数据清洗加工,构建项目数据明细层

  • 13-1 本章概览
  • 13-2 事务无事实事实表模型建模
  • 13-3 日志事务事实表代码实现(上)
  • 13-4 日志事务事实表代码实现(下)
  • 13-5 日志拦截无事实事实表代码实现
  • 13-6 累计快照事实表建模与代码实现
  • 13-7 Spark资源参数调优
  • 13-8 【重难点梳理】Spark资源参数调优
  • 13-9 大数据量场景下的程序部署与优化实践
  • 13-10 周期性快照事实表模型设计与实现
  • 13-11 【重难点梳理】周期性快照事实表模型设计与实现
  • 13-12 【面试官来啦】面试讨论题
  • 13-13 【阶段作业】结合数据进行模型设计

14. 构建ClickHouse分布式集群,掌握分布式环境的数据查询、写入优化方案

  • 14-1 本章概览
  • 14-2 集群规划与环境准备
  • 14-3 ClickHouse集群安装配置
  • 14-4 ClickHouse集群功能验证
  • 14-5 ClickHouse的原子写入与去重
  • 14-6 ClickHouse分布式集群部署
  • 14-7 Zookeeper关键优化点
  • 14-8 复制表与副本同步机制
  • 14-9 分布式表与本地表

15. 【项目实战第四篇】负载均衡与高可用方案实践,自定义Spark写本地分片表策略

  • 15-1 本章概览
  • 15-2 负载均衡与高可用五问
  • 15-3 分布式请求的副本高可用和负载均衡
  • 15-4 基于代码层面的负载均衡与高可用
  • 15-5 基于Nginx反向代理TCP与HTTP的负载均衡与高可用
  • 15-6 【重难点梳理】基于Nginx反向代理TCP/HTTP的负载均衡与高可用
  • 15-7 基于Chproxy的负载均衡与高可用
  • 15-8 【重难点梳理】基于Chproxy的负载均衡与高可用
  • 15-9 Spark如何写本地表方案
  • 15-10 Spark写本地表之随机策略代码实现
  • 15-11 Spark写本地表之轮询策略代码实现
  • 15-12 大数据量场景写ClickHouse集群的程序部署与优化
  • 15-13 Spark自定义分片路由与方案总结
  • 15-14 【面试官来啦】面试讨论题
  • 15-15 【阶段作业】Spark实现分片key的自定义路由策略

16. 【项目实战第五篇】如何选择合适的维度表存储方案

  • 16-1 本章概览
  • 16-2 Log系列引擎
  • 16-3 MySQL引擎
  • 16-4 【重难点梳理】MySQL引擎
  • 16-5 HDFS引擎与HA配置
  • 16-6 【重难点梳理】HDFS引擎与HA配置
  • 16-7 高性能数据检索的RocksDB引擎
  • 16-8 【重难点梳理】高性能数据检索的RocksDB引擎
  • 16-9 Kafka引擎
  • 16-10 JDBC引擎引擎
  • 16-11 Merge表引擎
  • 16-12 【重难点梳理】Merge表引擎
  • 16-13 Join表引擎
  • 16-14 【重难点梳理】Join表引擎
  • 16-15 深入浅出ClickHouse数据字典(上)
  • 16-16 深入浅出ClickHouse数据字典(下)
  • 16-17 【重难点梳理】深入浅出ClickHouse数据字典
  • 16-18 分布式场景的表关联子查询的运行流程与优化
  • 16-19 分布式场景下的维度表存储选型优化
  • 16-20 项目的维度表存储优化
  • 16-21 【重难点梳理】项目的维度表存储优化

17. 【项目实战第六篇】数据汇总层与应用查询优化

  • 17-1 本章概览
  • 17-2 主键与排序键优化
  • 17-3 聚合查询优化
  • 17-4 物化视图提速
  • 17-5 DWS层之IP流量监测主题
  • 17-6 【重难点梳理】DWS层之构建IP流量监测
  • 17-7 DWS层之区域流量分析主题
  • 17-8 【重难点梳理】DWS层之构建区域流量分析主题
  • 17-9 构建数据应用层(ADS)
  • 17-10 【重难点梳理】构建AWS数据应用层
  • 17-11 应用查询优化案例
  • 17-12 【重难点梳理】应用查询优化案例
  • 17-13 数据写入与查询优化常用经验法则
  • 17-14 【阶段作业】构建违规IP/域名的上下行流量聚集事实表汇总模型

18. 【项目实战第七篇】基于轻量级BI工具的数据展示与可视化监控

  • 18-1 本章概览
  • 18-2 基于轻量级BI工具的数据可视化效果
  • 18-3 Superset环境搭建与基本使用
  • 18-4 【重难点梳理】Superset环境搭建与基本使用
  • 18-5 Superset查询分析可视化展示
  • 18-6 Grafana的安装与ClickHouse数据源管理
  • 18-7 【重难点梳理】Grafana的安装与ClickHouse数据源管理
  • 18-8 Granfana查询分析可视化展示
  • 18-9 ClickHouse监控概述
  • 18-10 ClickHouse系统表+ Granfana可视化监控
  • 18-11 Promethues安装与ClickHouse的metric采集
  • 18-12 【重难点梳理】Promethues安装与ClickHouse的metric采集
  • 18-13 prometheus + Granfana可视化监控

19. 数仓管理之调度系统DolphinScheduler 3.x

  • 19-1 本章概览
  • 19-2 我们为什么需要配合调度系统
  • 19-3 DolphinScheduler单机部署
  • 19-4 快速上手DolphinScheduler
  • 19-5 DolphinScheduler源码编译
  • 19-6 DolphinScheduler伪集群安装
  • 19-7 【重难点梳理】dolphinscheduler集群部署
  • 19-8 工作流管理之子流程管理
  • 19-9 工作流管理之依赖检查管理
  • 19-10 工作流管理之Conditions条件分支判断
  • 19-11 工作流管理之Switch条件分支判断
  • 19-12 本地和HDFS两种文件资源管理方式
  • 19-13 内置参数、本地参数、全局参数和参数传递
  • 19-14 如何动态生成自定义参数
  • 19-15 Spark任务节点管理
  • 19-16 流程告警管理
  • 19-17 数仓项目之文件数据源同步
  • 19-18 数仓项目之Spark工作流调度

20. 构建现代数据技术栈的元数据管理平台

  • 20-1 本章概览
  • 20-2 为什么数仓管理中需要元数据管理
  • 20-3 元数据体系架构的演进
  • 20-4 DataHub的元数据体系架构
  • 20-5 DataHub元数据系统搭建
  • 20-6 基于Pull(拉取)流程的元数据摄取
  • 20-7 基于Pull的元数据摄取实践
  • 20-8 DataHub的MetaData元数据模型
  • 20-9 基于Kafka的Sink接收器同步MySQL元数据
  • 20-10 ClickHouse的元数据摄取实践
  • 20-11 可视化BI工具的元数据摄取
  • 20-12 构建数据集之间的血缘链路实践
  • 20-13 构建数据集与可视化BI工具的血缘链路实践
  • 20-14 自定义基于元数据事件的实时响应流程

21. 通用数据质量管理实践

  • 21-1 本章概览
  • 21-2 如果数仓不考虑数据质量会有什么危害
  • 21-3 数据质量评估标准
  • 21-4 数据质量管理架构与数据模型
  • 21-5 通用数据质量管理工具之配置逻辑
  • 21-6 通用数据质量管理工具之代码实践
  • 21-7 通用数据质量管理工具之历史周期性质量指标对比
  • 21-8 单数据源的检查之唯一性校验
  • 21-9 单数据源的检查之表字段长度校验
  • 21-10 单数据源的检查之表记录数检查
  • 21-11 单数据源的检查之枚举值校验
  • 21-12 多数据源检查之准确性检查
  • 21-13 【阶段作业】及时性检查和多数据源的值对比功能
© 版权声明
THE END
加入本站 VIP,免费下载本站所有内容
点赞11 分享
相关推荐
评论 抢沙发

请登录后发表评论

    暂无评论内容