Spark3 Clickhouse Hadoop大数据实战课程

2024-01-24

Spark3 Clickhouse Hadoop大数据实战课程资源介绍:

Spark3 Clickhouse Hadoop大数据实战课程

Spark3 Clickhouse Hadoop大数据实战课程封面图

学员通过本课程的学习,不仅可以掌握使用Python进行Spark3数据分析,还会掌握利用Scala/java进行Spark数据分析,多语言并进,力求全面掌握;另外通过项目驱动,掌握Spark框架的精髓,教导Spark源码查看的技巧;会学到Spark性能优化的核心要点,成为企业急缺的数据分析人才;更会通过Clickhouse和Spark搭建OLAP引擎,使学员对大数据生态圈有一个更加全面的认识和能力的综合提升。真实的数据分析项目,学完即可拿来作为自己的项目经验,增加面试谈薪筹码。

资源目录:

第1章课程简介及环境安装(2小时11节)

1-1Spark3+Clickhouse课程大纲简介[11:41]
1-2大数据生态圈现状[11:04]
1-3彻底理解Spark RDD[13:38]
1-4开发环境安装JDK+Scala2.12[11:31]
1-5Spark3源码跟踪学习技巧[09:06]
1-6Spark IDEA调试环境搭建[06:38]
1-7Net网络配置及虚拟机静态IP配置[16:08]
1-8VMWare Workstation克隆主机[05:31]
1-9SSH无密钥登陆及关闭防火墙[06:28]
1-10Hadoop集群搭建[22:03]
1-11Spark3.x集群搭建[06:14]
第2章Hadoop/Yarn光速入门(57分钟3节)

2-1Hadoop集群动态扩容[22:45]
2-2Yarn核心组件及调度原理[11:16]
2-3Spark Yarn两种调度模式原理及代码实战[23:51]
第3章Spark RDD光速入门(4小时41分钟15节)

3-1Spark JdbcRDD等多种方式创建RDD[26:12]
3-2Jupter Notebook PySpark学习环境搭建[09:52]
3-3累加器和广播变量等8个知识点[27:36]
3-4SparkContext上的20个知识点[10:44]
3-5combineByKey等6个知识点[21:37]
3-6牢记容易被混淆的xxxByKey算子[10:34]
3-7RDD集合的差并补集[17:15]
3-8RDD上其余的20个知识点[23:53]
3-9通过隐式转换扩充RDD转换算子[17:53]
3-10通过隐式转换扩充RDD Action算子[17:08]
3-11常用的Action算子汇总(1)[30:03]
3-12常见的Action算子汇总(2)[12:42]
3-13SparkConfig配置对象[12:03]
3-14Spark任务调度源码走读[30:36]
3-15基于Spark RDD的项目实战[13:31]
第4章 DataFrame/Dataset光速入门 (5小时17分钟 11节)

4-1SparkSession详解[33:25]
4-2SparkSession read and writ[18:02]
4-3SparkSQL模块简介[06:22]
4-4Spark DataFrame核心算子知识点16[34:44]
4-5Spark DataFrame核心知识点60[46:12]
4-6GroupedData和Column知识点[41:42]
4-7Catalog和Row知识点[14:20]
4-8空数据处理和数据统计[22:03]
4-9Spark读写数据详细知识点[32:36]
4-10Spark数据类型及functions核武库[49:43]
4-11基于DataFrame的数据挖掘实战[18:34]
第5章 SparkSQL进阶 (3小时23分钟 11节)

5-1人生苦短我用SparkSQL[10:51]
5-2SparkSQL join原理及优化思路[36:13]
5-3SparkUDF用户自定义函数[11:14]
5-4Spark UDAF用户自定义聚合函数[09:38]
5-5SparkSQL整合Hive[29:36]
5-6Spark UDTF用户自定义表生成函数[09:25]
5-7SparkSQL性能优化数据倾斜之两阶段聚合[21:24]
5-8SparkSQL大表关联小表数据倾斜优化以及broa[13:14]
5-9Sql执行顺序及数仓分层理论[11:42]
5-10SparkSQL+Hive构建离线数仓[37:09]
5-11DWD明细数据生成[12:54]
第6章 Structured Streaming光速入门 (2小时38分钟 7节)

6-1Structured Streaming流式处理的两[09:17]
6-2Structured Streaming核心概念[32:33]
6-3Structured Streaming滑动窗口和水[37:33]
6-4Zokeeper集群搭建[16:15]
6-5Kafka集群搭建[24:16]
6-6pykafka推送hive订单数据到topic[27:43]
6-7Structured Streaming消费kafk[10:52]
第7章 SparkML快速入门 (2小时53分钟 8节)

7-1机器学习项目python数据处理[20:19]
7-2SparkML向量及矩阵表示[22:16]
7-3SparkML中四种分布式矩阵表示[16:05]
7-4SparkML特征转换(1)[44:17]
7-5SparkML特征转换(2)[16:55]
7-6SparkML pipline管道[20:01]
7-7SparkML交叉验证及网格搜索[12:50]
7-8SparkML房价预测[20:37]
第8章 Spark性能调优 (1小时5分钟 2节)

8-1Spark程序编写9大准则[27:38]
8-2Spark程序性能优化8大技巧[37:51]
第9章 Clickhouse光速入门 (4小时38分钟 12节)

9-1Clickhouse安装及用户和密码配置[17:54]
9-2TinyLog、Memory、Merge引擎[15:59]
9-3MergeTree引擎[33:11]
9-4Clickhouse集群配置及分布式表[29:03]
9-5Clickhouse单机多实例部署[31:54]
9-6Clickhouse三机双实例部署[08:53]
9-7Clickhouse三分片两副本集群配置[16:42]
9-8ReplicatedMergeTree实战[24:51]
9-9查询工具Tabix及DBeaver配置及使用[13:46]
9-10SSB数据分析实战[37:15]
9-11Catboost安装及回归分析应用[20:01]
9-12Catboost回归模型在clickhouse sq[29:08]
第10章 clickhouse集群监控 (1小时12分钟 5节)

10-1Clickhouse集群监控之Prometheus安[09:50]
10-2Clickhouse集群监控之Grafana配置[10:59]
10-3Clickhouse集群监控之node_export[11:17]
10-4Grafana导入clickhouse集群监控模板[02:42]
10-5Nginx反向代理Tabix+Pro+CK+Graf[37:26]
此隐藏内容仅限VIP查看升级VIP

免责声明: 1、本站信息来自网络,版权争议与本站无关 2、本站所有主题由该帖子作者发表,该帖子作者与本站享有帖子相关版权 3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和本站的同意 4、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责 5、用户所发布的一切软件的解密分析文章仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。 6、您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。 7、请支持正版软件、得到更好的正版服务。 8、如有侵权请立即告知本站(邮箱:1807388100@qq.com,备用QQ:1807388100),本站将及时予与删除 9、本站所发布的一切破解补丁、注册机和注册信息及软件的解密分析文章和视频仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。如有侵权请邮件与我们联系处理。

独角兽资源站 python Spark3 Clickhouse Hadoop大数据实战课程 https://www.itdjs.com/5678/html

发表评论
暂无评论
  • 0 +

    资源总数

  • 0 +

    今日发布

  • 0 +

    本周发布

  • 0 +

    运行天数

你的前景,远超我们想象