知道美河 | 上传资料 | VIP申请 | 精品课程 | 资料搜索 | 问题反馈 | 会员手册 | 积分消费 | 积分充值 | 帐号保护
美河学习学习在线赞助VIP

美河学习在线(主站) eimhe.com

 找回密码
 建立账号
查看: 23140|回复: 11

企业级Hadoop+Spark大数据平台架构与实践

[复制链接]
发表于 2025-1-22 00:22:28 | 显示全部楼层 |阅读模式
五号服务器---VIP资料下载八区\数据库专区
游客,如果您要查看本帖隐藏内容请回复

基础:Linux常用命令、Java编程基础

大数据:科学数据、金融数据、物联网数据、交通数据、社交网络数据、零售数据等等。

Hadoop: 一个开源的分布式存储、分布式计算平台(基于Apache)

Hadoop的组成:
  HDFS:分布式文件系统,存储海量的数据。
  MapReduce:并行处理框架,实现任务分解和调度。

Hadoop的用处:

  搭建大型数据仓库,PB级数据的存储、处理、分析、统计等业务。
  比如搜索引擎、网页的数据处理,各种商业智能、风险评估、预警,还有一些日志的分析、数据挖掘的任务。

Hadoop优势:高扩展、低成本、成熟的生态圈(Hadoop Ecosystem Map)

Hadoop开源工具:

Hive:将SQL语句转换成一个hadoop任务去执行,降低了使用Hadoop的门槛。
HBase:存储结构化数据的分布式数据库,habase提供数据的随机读写和实时访问,实现        对表数据的读写功能。
zookeeper:就像动物管理员一样,监控hadoop集群里面每个节点的状态,管理整个集群        的配置,维护节点针之间数据的一次性等等。

hadoop的版本尽量选稳定版本,即较老版本。

本课程通过一个互联网公司的真实案例,详细传授如何从无到有构建大数据平台,包含了大数据计算平台的基本组件,从底层存储,数据采集,调度系统,adhoc查询,展示系统,数据安全,ETL开发,批量以及实时数据等部分来阐述大数据平台的核心模块。

这是最具实践性的课程,本课程的内容可以直接应用到希望构建大数据平台的企业中,所教授的如上每一个知识点,都是实用的内容,大数据平台构建的困难在这里均能得到解答。同时本课程还会介绍业内常用的工具的使用,以及优缺点。让大家对大数据平台建设的过程有更深入的了解。



课程大纲:
第一课: 数据平台整体介绍
(1) 数据平台整体介绍
(2) 各种异构数据清洗加载
(3) 任务调度系统设计
(4) 业务快速迭代过程中,数据模型如何构建
(5) 大数据平台基本组件以及技术选型

第二课:环境准备
(1) Hadoop安装配置管理
(2) spark安装配置管理
(3) sqoop,flume安装配置
(4) 数据压缩存储格式,几种数据存储格式对比

第三课: 数据同步收集(一)
(1) 如何从rdbms同步数据到hdfs
(2) 自己开发ETL 数据抽取工具
(2) sqoop的使用
(3) 后台日志,nginx日志等数据的清洗规范化,介绍 hadoop streaming,mapreduce,
使用spark/Scala模式匹配 等方式清洗日志
(4) 特殊格式日志如何清洗

第四课: 数据同步收集(二)
(1) 异地跨网段数据同步清洗方案
(2) 超大数据量日志同步清洗,并保证数据的准确性
(3) 同步数据小文件过多如何处理  
(4) 历史数据归档处理,冷热数据存储

第五课:数据同步收集(三)
(1) 准小时级别数据更新处理
(2) 使用spark streaming,kafka 等实时处理后台,nginx 日志
(3) mySQL binlog实时日志处理

第六课:任务调度系统设计
(1) 定时任务设计以及处理
(2) 触发,依赖模式的任务调度系统设计
(3) 调度系统中如何做到ETL任务依赖关系自动解析
(4) 手把手教你实现一个任务调度系统

第七课:调度系统选择
(1) oozie,azkaban,airflow等调度系统介绍
(2) airbnb airflow基本架构设计
(3) Airflow 任务调度系统配置和使用
(4) Airflow 高级使用
(5) Airflow 二次开发,自定义某些功能模块

第八课: ETL任务系统设计
(1) 数据抽取,加载工具的实现
(2) ETL任务模板的实现
(3) ETL任务元数据设计
(4) 企业级数据仓库模型设计:维度建模,分层,宽表设计等

第九课:adhoc查询以及查询平台
(1) presto,impala,spark-sql 的使用
(2) hue搭建以及使用
(3) zeppelin搭建以及使用,zeppelin中调试spark,pyspark等
(5) 更快的查询,毫秒级的响应速度之elasticsearch

第十课:数据罗盘
(1) 数据罗盘常图表样式
(2) airbnb开发的Superset 安装以及使用
(3) Superset架构介绍以及使用案例
(4) Superset简单定制化开发

第十一课:数据安全
(1) 从hdfs层面来空值数据的访问权限
(2) 如何保障敏感表,敏感字段的安全性
(3) 应用层面,查询服务层来保障安全

第十二课:大数据平台监控
(1) etl任务监控,数据质量监控
(2) etl作业日志,yarn日志解析以及监控
(3) 数据量增长,数据量未来发展准确预估
(4) 借助对象存储,把冷热数据分离处理

收获预期:
让学员对大数据平台的基本功能组件,数据处理等有一个全方位的了解,能够搭建大数据处理平台,还可以做下数据开发处理,设计ETL任务。

突然发现hadoop好多创新呦,底层新的分布式架构也开始发力了,未来传统的数据库面临巨大的竞争压力!你会发现对DBA来说只要会点JAVA就能玩转Hadoop,从而拥有大数据运维开发经验
发表于 2025-1-22 00:40:39 | 显示全部楼层
发表于 2025-1-22 00:41:52 | 显示全部楼层
发表于 2025-1-22 04:23:34 | 显示全部楼层
发表于 2025-1-22 07:52:58 | 显示全部楼层
发表于 2025-1-22 09:09:13 | 显示全部楼层
发表于 2025-1-22 09:47:58 | 显示全部楼层
发表于 2025-1-22 21:50:43 | 显示全部楼层
发表于 2025-1-22 23:48:36 | 显示全部楼层
发表于 2025-1-24 04:39:55 | 显示全部楼层
发表于 2025-2-18 08:15:38 | 显示全部楼层
发表于 2025-3-5 15:33:43 | 显示全部楼层
您需要登录后才可以回帖 登录 | 建立账号

本版积分规则

 
QQ在线咨询

QQ|小黑屋|手机版|Archiver|美河学习在线 ( 浙网备33020302000026号 )

GMT+8, 2025-5-1 17:43

Powered by Discuz!

© 2001-2025 eimhe.com.

快速回复 返回顶部 返回列表