114培训网欢迎您来到深圳IT认证机构!

13027961181

全国统一学习专线 9:00-21:00

深圳大数据流式处理技术培训班

授课机构:深圳IT认证机构

关注度:181

课程价格: 请咨询客服

上课地址:请咨询客服

开课时间:滚动开班

咨询热线:13027961181

在线报名

课程详情在线报名

更新时间:2024-04-19 17:57

课程亮点

师资:专职讲师团队,丰富行业经验和企业培训经验

特色:小班培训,精品课程,面授+直播+录播,上课方式多样

培训:免费重听


适用对象

不限


课程内容

主题1:大数据平台方案与应用


传统大规模数据处理与分析存在的问题


大数据计算框架


离线计算框架


流式计算框架


内存计算框架


大数据分析平台方案


CDH 、Hortonworks、MapR


传统IT公司方案:Oracle Exadata,SAP HANA


核心组件


Hadoop 1.0与2.0版本关联与区别


Hadoop生态系统


Apache Hadoop方案


国外主流大数据平台方案


国内主流大数据平台方案与厂商


大数据平台方案比较


主题2:大数据存储系统


HDFS分布式文件系统


NameNode单点故障解决方案


block的备份策略


fsimage和editslog


HDFS系统架构与原理


NameNode功能详解


DataNode功能详解


HDFS读写机制


HDFS高可用方案


主题3:大数据分析技术(一)–MapReduce计算框架


MapReduce编程模型


Map处理


Reduce处理


MapReduce处理流程


MapReduce开发高级应用


Combiner技术


Partitioner技术


多Reducers应用


主题4:SQL on Hadoop大数据分析查询


基于MapReduce的大数据查询Hive


列存储和行存储


Hive架构与工作原理


Hive数据加载


Hive内部表和外部表


Hive分区表和分桶表


Hive的存储方式


Hive SQL基本操作


第二天


主题5:大数据分析技术(二)– Spark


Spark编程模型


Scala:面向函数的编程


Scala常见函数


Spark编译与运行


Spark RDD开发模型


Cache操作


Persist操作与存储级别


宽依赖


窄依赖


count


collect


reduce


saveAsTextFile


map


flatmap


filter


reduceByKey


分区与并行度


Spark RDD运行机制


Spark RDD主要Transformation


Spark RDD主要Action


Spark RDD依赖关系


Spark缓存机制


Spark集群架构与运行模式


本地模式


独立模式


YARN模式与Mesos模式


Spark作业运行机制


执行DAG图


任务集


executor执行模型


BlockManager管理


Spark开发与应用实战


基于Spark的业务日志TopN分析


姓名不能为空
手机号格式错误