Ansys和Matlab培训课程班

Spark案例实践课程大纲是什么?

5 (9653人评价)
  • 精品
  • 笔记:(65387)

  • 学员:(217537)

  • 浏览:(277013)

  • 加入课程

课程介绍

精品课程班级列表

  •    目标收益

      本次Spark培训将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoo系统基础知识,概念及架构, Spark、Hadoo实战技巧,Spark、Hadoo经典案例等。

      通过本课程实践,帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;理解Spark、Hadoo系统适用的场景;掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadoo k集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。

      培训对象

      各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

      学员基础

      了解Linux系统及相关语言环境

      课程大纲

      Spark

      生态介绍

       Mapreduce、storm和spark模型的比较和使用场景介绍

       Spark产生背景

       Spark(内存计算框架)

       SparkSteaming(流式计算框架)

       Spark SQL(ad-hoc)

       Mllib(MachineLearning)

       GraphX(bagel将被代)

       DlinkDB介绍

       SparkR介绍

      Spark

      安装部署

       Spark安装简介

       Spark的源码编译

       Spark Standalone安装

       Spark Standalone HA安装

       Spark应用程序部署工具spark-submit

       Spark的高可用性部署

      Spark

      运行架构和解析

       Spark的运行架构

      • 基本术语

      • 运行架构

      • Spark on Standalone运行过程

      • Spark on YARN 运行过程

       Spark运行实例解析

      • Spark on Standalone实例解析

      • Spark on YARN实例解析

      Spark

      scala编程

      • Scala基本语法

      • Scala开发环境搭建

      • Scala开发Spark应用程序

      • 使用java编程

      • 使用scala编程

      • 使用python编程

      Spark

      编程模型和解析

       Spark的编程模型

      • Spark编程模型解析

      • RDD的特点、操作、依赖关系

      • Spark应用程序的配置

      Spark Streaming原理和实践

       Spark Streaming与Strom的区别

       Kafka的部署

       Kafka与Spark Streaming的整合

       Spark Streaming原理

      • Spark流式处理架构

      • DStream的特点

      • Dstream的操作和RDD的区别

      • Spark Streaming的优化

       Spark Streaming实例

      • 文本实例

      • 网络数据处理

      • Kafka+Spark Streaming实现日志的实时分析案例

      Spark

      SQL原理和实践

       Spark SQL原理

      • Spark SQL的Catalyst优化器

      • Spark SQL内核

      • Spark SQL和Hive

       Spark SQL的实例和编程

      • Spark SQL的实例操作demo

      • Spark SQL的编程

      • DataFrame架构和原理

      • DataFrame支持的统计和数学函数介绍

      • 从RDD创建DataFrame

      • 从Hive表创建DataFrame

      • 从数据源创建DataFrame

      Spark的数据源

       Spark与HDFS的整合

       HDFS RDD原理和实现

       Spark与Hbase的整合

       Spark与Cassendera整合

       Hbase RDD的分区读取

       Hbase RDD的原理和实现

       Spark parallelism RDD的工作机制

      Spark 数据挖掘

       Mllib的介绍

       graphX核心原理

       table operator和graph operator区别

       vertices、edges和triplets介绍

       构建一个graph

       SparkR原理

       SparkR实战

      典型项目

      案例实战

       基于spark日志分析

       个性化推荐系统:带你揭开其神秘面纱

       在线投放引擎

       揭开淘宝点击推荐系统的神秘面纱

       淘宝数据服务架构—实时计算平台

      Spark的优化

       序列化优化——Kryo

       Spark参数优化实战

       Spark 任务的均匀分布策略

       Partition key倾斜的解决方案

       Spark任务的监控

       GC的优化

       Spark Streaming吞吐量优化

       Spark RDD使用内存的优化策略

       Spark在使用中的感想分享




  • 垂询曙海客服