目前课程版本:8.0 升级时间:2020.06.01 查看详细
我们的课程帮助了近500名零基础的学员高薪就业,近2000名学生正在努力蜕变中。0基础也能高薪就业的大数据课程。
全面升级Spark核心就业项目,新增第四代大数据处理框架Flink,强化推荐系统实战并扩充至7天。
所有项目均是来自企业实战项目,报表分析、日志分析、推荐系统/广告系统、反欺诈系统、为就业提供强力保障。
课程全面覆盖大数据技术,数据收集、存储、计算、挖掘、展现,离线分析/实时分析/内存计算一网打尽。
大数据时代已然到来,在数据已经在一线企业、中小型企业、传统企业、互联网企业全面落地。就业不再局限于互联网行业。
0基础0经验的小白人员;想通过更低的成本来试一下自己是否适合做大数据相关工作的转型人员。
注:获取更多免费学习视频+资料+笔记,请加QQ:2632311208。
全日制脱产,每周5天上课, 上两天课休息一天的上课方式(实际培训时间可能因法定节假日等因素发生变化)
部分校区可能会根据实际情况有所调整,详情可询咨询老师 点击咨询
大数据基础班大纲 | |||
阶段名称 | 主讲内容 | 技术要点 | 学习目标 |
第一阶段: 大数据基础体验班 |
Linux操作系统 | 计算机基础知识、Linux环境安装、远程连接工具、文件操作命令、压缩解压缩命令、文件查找命令、系统管理命令、权限管理、网络服务管理命令等。 | 掌握企业级ETL平台的kettle; 掌握BI的可视化平台Superset; 掌握kettle流式数据ETL处理设计思想; 掌握大数据企业开发中最常见的的linux的操作; 掌握一款主流数据库管理工具DataGrip; 掌握企业MySQL的调优方案; 掌握大数据分析中数据全量及增量同步解决方案; 掌握生产环境中数据分析程序的部署解决方案。 |
MySQL数据库 | 数据库环境搭建、SQL语言(DDL、DML、DQL)、SQL语句、多表查询、索引等。 | ||
Kettle数据预处理 | 数据仓库与ETL、Kettle安装部署、数据抽取与装载入门、表输入组件、表输出、插入/更新、switch/case等组件使用,开发Kettle作业等。 | ||
Apache Superset | 电商业务背景、案例架构、数据仓库数据增量同步、ETL开发、指标SQL开发、Kettle作业调度、Superset可视化展示等。 | ||
电商运营指标分析 | 电商业务背景、案例架构、数据仓库数据增量同步、ETL开发、指标SQL开发、Kettle作业调度、Superset可视化展示等。 |
本课程适合于计算机专业,有一定Java基础、通过入学考核的未工作人士。
提示:测试题主要考察您是否具备Java基础,以便我们统一入学基础,更好地开展教学工作。如果您感觉测试题很难,我们建议您参加我们的Java基础班学习。
全日制脱产,每周5天上课, 上两天课休息一天的上课方式(实际培训时间可能因法定节假日等因素发生变化)
部分校区可能会根据实际情况有所调整,详情可询咨询老师 点击咨询
大数据就业班课程大纲 | |||
阶段名称 | 主讲内容 | 技术要点 | 学习目标 |
第二阶段: Java语言编程 |
编程基础 | Java概述、Java程序入门、常量与变量、数据类型、运算符、流程控制语句、方法、数组 | 可掌握的核心: 掌握Java程序基础数据类型; 掌握开发中常用类如集合、IO流、常用类等操作; 掌握Java异常处理机制; 掌握反射、网络编程、多线程开发; 掌握Jsoup的网络爬虫开发; 掌握JDBC操作; 掌握ETL数据处理和BI报表开发 。 可以解决的问题: 具备JavaSE开发能力。 市场价值: 可胜任初级爬虫工程师岗位。 |
面向对象 | 面向对象思想、类与对象、成员变量和局部变量、封装、 this关键字、构造方法 | ||
常用类 | Object类、String、StringBuilder等 | ||
集合操作 | 数据结构、List、Set、Map等 | ||
IO操作 | 字节输入流、序列化、字节输出流、Apache Commons IO等 | ||
Java基础增强 | 反射、网络编程、多线程、注解等 | ||
爬虫案例 | Jsoup、MySQL高级、JDBC、ETL、BI | ||
第三阶段: Hadoop技术栈 |
Linux操作系统高级 | Linux shell编程、awk、sed、cut、ssh、scp、expect、yum、nestat、top 、iostat等高级命令使用 | 可掌握的核心: 掌握shell编程; 掌握ZooKeeper原理并应用; 掌握HDFS的使用和MapReduce编程; 理解MapReduce原理和调优; 掌握Yarn的原理和调优; 掌握Hive的使用和调优。 可以解决的问题: 具备Hadoop开发能力、离线数据仓库开发能力。 市场价值: 可胜任初级Hadoop工程师岗位。 |
大数据基础和硬件介绍 | 大数据的特点、分布式存储概念、分布式计算的概念、服务器种类介绍、机架、交换机、网络拓扑、Raid、IDC数据中心 | ||
Zookeeper | Zookeeper的应用场景、架构和原理、存储模型、选举机制、客户端操作 | ||
HDFS | HDFS设计的特点、Master-Slave架构、Block块存储、RF拷贝因子、机架感知、Block拷贝策略、读写流程、HDFS Federation、HDFS Snapshots、NameNode HA架构和原理、HDFS管理员常用操作、HDFS权限控制 | ||
MapReduce | MapReduce架构和原理、Split机制、MapReduce并行度、Combiner机制、Partition机制、自定义Partition、MapReduce序列化、自定义排序、数据压缩 | ||
YARN | Yarn原理和架构、Yarn高可用、Container资源的封装(CPU、内存和IO)、资源调度策略(FIFO、Fair和Capacity) | ||
Hive | Hive原理和架构、HQL操作、数据类型、分区、分桶、临时表、Meta Store服务、HiveServer内置函数、自定义UDF和UDAF、数据压缩、存储格式、自动化脚本、常见性能优化、explain执行计划详解 | ||
第四阶段: 项目一(在线教育) |
1、还原大型在线教育的大数据平台。 2、建立企业数据仓库,统一企业数据中心,把分散的业务数据集中存储和处理。 3、项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序。 4、挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。 |
基于CM自动部署和配置、 数据仓库建模、离线数仓架构分层、 使用Git版本控制和CodeReview、使用Oozie进行作业调度、Hive2的使用和调优、 Sqoop进行Mysql和Hive的双向海量数据同步、使用拉链表完成增量数据的统计分析、使用FineReport完成数据可视化 | 可掌握的核心: 掌握从需求、设计、研发、测试到落地上线的完整项目流程; 掌握大量教育行业的真实业务逻辑,涉及20多个主题,100多个指标; 掌握海量数据如何调优、使用拉链表、增量数据处理,以及Hive函数的具体应用等; 掌握基于CM的大数据环境部署和管理; 掌握数据仓库的核心概念和应用; 掌握常用离线大数据技术:Oozie、Sqoop、Hive等; 掌握FineReport可视化。 可以解决的问题: 具备企业级离线数据仓库开发能力,深入教育行业需求,提升学员在行业的核心竞争力。 市场价值: 可胜任Hadoop工程师、离线数据仓库工程师、ETL开发工程师、FineReport BI开发工程师等岗位。 |
第五阶段: 后端数据微服务接口开发 |
Spring | Spring Boot整合Spring MVC、 使用Spring Boot整合MyBatis开发、搭建Eureka注册中心、Feign、使用Spring Cloud Gateway搭建微服务网关 | 可掌握的核心: 掌握SpringBoot整合SpringMVC开发; 掌握SpringBoot整合MyBatis开发; 掌握Eureka搭建; 掌握Feign的使用。 可以解决的问题: 具备后端数据微服务接口开发,可胜任通过Spring技术架构完成微服务搭建。可完成企业级数据微服务接口开发。 市场价值: 可胜任后端开发工程师岗位。 |
Spring Boot | |||
Spring Cloud | |||
Spring Cloud搜索案例 | |||
第六阶段: NoSQL存储 |
Redis存储 | Redis原理及架构、Redis Cluster原理及架构、Redis常用操作、HBase原理及架构、预分区、LSM结构、Bloom Filter、co-processor、结合Phoneix进行优化查询、ElasticSearch开发、Logstash数据采集、Kibana数据可视化 | 可掌握的核心: 掌握Redis原理及架构; 掌握Redis命令操作、数据结构; 掌握Hbase原理及架构; 掌握HBase命令操作、MapReduce编程; 掌握Phoneix二级索引优化查询。 掌握ELK开发。 可以解决的问题: 具备使用Hbase和Redis开发调优能力、ELK海量数据处理能力。 市场价值: 可胜任ELK开发工程师、Hadoop开发工程师等岗位。 |
HBase存储 | |||
ELK | |||
第七阶段: Flink技术栈 |
Kafka | Kafka原理及架构分析、分布式实时计算架构和思想、Flink DataStream的使用、Flink SQL开发、Flink 性能监控、Flink调优、Flink SQL执行计划、Hive + Flink SQL、Kafka + Flink、WaterMark、CheckPoint、任务调度与负载均衡、状态管理、Flume+Kafka+Flink+Hbase+Sqoop+Canel+MySQL案例实战 | 可掌握的核心能力: 掌握Kafka原理及架构; 掌握KafkaStreams开发; 掌握基于Flink进行实时和离线数据处理、分析; 掌握基于Flink的多流并行处理技术; 掌握千万级高速实时采集技术。 可解决的现实问题: 具备Kafka消息队列开发和调优能力、Flink流式和批量数据开发能力。 市场价值: 可胜任初级实时计算开发工程师、初级Flink开发工程师等岗位。 |
Flink流式计算 | |||
Flink批处理 | |||
Flink Core | |||
Flink SQL | |||
Flink综合案例 | |||
第八阶段: 项目二(证券、物联网任选其一) |
1、实时监控证券市场的每日业务交易,实现对证券市场交易数据的统计分析; 2、搭建监察预警体系,包括:预警规则管理,实时预警,历史预警,监察历史数据分析等; 3、股市行情交易数据实时采集、实时数据分析、多维分析,即席查询,实时大屏监控展示。 |
项目采用流处理计算引擎Flink,实时处理100万笔/s的交易数据 基于企业主流的流处理技术框架:Flume、Kafka、Flink、Hbase等 基于Hive和Kylin的批数据处理,可进行海量多维分析 Hbase5日内秒级行情亿级规模,MySQL5日内分时行情千万级规模 T-5日内实时行情毫秒响应,T-5日外的历史行情秒级响应 数据存储以HDFS、Hive、Hbase应对PB级规模数据 项目涵盖主流离线数仓的技术和OLAP分析引擎 OLAP分析引擎以Kylin和Druid实现离线和实时的指标分析 队列服务以低延迟、高吞吐-百万笔/秒的Kafka保障数据接收 缓存服务基于Redis的高速缓存,实现数据快速交换 TB级别的实时日处理数据、存储PB级历史数据 主备双大数据平台保障 |
可掌握的核心能力: 掌握基于FTP、Flume + Kafka的实时数据采集开发; 掌握TB级海量规模下Flink实时处理开发,保证实时计算高容错; 掌握三种不同时间维指标的存储、计算方案(Druid、MySQL、HBase),例如:毫秒级\秒级\分时等时间维; 掌握基于Kylin的即席快速OLAP开发; 掌握基于Flink CEP的实时预警监控开发; 掌握基于Spring Boot的数据服务接口开发。 可解决的现实问题: 具备TB级规模下毫秒级Flink实时计算程序开发、架设能力,并具备不同应用场景下多种存储引擎的技术引擎优化能力。以及项目上线部署、运维监控能力。 市场价值: 可胜任实时计算开发工程师、Flink开发工程师、实时数仓开发工程师等岗位。 |
第九阶段: Spark技术栈 |
Scala语言 | Scala基础、变量声明、数据类型、条件表达式、块表达式、循环、方法和函数、数组、元组、集合、Iterator、构造器、伴生对象、Akka编程 | 可掌握的核心: 掌握Scala语言基础、数据结构; 掌握Scala语言高阶语法特性; 掌握Spark的RDD、DAG、CheckPoint等设计思想; 掌握SparkSQL结构化数据处理,Spark On Hive整合; 掌握Spark Streaming整合Kafka完成实时数据处理; 掌握Spark Streaming偏移量管理及Checkpoint; 掌握Structured Streaming整合多数据源完成实时数据处理。 可以解决的问题: 具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力。 市场价值: 可胜任初级Spark开发工程师、初级大数据平台开发工程师、初级大数据开发工程师等岗位 |
Spark core | Spark架构和原理(运行机制、Driver和Executor、spark任务提交流程)、RDD开发和原理(Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制)、广播变量 、DAG原理(DAG思想、DAG的生成、DAG的处理过程)、 | ||
Spark sql | Spark SQL架构和原理、DataFrame、DataSet DSL和SQL开发、Spark多数据源整合(txt、CSV、Json、parquet、JDBC、Hive)、Spark SQL执行计划原理、Spark SQL性能调优 | ||
Spark Streaming | Spark Streaming流式开发、DStream API、整合多数据源、偏移量管理 | ||
Structured Streaming | Structured Streaming开发(input、output、window、watermark、过期数据操作、去重等)、Structured Streaming多数据源整合(socket、Kafka)、 Flume+kafka+Structured Streaming案例实战 |
||
第十阶段: 项目三(物流、电信任选其一) |
1、基于一家大型物流公司研发的智慧物流大数据平台,日订单上千万; 2、围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据信息等; 3、提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求,并针对数据分析结果,提出具有中观指导意义的解决方案。 |
涵盖离线业务和实时业务、ClickHouse实时存储和计算引擎、 Kudu + Impala准实时分析系统、基于Docker搭建异构数据源、以企业主流的Spark生态圈为核心技术(Spark、Spark SQL、Structured Streaming)、ELK全文检索、Spring Cloud数据微服务开发、实时监控地图开发、存储和计算性能调优、还原企业搭建大数据平台的完整过程 | 可掌握的核心能力: 掌握Docker环境部署、管理操作; 掌握基于Oracle + MySQL异构数据源数据处理技术; 掌握基于Oracle Golden Gate以及Canal的实时采集技术; 掌握Kudu + Spark的快速离线数据处理、分析技术; 掌握Kudu + Impala即席数据分析技术; 掌握基于ClickHouse高性能存储、计算引擎技术; 掌握基于ELK的全文检索技术; 掌握Kudu、Spark的调优能力; 掌握基于Spring Cloud的数据微服务接口开发技术。 可解决的现实问题: 具备基于Docker搭建不同数据源、实时采集开发能力,并具备构建高性能数据存储处理大数据平台开发能力。 市场价值: 可胜任中级Spark开发工程师、中级大数据平台开发工程师、中级大数据开发工程师等岗位。 |
第十一阶段 : 项目四(电商、票务任选其一) |
1、分析来自全品类B2B2C电商系统,以电商核心流程为主线进行数据分析,支撑运营; 2、建立基于用户的全面分析体系,从多个维度建立基于用户的运营体系; 3、实时分析用户访问流量、订单、店铺等运营指标。 |
涵盖Kettle同步MySQL数据采集方案、JS埋点 + Flume实时用户点击行为数据采集方案 、Spark on hive数据仓库解决方案、Apache Superset可视化方案、Kylin交互式快速数据分析方案、Canal MySQL业务数据实时采集方案、Flink实时ETL处理解决方案、Flink + Druid实时数仓解决方案、HBase + Phoenix明细数据实时查询方案、Flink CEP实时风控方案、Azkaban作业调度调度方案 |
可掌握的核心能力: 掌握Spark + Hive构建离线数仓; 掌握Kafka + Flink + Druid构建实时数仓; 掌握基于Kettle的数据ETL处理技术; 掌握离线数仓和实时数仓分层架构; 掌握基于Parquet + Snappy的存储、压缩技术; 掌握Spark处理数据倾斜问题; 掌握基于Redis + Flink实时ETL处理技术; 掌握基于Spark引擎的Kylin Cube构建技术; 掌握Kylin的碎片管理、Cube调优、增量构建等技术; 掌握基于Flume、Canal的实时采集技术; 掌握基于Proto Buf的高效序列化技术; 掌握基于HBase + Phoenix的快速数据查询技术; 掌握基于Flink CEP的实时风控处理技术; 掌握基于Superset的BI开发技术。 可解决的现实问题: 具备主流Spark + Hive离线数仓开发技术,并具备海量数据处理性能调优能力,具备实时数仓架构能力,构建毫秒级的实时计算平台。 市场价值: 可胜任高级离线数仓开发工程师、高级实时数仓开发工程师、高级大数据开发工程等岗位。 |
备注:该课程大纲仅供参考,实际课程内容可能在授课过程中发生更新或变化,具体授课内容最终以各班级课表为准。
本课程适合于计算机专业,有一定Java基础、通过入学考核的未工作人士。
提示:测试题主要考察您是否具备Java基础,以便我们统一入学基础,更好地开展教学工作。如果您感觉测试题很难,我们建议您参加我们的Java基础班学习。
线下面授或线上学习(可选)
随到随学 ,详情可询咨询老师 点击咨询
大数据中级进修课-课程大纲 | |||
阶段名称 | 主讲内容 | 技术要点 | 学习目标 |
第一阶段: 大数据数据运维 |
大数据场景运维工具实战 | Grafana 监控、配置Grafana的zabbix数据源、内存buffer/cache/父子进程/swap/io队列等 Docker容器+监控、Kafka监控、基于Linux系统的常用服务的安装配置,快速部署、基于Apache Ambari的Hadoop集群的供应、管理和监控、Cloudera Manager部署、AWS的EMR部署、Shell编程及Python语言加强、掌握高级系统设置(SELinux、防火墙、DNS等)、性能调优加强 |
可掌握的核心能力: 掌握大数据组件的常用运维方法解决实际的运维方案; 掌握大数据框架必备的数据结构及常用的数据结构; 掌握企业级大数据架构原理及源码深入剖析; 掌握PySpark、PyFlink等Python大数据生态技术; 掌握大数据数据挖掘常见的算法及应用场景; 掌握数据中台构建思路及实战; 掌握数据科学常见的问题方法; 掌握大型互联网公司常见面试题。 可解决的现实问题: 具备大数据平台运维能力; 具备企业数据中台构建能力; 具备大数据数据挖掘、机器学习模型开发、调优能力; 具备Apache顶级项目二次开发能力、源码级调优开发能力; 具备大型企业大数据平台架构能力。 市场价值: 直通BAT等大厂。 |
第二阶段: 大数据数据结构 |
大数据框架数据结构及面试必备数据结构 | 线性表、链表、堆栈、队列、树、二叉树及森林、图数据结构、排序和查找算法、大数据组件的应用序列化与远程过程调用框架、消息队列、应用层多播通信及Gossip 协议 Chubby 锁服务、大数据组件的应用、资源异质性与工作负载异质性、抢占式调度与非抢占式调度、资源管理与调度系统范型、资源调度策略(调度器算法)、大数据组件的应用、哈希分片(Hash Partition)、虚拟桶(Virtual Buckets)、一致性哈希(Consistent Hashing) 范围分片(Range Partition)、布隆过滤器(Bloom Filter)、SkipList数据结构LSM 树、LZSS 算法、Cuckoo哈希、大数据组件的应用 |
|
第三阶段: 大数据组件源码深度解析 |
大数据核心采集、存储、计算组件源码解析 | MapReduce核心源码解析、Hive核心源码解析、Spark核心源码解析、Flink技术核心源码解析、Flink技术监控及调优、Yarn源码及性能调优、Hbase核心源码、HDFS核心源码解析、Kafka底层源码解析、Druid技术监控及调优、、Flume核心源码解析、cannel核心源码解析 | |
第四阶段: 大数据数据中台 |
大数据数据中台 | 大数据计算服务、大数据开发套件、数据主题域仓库、数据治理套件、数据服务引擎、数据可视化、元数据管理、数据API、主数据管理、全域数据源入口、数据应用场景、多行业业务剖析 | |
第五阶段: 大数据数据挖掘 |
企业级大数据数据挖掘解决方案 | 机器学习基础、SparkMl&SparkMllib基础实战、Python核心基础、Python数据科学库基础(Numpy、Pandas、Matplotlib、Seaborn、Imblearn-Learn、Scikit-Learn)、Python数据挖掘案例、PyHdfs、PyHive、PyHbase、Kafka-Python、PySpark、PyFLink案例实战 | |
第六阶段: 数据科学 |
数据科学分析原理及实战 | 描述性统计、概率、离散型随机变量分布,连续型随机变量法分布、二元概率分布及抽样分布、假设检验、统计过程和质量控制、数据分析六步曲、数据分析方法论(包括杜邦分析法、漏斗图分析法、矩阵关联分析法等 )、数据图表业务数据可视化及图表分析 基于实际业务场景案例结合数据分析与统计学完成数据科学案例全栈数据分析 |
|
第七阶段: 大厂面试题 |
互联网公司常见面试题及应用场景剖析 | BAT大数据常见的面试题、互联网大数据平台多场景剖析、Hadoop面试题精讲、Spark面试题精讲、Flink面试题精讲、数据结构面试题精讲、数据科学面试题精讲 | |
第八阶段: 多行业项目 |
工业、新零售、 政务等 | 本项目基于国内大型的设备制造商大数据项目开发。该企业在全球范围内销售设备,设备涵盖加油站相关,例如:加油机、油罐建设、加气机、自助设备等设备生产制造、设计、销售,并提供全球性的服务。在国内重点客户为:中国石油、中国石化、以及各个地域的大型企业。在国内,业务覆盖的油站约8W座,设备数量50W台。拿加油机设备来说,一台设备包含了众多的配件,每个配件的维护,设备信息的上报,服务工作人员的调度、GPS跟踪定位等,企业经过多年的经营,积累了海量的数据。集团公司为了能够确保企业精细化运营,决定进行数字化转型,依托于大数据技术,以客户、生产、服务、运营为核心,打造一个全方位的数字化平台 |
备注:该课程大纲仅供参考,实际课程内容可能在授课过程中发生更新或变化,具体授课内容最终以各班级课表为准。
每晚对学员当天知识的吸收程度、老师授课内容难易程度进行评分,老师会根据学员反馈进行分析,对学员吸收情况调整授课内容、课程节奏,最终让每位学员都可以跟上班级学习的整体节奏。
为每个就业班都安排了一名优秀的技术指导老师,不管是白天还是晚自习时间,随时解答学员问题,进一步巩固和加强课上知识。
为了能辅助学员掌握所学知识,黑马程序员自主研发了6大学习系统,包括教学反馈系统、学习难易和吸收分析系统、学习测试系统、在线作业系统、学习任务手册、学员综合能力评定分析等。
末位辅导队列的学员,将会得到重点关心。技术辅导老师会在学员休息时间,针对学员的疑惑进行知识点梳理、答疑、辅导。以确保知识点掌握上没有一个学员掉队,真正落实不抛弃,不放弃任何一个学员。
从学员学习中的心态调整,到生活中的困难协助,从课上班级氛围塑造到课下多彩的班级活动,班主任360度暖心鼓励相伴。
小到五险一金的解释、面试礼仪的培训;大到500强企业面试实训及如何针对性地制定复习计划,帮助学员拿到高薪Offer。