manbetx体育播客旗下品牌:|||||

全国咨询/投诉热线:400-618-4000

2020年大数据课程大纲

目前课程版本:8.0   升级时间:2020.06.01   查看详细

大数据课程设计理念

  •  

    完全面向零基础的大数据课程

    我们的课程帮助了近500名零基础的学员高薪就业,近2000名学生正在努力蜕变中。0基础也能高薪就业的大数据课程。

  •  

    更新潮紧随技术发展浪潮

    全面升级Spark核心就业项目,新增第四代大数据处理框架Flink,强化推荐系统实战并扩充至7天。

  •  

    更真实深度还原企业应用场景

    所有项目均是来自企业实战项目,报表分析、日志分析、推荐系统/广告系统、反欺诈系统、为就业提供强力保障。

  •  

    更全面典型技术点线面横向扩展

    课程全面覆盖大数据技术,数据收集、存储、计算、挖掘、展现,离线分析/实时分析/内存计算一网打尽。

  •  

    更广泛就业领域

    大数据时代已然到来,在数据已经在一线企业、中小型企业、传统企业、互联网企业全面落地。就业不再局限于互联网行业。

大数据基础班-课程大纲

学习对象

0基础0经验的小白人员;想通过更低的成本来试一下自己是否适合做大数据相关工作的转型人员。

注:获取更多免费学习视频+资料+笔记,请加QQ:2632311208。

上课方式

全日制脱产,每周5天上课, 上两天课休息一天的上课方式(实际培训时间可能因法定节假日等因素发生变化)

培训时间

部分校区可能会根据实际情况有所调整,详情可询咨询老师   点击咨询


大数据基础班大纲
阶段名称 主讲内容 技术要点 学习目标
第一阶段:
大数据基础体验班
Linux操作系统 计算机基础知识、Linux环境安装、远程连接工具、文件操作命令、压缩解压缩命令、文件查找命令、系统管理命令、权限管理、网络服务管理命令等。 掌握企业级ETL平台的kettle;
掌握BI的可视化平台Superset;
掌握kettle流式数据ETL处理设计思想;
掌握大数据企业开发中最常见的的linux的操作;
掌握一款主流数据库管理工具DataGrip;
掌握企业MySQL的调优方案;
掌握大数据分析中数据全量及增量同步解决方案;
掌握生产环境中数据分析程序的部署解决方案。
MySQL数据库 数据库环境搭建、SQL语言(DDL、DML、DQL)、SQL语句、多表查询、索引等。
Kettle数据预处理 数据仓库与ETL、Kettle安装部署、数据抽取与装载入门、表输入组件、表输出、插入/更新、switch/case等组件使用,开发Kettle作业等。
Apache Superset 电商业务背景、案例架构、数据仓库数据增量同步、ETL开发、指标SQL开发、Kettle作业调度、Superset可视化展示等。
电商运营指标分析 电商业务背景、案例架构、数据仓库数据增量同步、ETL开发、指标SQL开发、Kettle作业调度、Superset可视化展示等。

大数据就业班-课程大纲

学习对象

本课程适合于计算机专业,有一定Java基础、通过入学考核的未工作人士。

提示:测试题主要考察您是否具备Java基础,以便我们统一入学基础,更好地开展教学工作。如果您感觉测试题很难,我们建议您参加我们的Java基础班学习。

上课方式

全日制脱产,每周5天上课, 上两天课休息一天的上课方式(实际培训时间可能因法定节假日等因素发生变化)

培训时间

部分校区可能会根据实际情况有所调整,详情可询咨询老师   点击咨询

大数据就业班课程大纲
阶段名称 主讲内容 技术要点 学习目标
第二阶段:
Java语言编程
编程基础 Java概述、Java程序入门、常量与变量、数据类型、运算符、流程控制语句、方法、数组 可掌握的核心:  
掌握Java程序基础数据类型;
掌握开发中常用类如集合、IO流、常用类等操作;
掌握Java异常处理机制;
掌握反射、网络编程、多线程开发;
掌握Jsoup的网络爬虫开发;
掌握JDBC操作;
掌握ETL数据处理和BI报表开发 。

可以解决的问题:
具备JavaSE开发能力。

市场价值:
可胜任初级爬虫工程师岗位。
面向对象 面向对象思想、类与对象、成员变量和局部变量、封装、 this关键字、构造方法
常用类 Object类、String、StringBuilder等
集合操作 数据结构、List、Set、Map等
IO操作 字节输入流、序列化、字节输出流、Apache Commons IO等
Java基础增强 反射、网络编程、多线程、注解等
爬虫案例 Jsoup、MySQL高级、JDBC、ETL、BI
第三阶段:
Hadoop技术栈
Linux操作系统高级 Linux shell编程、awk、sed、cut、ssh、scp、expect、yum、nestat、top 、iostat等高级命令使用 可掌握的核心:
掌握shell编程;
掌握ZooKeeper原理并应用;
掌握HDFS的使用和MapReduce编程;
理解MapReduce原理和调优;
掌握Yarn的原理和调优;
掌握Hive的使用和调优。

可以解决的问题:
具备Hadoop开发能力、离线数据仓库开发能力。

市场价值:
可胜任初级Hadoop工程师岗位。
大数据基础和硬件介绍 大数据的特点、分布式存储概念、分布式计算的概念、服务器种类介绍、机架、交换机、网络拓扑、Raid、IDC数据中心
Zookeeper Zookeeper的应用场景、架构和原理、存储模型、选举机制、客户端操作
HDFS HDFS设计的特点、Master-Slave架构、Block块存储、RF拷贝因子、机架感知、Block拷贝策略、读写流程、HDFS Federation、HDFS Snapshots、NameNode HA架构和原理、HDFS管理员常用操作、HDFS权限控制
MapReduce MapReduce架构和原理、Split机制、MapReduce并行度、Combiner机制、Partition机制、自定义Partition、MapReduce序列化、自定义排序、数据压缩
YARN Yarn原理和架构、Yarn高可用、Container资源的封装(CPU、内存和IO)、资源调度策略(FIFO、Fair和Capacity)
Hive Hive原理和架构、HQL操作、数据类型、分区、分桶、临时表、Meta Store服务、HiveServer内置函数、自定义UDF和UDAF、数据压缩、存储格式、自动化脚本、常见性能优化、explain执行计划详解
第四阶段:
项目一(在线教育)
1、还原大型在线教育的大数据平台。
2、建立企业数据仓库,统一企业数据中心,把分散的业务数据集中存储和处理。
3、项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序。
4、挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。
基于CM自动部署和配置、 数据仓库建模、离线数仓架构分层、 使用Git版本控制和CodeReview、使用Oozie进行作业调度、Hive2的使用和调优、 Sqoop进行Mysql和Hive的双向海量数据同步、使用拉链表完成增量数据的统计分析、使用FineReport完成数据可视化 可掌握的核心:
掌握从需求、设计、研发、测试到落地上线的完整项目流程;
掌握大量教育行业的真实业务逻辑,涉及20多个主题,100多个指标;
掌握海量数据如何调优、使用拉链表、增量数据处理,以及Hive函数的具体应用等;
掌握基于CM的大数据环境部署和管理;
掌握数据仓库的核心概念和应用;
掌握常用离线大数据技术:Oozie、Sqoop、Hive等;
掌握FineReport可视化。

可以解决的问题:
具备企业级离线数据仓库开发能力,深入教育行业需求,提升学员在行业的核心竞争力。

市场价值:
可胜任Hadoop工程师、离线数据仓库工程师、ETL开发工程师、FineReport BI开发工程师等岗位。
第五阶段:
后端数据微服务接口开发
Spring Spring Boot整合Spring MVC、 使用Spring Boot整合MyBatis开发、搭建Eureka注册中心、Feign、使用Spring Cloud Gateway搭建微服务网关 可掌握的核心:
掌握SpringBoot整合SpringMVC开发;
掌握SpringBoot整合MyBatis开发;
掌握Eureka搭建;
掌握Feign的使用。

可以解决的问题:
具备后端数据微服务接口开发,可胜任通过Spring技术架构完成微服务搭建。可完成企业级数据微服务接口开发。

市场价值:
可胜任后端开发工程师岗位。
Spring Boot
Spring Cloud
Spring Cloud搜索案例
第六阶段:
NoSQL存储
Redis存储 Redis原理及架构、Redis Cluster原理及架构、Redis常用操作、HBase原理及架构、预分区、LSM结构、Bloom Filter、co-processor、结合Phoneix进行优化查询、ElasticSearch开发、Logstash数据采集、Kibana数据可视化 可掌握的核心:
掌握Redis原理及架构;
掌握Redis命令操作、数据结构;
掌握Hbase原理及架构;
掌握HBase命令操作、MapReduce编程;
掌握Phoneix二级索引优化查询。
掌握ELK开发。

可以解决的问题:
具备使用Hbase和Redis开发调优能力、ELK海量数据处理能力。

市场价值:
可胜任ELK开发工程师、Hadoop开发工程师等岗位。
HBase存储
ELK
第七阶段:
Flink技术栈
Kafka Kafka原理及架构分析、分布式实时计算架构和思想、Flink DataStream的使用、Flink SQL开发、Flink 性能监控、Flink调优、Flink SQL执行计划、Hive + Flink SQL、Kafka + Flink、WaterMark、CheckPoint、任务调度与负载均衡、状态管理、Flume+Kafka+Flink+Hbase+Sqoop+Canel+MySQL案例实战 可掌握的核心能力:
掌握Kafka原理及架构;
掌握KafkaStreams开发;
掌握基于Flink进行实时和离线数据处理、分析;
掌握基于Flink的多流并行处理技术;
掌握千万级高速实时采集技术。

可解决的现实问题:
具备Kafka消息队列开发和调优能力、Flink流式和批量数据开发能力。

市场价值:
可胜任初级实时计算开发工程师、初级Flink开发工程师等岗位。
Flink流式计算
Flink批处理
Flink Core
Flink SQL
Flink综合案例
第八阶段:
项目二(证券、物联网任选其一)
1、实时监控证券市场的每日业务交易,实现对证券市场交易数据的统计分析;
2、搭建监察预警体系,包括:预警规则管理,实时预警,历史预警,监察历史数据分析等;
3、股市行情交易数据实时采集、实时数据分析、多维分析,即席查询,实时大屏监控展示。
项目采用流处理计算引擎Flink,实时处理100万笔/s的交易数据
基于企业主流的流处理技术框架:Flume、Kafka、Flink、Hbase等
基于Hive和Kylin的批数据处理,可进行海量多维分析
Hbase5日内秒级行情亿级规模,MySQL5日内分时行情千万级规模
T-5日内实时行情毫秒响应,T-5日外的历史行情秒级响应
数据存储以HDFS、Hive、Hbase应对PB级规模数据
项目涵盖主流离线数仓的技术和OLAP分析引擎
OLAP分析引擎以Kylin和Druid实现离线和实时的指标分析
队列服务以低延迟、高吞吐-百万笔/秒的Kafka保障数据接收
缓存服务基于Redis的高速缓存,实现数据快速交换
TB级别的实时日处理数据、存储PB级历史数据
主备双大数据平台保障
可掌握的核心能力:
掌握基于FTP、Flume + Kafka的实时数据采集开发;
掌握TB级海量规模下Flink实时处理开发,保证实时计算高容错;
掌握三种不同时间维指标的存储、计算方案(Druid、MySQL、HBase),例如:毫秒级\秒级\分时等时间维;
掌握基于Kylin的即席快速OLAP开发;
掌握基于Flink CEP的实时预警监控开发;
掌握基于Spring Boot的数据服务接口开发。

可解决的现实问题:
具备TB级规模下毫秒级Flink实时计算程序开发、架设能力,并具备不同应用场景下多种存储引擎的技术引擎优化能力。以及项目上线部署、运维监控能力。

市场价值:
可胜任实时计算开发工程师、Flink开发工程师、实时数仓开发工程师等岗位。
第九阶段:
Spark技术栈
Scala语言  Scala基础、变量声明、数据类型、条件表达式、块表达式、循环、方法和函数、数组、元组、集合、Iterator、构造器、伴生对象、Akka编程 可掌握的核心:
掌握Scala语言基础、数据结构;
掌握Scala语言高阶语法特性;
掌握Spark的RDD、DAG、CheckPoint等设计思想;
掌握SparkSQL结构化数据处理,Spark On Hive整合;
掌握Spark Streaming整合Kafka完成实时数据处理;
掌握Spark Streaming偏移量管理及Checkpoint;
掌握Structured Streaming整合多数据源完成实时数据处理。

可以解决的问题:
具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力。

市场价值:
可胜任初级Spark开发工程师、初级大数据平台开发工程师、初级大数据开发工程师等岗位
Spark core  Spark架构和原理(运行机制、Driver和Executor、spark任务提交流程)、RDD开发和原理(Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制)、广播变量  、DAG原理(DAG思想、DAG的生成、DAG的处理过程)、
Spark sql Spark SQL架构和原理、DataFrame、DataSet DSL和SQL开发、Spark多数据源整合(txt、CSV、Json、parquet、JDBC、Hive)、Spark SQL执行计划原理、Spark SQL性能调优
Spark Streaming Spark Streaming流式开发、DStream API、整合多数据源、偏移量管理
Structured Streaming Structured Streaming开发(input、output、window、watermark、过期数据操作、去重等)、Structured Streaming多数据源整合(socket、Kafka)、
Flume+kafka+Structured Streaming案例实战
第十阶段:
项目三(物流、电信任选其一)
1、基于一家大型物流公司研发的智慧物流大数据平台,日订单上千万;
2、围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据信息等;
3、提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求,并针对数据分析结果,提出具有中观指导意义的解决方案。
涵盖离线业务和实时业务、ClickHouse实时存储和计算引擎、 Kudu + Impala准实时分析系统、基于Docker搭建异构数据源、以企业主流的Spark生态圈为核心技术(Spark、Spark SQL、Structured Streaming)、ELK全文检索、Spring Cloud数据微服务开发、实时监控地图开发、存储和计算性能调优、还原企业搭建大数据平台的完整过程 可掌握的核心能力:
掌握Docker环境部署、管理操作;
掌握基于Oracle + MySQL异构数据源数据处理技术;
掌握基于Oracle Golden Gate以及Canal的实时采集技术;
掌握Kudu + Spark的快速离线数据处理、分析技术;
掌握Kudu + Impala即席数据分析技术;
掌握基于ClickHouse高性能存储、计算引擎技术;
掌握基于ELK的全文检索技术;
掌握Kudu、Spark的调优能力;
掌握基于Spring Cloud的数据微服务接口开发技术。

可解决的现实问题:
具备基于Docker搭建不同数据源、实时采集开发能力,并具备构建高性能数据存储处理大数据平台开发能力。

市场价值:
可胜任中级Spark开发工程师、中级大数据平台开发工程师、中级大数据开发工程师等岗位。
第十一阶段 :
项目四(电商、票务任选其一)
1、分析来自全品类B2B2C电商系统,以电商核心流程为主线进行数据分析,支撑运营;
2、建立基于用户的全面分析体系,从多个维度建立基于用户的运营体系;
3、实时分析用户访问流量、订单、店铺等运营指标。
涵盖Kettle同步MySQL数据采集方案、JS埋点 + Flume实时用户点击行为数据采集方案
、Spark on hive数据仓库解决方案、Apache Superset可视化方案、Kylin交互式快速数据分析方案、Canal MySQL业务数据实时采集方案、Flink实时ETL处理解决方案、Flink + Druid实时数仓解决方案、HBase + Phoenix明细数据实时查询方案、Flink CEP实时风控方案、Azkaban作业调度调度方案
可掌握的核心能力:
掌握Spark + Hive构建离线数仓;
掌握Kafka + Flink + Druid构建实时数仓;
掌握基于Kettle的数据ETL处理技术;
掌握离线数仓和实时数仓分层架构;
掌握基于Parquet + Snappy的存储、压缩技术;
掌握Spark处理数据倾斜问题;
掌握基于Redis + Flink实时ETL处理技术;
掌握基于Spark引擎的Kylin Cube构建技术;
掌握Kylin的碎片管理、Cube调优、增量构建等技术;
掌握基于Flume、Canal的实时采集技术;
掌握基于Proto Buf的高效序列化技术;
掌握基于HBase + Phoenix的快速数据查询技术;
掌握基于Flink CEP的实时风控处理技术;
掌握基于Superset的BI开发技术。

可解决的现实问题:
具备主流Spark + Hive离线数仓开发技术,并具备海量数据处理性能调优能力,具备实时数仓架构能力,构建毫秒级的实时计算平台。

市场价值:
可胜任高级离线数仓开发工程师、高级实时数仓开发工程师、高级大数据开发工程等岗位。

备注:该课程大纲仅供参考,实际课程内容可能在授课过程中发生更新或变化,具体授课内容最终以各班级课表为准。


大数据中级进修课-课程大纲

学习对象

本课程适合于计算机专业,有一定Java基础、通过入学考核的未工作人士。

提示:测试题主要考察您是否具备Java基础,以便我们统一入学基础,更好地开展教学工作。如果您感觉测试题很难,我们建议您参加我们的Java基础班学习。

上课方式

线下面授或线上学习(可选)

培训时间

随到随学 ,详情可询咨询老师   点击咨询

大数据中级进修课-课程大纲
阶段名称 主讲内容 技术要点 学习目标
第一阶段:
大数据数据运维
大数据场景运维工具实战 Grafana 监控、配置Grafana的zabbix数据源、内存buffer/cache/父子进程/swap/io队列等
Docker容器+监控、Kafka监控、基于Linux系统的常用服务的安装配置,快速部署、基于Apache Ambari的Hadoop集群的供应、管理和监控、Cloudera Manager部署、AWS的EMR部署、Shell编程及Python语言加强、掌握高级系统设置(SELinux、防火墙、DNS等)、性能调优加强
可掌握的核心能力:
掌握大数据组件的常用运维方法解决实际的运维方案;
掌握大数据框架必备的数据结构及常用的数据结构;
掌握企业级大数据架构原理及源码深入剖析;
掌握PySpark、PyFlink等Python大数据生态技术;
掌握大数据数据挖掘常见的算法及应用场景;
掌握数据中台构建思路及实战;
掌握数据科学常见的问题方法;
掌握大型互联网公司常见面试题。

可解决的现实问题:
具备大数据平台运维能力;
具备企业数据中台构建能力;
具备大数据数据挖掘、机器学习模型开发、调优能力;
具备Apache顶级项目二次开发能力、源码级调优开发能力;
具备大型企业大数据平台架构能力。

市场价值:
直通BAT等大厂。
第二阶段:
大数据数据结构
大数据框架数据结构及面试必备数据结构 线性表、链表、堆栈、队列、树、二叉树及森林、图数据结构、排序和查找算法、大数据组件的应用序列化与远程过程调用框架、消息队列、应用层多播通信及Gossip 协议 Chubby 锁服务、大数据组件的应用、资源异质性与工作负载异质性、抢占式调度与非抢占式调度、资源管理与调度系统范型、资源调度策略(调度器算法)、大数据组件的应用、哈希分片(Hash Partition)、虚拟桶(Virtual Buckets)、一致性哈希(Consistent Hashing)
范围分片(Range Partition)、布隆过滤器(Bloom Filter)、SkipList数据结构LSM 树、LZSS 算法、Cuckoo哈希、大数据组件的应用
第三阶段:
大数据组件源码深度解析
大数据核心采集、存储、计算组件源码解析 MapReduce核心源码解析、Hive核心源码解析、Spark核心源码解析、Flink技术核心源码解析、Flink技术监控及调优、Yarn源码及性能调优、Hbase核心源码、HDFS核心源码解析、Kafka底层源码解析、Druid技术监控及调优、、Flume核心源码解析、cannel核心源码解析
第四阶段:
大数据数据中台
大数据数据中台 大数据计算服务、大数据开发套件、数据主题域仓库、数据治理套件、数据服务引擎、数据可视化、元数据管理、数据API、主数据管理、全域数据源入口、数据应用场景、多行业业务剖析
第五阶段:
大数据数据挖掘
企业级大数据数据挖掘解决方案 机器学习基础、SparkMl&SparkMllib基础实战、Python核心基础、Python数据科学库基础(Numpy、Pandas、Matplotlib、Seaborn、Imblearn-Learn、Scikit-Learn)、Python数据挖掘案例、PyHdfs、PyHive、PyHbase、Kafka-Python、PySpark、PyFLink案例实战
第六阶段:
数据科学
数据科学分析原理及实战 描述性统计、概率、离散型随机变量分布,连续型随机变量法分布、二元概率分布及抽样分布、假设检验、统计过程和质量控制、数据分析六步曲、数据分析方法论(包括杜邦分析法、漏斗图分析法、矩阵关联分析法等 )、数据图表业务数据可视化及图表分析
基于实际业务场景案例结合数据分析与统计学完成数据科学案例全栈数据分析
第七阶段:
大厂面试题
互联网公司常见面试题及应用场景剖析 BAT大数据常见的面试题、互联网大数据平台多场景剖析、Hadoop面试题精讲、Spark面试题精讲、Flink面试题精讲、数据结构面试题精讲、数据科学面试题精讲
第八阶段:
多行业项目
工业、新零售、 政务等 本项目基于国内大型的设备制造商大数据项目开发。该企业在全球范围内销售设备,设备涵盖加油站相关,例如:加油机、油罐建设、加气机、自助设备等设备生产制造、设计、销售,并提供全球性的服务。在国内重点客户为:中国石油、中国石化、以及各个地域的大型企业。在国内,业务覆盖的油站约8W座,设备数量50W台。拿加油机设备来说,一台设备包含了众多的配件,每个配件的维护,设备信息的上报,服务工作人员的调度、GPS跟踪定位等,企业经过多年的经营,积累了海量的数据。集团公司为了能够确保企业精细化运营,决定进行数字化转型,依托于大数据技术,以客户、生产、服务、运营为核心,打造一个全方位的数字化平台

备注:该课程大纲仅供参考,实际课程内容可能在授课过程中发生更新或变化,具体授课内容最终以各班级课表为准。


基础差? 可免费学基础班

申请试读名额

基础过关? 可直接就读就业班

基础测试

大数据学科项目介绍

  • 企业级360°全方位用户画像

    项目简介:

    1、标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识,它是一种相关性很强的关键字,可以简洁的描述和分类人群。
    2、标签的定义来源于业务目标,基于不同的行业,不同的应用场景,同样的标签名称可能代表了不同的含义,也决定了不同的模型设计和数据处理方式。
    3、标签标签是构建用户画像的基础,会产生两类用户画像,即个人用户画像和群体画像。个人画像,也叫360度用户视图,用于用户精准互动和一对一服务,销售和运营等操作实务指导为主。群体画像是群体行为分析,群体行为洞察有利于做趋势分析、产品规划、营销决策等层面的工作。

    项目特色:

    1、大型电商真实的用户画像项目,真实的业务场景;
    2、自义定SparkSQL DataSource插件;
    3、插件化集成Spark的ML/Mllib建模;
    4、自定义Oozie定时工作流自动构建;
    5、用户标签的自动化生成;
    6、支持对人对物的秒级画像生成;
    7、各种企业级组合标签设计的思想和方案(如:高富帅、羊毛党等组合标签实战);
    8、RFM(客户价值模型)模型的应用实战。

  • 千亿级实时数据仓库

    技术要点:

    1、使用Canal采集关系型数据库结构化的交易数据;
    2、使用Flume采集非结构化的用户行为数据到Kafka;
    3、使用Kafka存储埋点系统产生的实时的用户行为数据;
    4、使用Hive、HBase存储大规模数据;
    5、基于ODS-DWB-DWS-DM-ADS的数仓分层;
    6、使用Oozie调度Spark定时工作流处理和计算分层数据;
    7、使用Kylin预计算DM层的数据立方体满足多维查询;
    8、使用Zeppelin+Impala实现灵活的数据开发功能;
    9、使用Superset实现EDW的可视化;
    10、使用Flink计算实时访客相关指标;
    11、使用Druid实时聚合订单和销售等相关指标;
    12、使用ECharts实现实时Dashboard的可视化

    项目特色:

    1、企业级离线和流式数仓建设的方案和思想;
    2、企业级数据仓库建设的难点攻克;
    3、数仓模型的设计分层设计思想、指标/维度设计思想和模块设计思想;
    4、阿里巴巴数仓分层架构(ODS-DWS-DWB-DM-ADS)实战;
    5、实时指标计算方面,利用Flink的低延迟,状态管理等特性进行实时指标的开发,提高指标的计算效率真正做到指标的实时统计;
    6、利用druid时序分析数据库进行数据的存储以及指标的统计;
    7、离线部分除了使用传统数仓技术如hive外,我们加入kylin,hbase等框架,实现了数据查询的低延迟,可以利用即席查询对离线数据进行快速高效的查询分析;
    8、企业级真实的数据仓库建设全部的核心流程和技术。

  • 黑马电商推荐系统

    项目简介:

    黑马电商平台个性化推荐系统通过采集用户购买、加购、浏览、收藏、点击等用户动态行为数据,结合用户静态属性(基于人口统计学信息)数据。通过混合推荐系统平台推荐给用户最可能购买的商品。项目依托于Hadoop大数据平台,完成了用户行为数据采集、用户数据分析、实时查询、实时展现以及通过构建推荐引擎实现离线和实时推荐,将结果通过Hbase或Redis存储推荐结果,通过线下构建用户兴趣模型、线上ABTest测试推荐结果的可行性。

    技术栈:

    1、数据采集:ngnix+lua+javascript;
    2、数据存储:HDFS、HBASE、Redis、MongoDB、Mysql;
    3、数据处理:HiveSql、SparkSql、SparkStreaming;
    4、数据统计计算:Hive、SparkSql;
    5、数据建模:SparkML、SparkMLLib、SparkGraphX、TensorflowOnSpark;
    6、数据展示:Web(Vue.js)、Neo4j;
    7、任务调度:Azkaban;
    8、搜索服务:ElasticSearch。

    项目特色:

    1、使用Spark-ALS算法训练模型和超参数调优,通过模型的predict方法预测推荐结果,通过Rmse比较推荐结果。
    2、通过Spark-FPGrowth算法训练模型和超参数调优,获取购买行为类型的样本数据,从数据中形成关联挖掘所需的数据,算法通过不同的置信度和支持度超参数设定,调整算法模型。
    3、项目构建基于Scala基础的UserCF、ItemCF的基于记忆的推荐引擎,得到推荐结果相关表,即为初始推荐结果。
    4、项目应用SparkGraphX的SVD++算法模型实现基于图计算的推荐方式,利用neo4j构建用户和商品的关系图示。
    5、项目扩展Tensorflow技术对CTR排序中的FM、FFM、DeepFM、Wide And Deep模型提取二阶及高阶特征完成排序。
    6、推荐结果从MongoDB和ElasticSearch中将离线推荐结果、实时推荐结果、内容推荐结果混合。

  • 电信信号强度诊断

    项目简介:

    1、本项目基于谋公司开发的手机测速软件采集的数据对用户的手机网速、上行下行流量,网络制式、信号强度等信息进行宏观分析。
    2、本项目总体分为三大模块,分别为数据导入模块、数据处理模块、报表生成模块、地图处理和渲染。
    1)数据导入模块:数据加载模块主要用于在传统关系型数据库与大数据平台之间进行数据传输,将mysql数据库内的同步到大数据平台中。实时新数据首先进入mysql中。除此之外,该平台数据导入模块还负责数据原始文件、本地wifi文件的自动导入功能。
    2)数据处理模块:数据处理模块主要用于对已经加载到大数平台的数据根据实际业务需求进行更深入的处理、分析、运算、加工。
    3)报表生成模块:报表生成模块主要用于对已经被大数据平台处理过的数据进行图形化转化、界面化的展示。以便于领导比较简单的、直观的了解经处理后的数据所传递的信息。
    4)地图处理和渲染:百度和高德地图的LBS服务使用,地图网格的切分思想,地图热力图的显示,街景的实现,大数据基于地图的安防案例实现。

    项目特色:

    1、调用高德或者百度的API,实现区域热点分析;
    2、地图网格的切分思想和实现;
    3、大数据技术+多维地图展现(包括地图、卫星图、三维图);
    4、信号强度热图使用多方案展现,并与大数据及时方案完美融合;
    5、信号强度矩阵图(矩阵计算),每个独立的矩形都要独立进行计算、一次查询至少需要计算长*宽次(25*12),并在地图上渲染,对于查询的时效性要求极高;
    6、以某一用户为中心,计算用户八个方向的信号质量、系统、APP等并以街景图形式展现。难点在于计算用户八个方向的数据;
    7、大数据技术和地图完美的整合。

教学服务

  • 每日测评

    每晚对学员当天知识的吸收程度、老师授课内容难易程度进行评分,老师会根据学员反馈进行分析,对学员吸收情况调整授课内容、课程节奏,最终让每位学员都可以跟上班级学习的整体节奏。

  • 技术辅导

    为每个就业班都安排了一名优秀的技术指导老师,不管是白天还是晚自习时间,随时解答学员问题,进一步巩固和加强课上知识。

  • 学习系统

    为了能辅助学员掌握所学知识,黑马程序员自主研发了6大学习系统,包括教学反馈系统、学习难易和吸收分析系统、学习测试系统、在线作业系统、学习任务手册、学员综合能力评定分析等。

  • 末位辅导

    末位辅导队列的学员,将会得到重点关心。技术辅导老师会在学员休息时间,针对学员的疑惑进行知识点梳理、答疑、辅导。以确保知识点掌握上没有一个学员掉队,真正落实不抛弃,不放弃任何一个学员。

  • 生活关怀

    从学员学习中的心态调整,到生活中的困难协助,从课上班级氛围塑造到课下多彩的班级活动,班主任360度暖心鼓励相伴。

  • 就业辅导

    小到五险一金的解释、面试礼仪的培训;大到500强企业面试实训及如何针对性地制定复习计划,帮助学员拿到高薪Offer。