大数据课程大纲|大数据培训课程体系|黑马大数据课程表

大数据课程设计理念

完全面向零基础的大数据课程

我们的课程帮助了近500名零基础的学员高薪就业，近2000名学生正在努力蜕变中。0基础也能高薪就业的大数据课程。
更新潮紧随技术发展浪潮

全面升级Spark核心就业项目，新增第四代大数据处理框架Flink，强化推荐系统实战并扩充至7天。
更真实深度还原企业应用场景

所有项目均是来自企业实战项目，报表分析、日志分析、推荐系统/广告系统、反欺诈系统、为就业提供强力保障。
更全面典型技术点线面横向扩展

课程全面覆盖大数据技术，数据收集、存储、计算、挖掘、展现，离线分析/实时分析/内存计算一网打尽。
更广泛就业领域

大数据时代已然到来，在数据已经在一线企业、中小型企业、传统企业、互联网企业全面落地。就业不再局限于互联网行业。

大数据-课程升级前后对比

职位技能要求	V7.0	V8.1	说明
了解HDFS, Hbase, Kafka、Flink等原理	有	更强化	V8.1对HDFS、HBase、Kafka、Flink原理进一步强化，例如：HBase布隆过滤器、预分区、Kafka再均衡、Flink状态管理、一致性深度剖析
熟悉Linux系统，熟练掌握JAVA或Scala语至少一种	有	更强化	V8.1对Java课程、Scala课程进一步升级，在Java多线程、爬虫、网络编程、JVM都进行强化，这样对后续的分布式框架学习会有更有力的支撑。
熟悉一种关系型数据库，具备一定的SQL功底	有	更强化	V8.1通过更多的项目来保障学生的SQL编程能力，更多的指标保证学生有足够多的练习
精通多维数据建模和ETL开发	有	更强化	V8.1从项目一开始就能够教会学生如何基于业务进行数据仓库建模、维度建模、分层。并在课堂上手把手带学生编写ETL代码，
了解Hadoop相关组件Hive/hbase/sqoop等，具备整体ETL/DW/BI的思想	有	更强化	在V8.1技术课程中，清晰的分析Hive、Hbase、sqoop的操作、运行流程、底层原理，并且结合项目中具体的业务场景，将这些技术真正用起来，学生在项目中学会有深度业务的ETL、DW、BI开发
熟练使用 MR/Spark Streaming/hive/spark 解决业务问题	有	更强化	V8.1课程中清晰介绍批处理框架以及流处理框架的运行特点，并深度解析如何针对不同的计算引擎进行调优。更涵盖了Structured Streaming、以及Flink的优秀流式框架应用以及原理。并在物流项目、车联网项目、知行在线教育等项目中都有具体的业务应用
熟悉Linux下开发, 熟练使用shell/python等脚本语言；	有	更强化	V8.1课程强化SHELL脚本编程，并手把手带学生学会编写在大数据项目中如何使用SHELL进行调度程序开发，在高级课程中学习Python大数据技术生态圈，涵盖Python数据分析、PySpark、数据挖掘等内容
负责大数据实时、离线处理程序开发，根据产品需求，设计开发数据处理程序	有	更强化	V8.1课程中有大量的实时、离线项目，学生只有通过大量练习，才能更好地掌握分布式程序的编写技巧，更能具备多个行业的数据处理特点
面向业务目标，对数据模型、数据分布、数据传输、数据存储等方面进行大数据场景的功能开发	部分	更完整	V8.1课程更注重培养学生的业务分析、建模、代码转换实现能力，每一个行业、每一个项目都会进行业务场景的深度解析，并且每个项目都是从采集、预处理、分析到最终应用完整流程，学生通过项目能够学习真正企业级的项目
有数据分析相关经验, 了解基本数据分析工具；	部分	有	课程中包含了常用的一些数据分析方法，包括分类、对比、趋势等分析，并通过使用ETL、BI工具来进行快速处理、展示
有大规模数据收集,日志处理经验；	部分	更完整	V8.1课程中涵盖了多行的多种数据采集方式，因为不同行业数据接口不一样，要通过不同方式采集数据，例如：证券数据通过socket+Flume自定义source采集、物流数据采用Oracle Golden Gate、Canal进行实时采集、车联网通过云服务器+Kafka采集等，这样学生才能具备丰富的收集处理经验
了解机器学习算法；	有	有	V8.1课程涵盖机器学习算法，并将这些算法与数据挖掘结合应用，基于这些算法进行数据挖掘建模，并进行参数调优，减少模型的误差率
深入研究过大数据框架的运行机制、实现原理、源码者。	部分	更强化	V8.1讲解框架都会深度剖析框架的底层原理，结合代码和配图给学生讲解设计原因，不仅要保证内容深度，还有兼顾学生能够学会

大数据基础班-课程大纲

学习对象

0基础0经验的小白人员；想通过更低的成本来试一下自己是否适合做大数据相关工作的转型人员。

注：获取更多免费学习视频+资料+笔记，请加QQ：2632311208。

上课方式

全日制脱产，每周5天上课, 上两天课休息一天的上课方式（实际培训时间可能因法定节假日等因素发生变化）

培训时间

部分校区可能会根据实际情况有所调整，详情可询咨询老师点击咨询

培训费用

大数据学费价格详情（享受优惠价的条件是什么？）

大数据基础班课程大纲
阶段名称	主讲内容	技术要点	学习目标
零基础数据仓库课程	操作系统基础	计算机基础知识、Linux环境搭建、远程连接工具、文件操作命令、压缩解压缩命令、文件查找命令、系统管理命令、权限管理、网络服务管理命令、VI等。	掌握企业级ETL平台的kettle；掌握BI的可视化平台Superset；掌握Kettle ETL处理设计思想；掌握大数据企业开发中最常见的的linux的操作；掌握一款主流数据库客户端工具DataGrip；掌握企业MySQL的调优方案；掌握大数据分析中数据全量及增量同步解决方案；掌握生产环境中数据分析程序的部署解决方案。
	关系型数据库	数据库环境搭建、SQL语言（DDL、DML、DQL）、多表查询、索引等。
	可视化ETL平台	数据仓库与ETL、Kettle安装部署、数据抽取与装载、表输入、表输出、插入/更新、switch/case等组件使用、Kettle作业等。
	BI可视化开发	Superset部署、开发，涵盖Charts开发、Dashboard开发。
	电商数据仓库实战	电商业务背景、案例架构、数据仓库增量同步、ETL开发、指标SQL开发、Kettle作业调度、Superset可视化展示等。

大数据就业班-课程大纲

学习对象

本课程适合于计算机专业，有一定Java基础、通过入学考核的未工作人士。

提示：测试题主要考察您是否具备Java基础，以便我们统一入学基础，更好地开展教学工作。如果您感觉测试题很难，我们建议您参加我们的Java基础班学习。

上课方式

全日制脱产，每周5天上课, 上两天课休息一天的上课方式（实际培训时间可能因法定节假日等因素发生变化）

培训时间

部分校区可能会根据实际情况有所调整，详情可询咨询老师点击咨询

培训费用

大数据学费价格详情（享受优惠价的条件是什么？）

大数据就业班课程大纲
阶段名称	主讲内容	技术要点	学习目标
Java语言编程	编程基础	Java概述、Java程序入门、常量与变量、数据类型、运算符、流程控制语句、方法、数组。	可掌握的核心：掌握Java程序基础数据类型；掌握开发中常用类如集合、IO流、常用类等操作；掌握Java异常处理机制；掌握反射、网络编程、多线程开发；掌握Jsoup的网络爬虫开发；掌握JDBC操作；掌握ETL数据处理和BI报表开发。可以解决的问题：具备JavaSE开发能力。市场价值：可胜任初级爬虫工程师岗位。
	面向对象	面向对象思想、类与对象、成员变量和局部变量、封装、 this关键字、构造方法。
	常用类	Object类、String、StringBuilder等。
	集合操作	数据结构、List、Set、Map等。
	IO操作	字节输入流、序列化、字节输出流、Apache Commons IO等。
	Java基础增强	反射、网络编程、多线程、注解等。
	JDBC	JDBC基本概述、JDBC入门和步骤分析、DriverManager详解、Connection详解、Statement详解、ResultSet详解、Driver接口介绍、JDBC的CRUD操作、SQL注入分析、PreparedStatement详解、JDBC的使用案例、连接池基础、C3P0连接池的使用。
	Maven	Maven环境搭建、Maven构建、自动化构建、本地仓库&中央仓库、pom.xml、依赖管理、坐标、依赖、生命周期等、IDEA下的Maven使用。
	爬虫案例	Jsoup、MySQL高级、JDBC、ETL、BI
Hadoop技术栈	Linux操作系统高级	Linux shell编程、awk、sed、cut、ssh、scp、expect、yum、nestat、top 、iostat等高级命令使用。	可掌握的核心：掌握shell编程；掌握ZooKeeper原理并应用；掌握HDFS的使用和MapReduce编程；理解MapReduce原理和调优；掌握Yarn的原理和调优；掌握Hive的使用和调优。可以解决的问题：具备Hadoop开发能力、离线数据仓库开发能力。市场价值：可胜任初级Hadoop工程师岗位。
	大数据基础和硬件介绍	大数据的特点、分布式存储概念、分布式计算的概念、服务器种类介绍、机架、交换机、网络拓扑、Raid、IDC数据中心。
	Zookeeper	Zookeeper的应用场景、架构和原理、存储模型、选举机制、客户端操作。
	HDFS	HDFS设计的特点、Master-Slave架构、Block块存储、RF拷贝因子、机架感知、Block拷贝策略、读写流程、HDFS Federation、HDFS Snapshots、NameNode HA架构和原理、HDFS管理员常用操作、HDFS权限控制。
	MapReduce	MapReduce架构和原理、Split机制、MapReduce并行度、Combiner机制、Partition机制、自定义Partition、MapReduce序列化、自定义排序、数据压缩。
	YARN	Yarn原理和架构、Yarn高可用、Container资源的封装（CPU、内存和IO）、资源调度策略（FIFO、Fair和Capacity）。
	Hive	Hive原理和架构、HQL操作、数据类型、分区、分桶、临时表、Meta Store服务、HiveServer内置函数、自定义UDF和UDAF、数据压缩、存储格式、自动化脚本、常见性能优化、explain执行计划详解。
项目一（在线教育）	1、还原大型在线教育的大数据平台。 2、建立企业数据仓库，统一企业数据中心，把分散的业务数据集中存储和处理。 3、项目从需求调研、设计、版本控制、研发、测试到落地上线，涵盖了项目的完整工序。 4、挖掘分析海量用户行为数据，定制多维数据集合，形成数据集市，供各个场景主题使用。	基于CM自动部署和配置、数据仓库建模、离线数仓架构分层、使用Git版本控制和CodeReview、使用Oozie进行作业调度、Hive2的使用和调优、 Sqoop进行Mysql和Hive的双向海量数据同步、使用拉链表完成增量数据的统计分析、使用FineReport完成数据可视化。	可掌握的核心：掌握从需求、设计、研发、测试到落地上线的完整项目流程；掌握大量教育行业的真实业务逻辑，涉及20多个主题，100多个指标；掌握海量数据如何调优、使用拉链表、增量数据处理，以及Hive函数的具体应用等；掌握基于CM的大数据环境部署和管理；掌握数据仓库的核心概念和应用；掌握常用离线大数据技术：Oozie、Sqoop、Hive等；掌握FineReport可视化。可以解决的问题：具备企业级离线数据仓库开发能力，深入教育行业需求，提升学员在行业的核心竞争力。市场价值：可胜任Hadoop工程师、离线数据仓库工程师、ETL开发工程师、FineReport BI开发工程师等岗位。
数据微服务接口开发	Spring	Spring Boot整合Spring MVC、使用Spring Boot整合MyBatis开发、搭建Eureka注册中心、Feign、使用Spring Cloud Gateway搭建微服务网关。	可掌握的核心：掌握SpringBoot整合SpringMVC开发；掌握SpringBoot整合MyBatis开发；掌握Eureka搭建；掌握Feign的使用。可以解决的问题: 具备后端数据微服务接口开发，可胜任通过Spring技术架构完成微服务搭建。可完成企业级数据微服务接口开发。市场价值：可胜任后端开发工程师岗位。
	Spring Boot
	Spring Cloud
实时生态圈	分布式缓存系统	Redis原理及架构、Redis Cluster原理及架构、Redis常用操作、HBase原理及架构、预分区、LSM结构、Bloom Filter、co-processor、结合Phoneix进行优化查询、Kafka原理及架构分析、分布式实时计算架构和思想、ElasticSearch开发、Logstash数据采集、Kibana数据可视化。	可掌握的核心：掌握Redis原理及架构；掌握Redis命令操作、及数据结构；掌握Hbase原理及架构；掌握HBase命令操作、MapReduce编程；掌握Phoneix二级索引优化查询；掌握ELK开发。可以解决的问题: 具备使用Hbase和Redis开发调优能力、ELK海量数据处理能力。市场价值：可胜任ELK开发工程师、Hadoop开发工程师等岗位。
	万亿级NoSQL海量数据存储
	分布式流处理平台
	Elastic Stack
	Flink Stream	Flink DataStream的使用、Flink SQL开发、Flink 性能监控、Flink调优、Flink SQL执行计划、Hive + Flink SQL、Kafka + Flink、Watermark、Checkpoint、任务调度与负载均衡、状态管理、Flume+Kafka+Flink+Hbase+Sqoop+Canal+MySQL案例实战。	可掌握的核心能力：掌握Kafka原理及架构；掌握KafkaStreams开发；掌握基于Flink进行实时和离线数据处理、分析；掌握基于Flink的多流并行处理技术；掌握千万级高速实时采集技术。可解决的现实问题：具备Kafka消息队列开发和调优能力、Flink流式和批量数据开发能力。市场价值：可胜任初级实时计算开发工程师、初级Flink开发工程师等岗位。
	Flink DataSet
	Flink Runtime
	Flink SQL
	Flink实战
项目二（证券、物联网任选其一）	1、实时监控证券市场的每日业务交易，实现对证券市场交易数据的统计分析 2、搭建监察预警体系，包括：预警规则管理，实时预警，历史预警，监察历史数据分析等 3、股市行情交易数据实时采集、实时数据分析、多维分析，即席查询，实时大屏监控展示	项目采用流处理计算引擎Flink，实时处理100万笔/s的交易数据基于企业主流的流处理技术框架：Flume、Kafka、Flink、Hbase等基于Hive和Kylin的批数据处理，可进行海量多维分析 Hbase5日内秒级行情亿级规模，MySQL5日内分时行情千万级规模 T-5日内实时行情毫秒响应，T-5日外的历史行情秒级响应数据存储以HDFS、Hive、Hbase应对PB级规模数据项目涵盖主流离线数仓的技术和OLAP分析引擎 OLAP分析引擎以Kylin和Druid实现离线和实时的指标分析队列服务以低延迟、高吞吐-百万笔/秒的Kafka保障数据接收缓存服务基于Redis的高速缓存，实现数据快速交换 TB级别的实时日处理数据、存储PB级历史数据主备双大数据平台保障。	可掌握的核心能力：掌握基于FTP、Flume + Kafka的实时数据采集开发；掌握TB级海量规模下Flink实时处理开发，保证实时计算高容错；掌握三种不同时间维指标的存储、计算方案（Druid、MySQL、HBase），例如：毫秒级\秒级\分时等时间维；掌握基于Kylin的即席快速OLAP开发；掌握基于Flink CEP的实时预警监控开发；掌握基于Spring Boot的数据服务接口开发。可解决的现实问题：具备TB级规模下毫秒级Flink实时计算程序开发、架设能力，并具备不同应用场景下多种存储引擎的技术引擎优化能力。以及项目上线部署、运维监控能力。市场价值：可胜任实时计算开发工程师、Flink开发工程师、实时数仓开发工程师等岗位。
Spark技术栈	Scala语言	Scala基础、变量声明、数据类型、条件表达式、块表达式、循环、方法和函数、数组、元组、集合、Iterator、构造器、伴生对象、Akka编程。	可掌握的核心：掌握Scala语言基础、数据结构；掌握Scala语言高阶语法特性；掌握Spark的RDD、DAG、CheckPoint等设计思想；掌握SparkSQL结构化数据处理，Spark On Hive整合；掌握Spark Streaming整合Kafka完成实时数据处理；掌握Spark Streaming偏移量管理及Checkpoint；掌握Structured Streaming整合多数据源完成实时数据处理。可以解决的问题: 具备Spark全栈开发能力，满足大数据行业多场景统一技术栈的数据开发，提供就业核心竞争力。市场价值：可胜任初级Spark开发工程师、初级大数据平台开发工程师、初级大数据开发工程师等岗位。
	Spark core	Spark架构和原理（运行机制、Driver和Executor、spark任务提交流程）、RDD开发和原理（Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制）、广播变量、DAG原理（DAG思想、DAG的生成、DAG的处理过程）。
	Spark sql	Spark SQL架构和原理、DataFrame、DataSet DSL和SQL开发、Spark多数据源整合（txt、CSV、Json、parquet、JDBC、Hive）、Spark SQL执行计划原理、Spark SQL性能调优。
	Spark Streaming	Spark Streaming流式开发、DStream API、整合多数据源、偏移量管理。
	Structured Streaming	Structured Streaming开发（input、output、window、watermark、过期数据操作、去重等）、Structured Streaming多数据源整合（socket、Kafka）、 Flume+kafka+Structured Streaming案例实战。
项目三（物流、电信任选其一）	1、基于一家大型物流公司研发的智慧物流大数据平台，日订单上千万 2、围绕订单、运输、仓储、搬运装卸、包装以及流通加工等物流环节中涉及的数据信息等 3、提高运输以及配送效率、减少物流成本、更有效地满足客户服务要求，并针对数据分析结果，提出具有中观指导意义的解决方案	涵盖离线业务和实时业务、ClickHouse实时存储和计算引擎、 Kudu + Impala准实时分析系统、基于Docker搭建异构数据源、以企业主流的Spark生态圈为核心技术（Spark、Spark SQL、Structured Streaming）、ELK全文检索、Spring Cloud数据微服务开发、实时监控地图开发、存储和计算性能调优、还原企业搭建大数据平台的完整过程。	可掌握的核心能力：掌握Docker环境部署、管理操作；掌握基于Oracle + MySQL异构数据源数据处理技术；掌握基于Oracle Golden Gate以及Canal的实时采集技术；掌握Kudu + Spark的快速离线数据处理、分析技术；掌握Kudu + Impala即席数据分析技术；掌握基于ClickHouse高性能存储、计算引擎技术；掌握基于ELK的全文检索技术；掌握Kudu、Spark的调优能力；掌握基于Spring Cloud的数据微服务接口开发技术。可解决的现实问题：具备基于Docker搭建不同数据源、实时采集开发能力，并具备构建高性能数据存储处理大数据平台开发能力。市场价值：可胜任中级Spark开发工程师、中级大数据平台开发工程师、中级大数据开发工程师等岗位。
项目四（电商、票务任选其一）	1、分析来自全品类B2B2C电商系统，以电商核心流程为主线进行数据分析，支撑运营 2、建立基于用户的全面分析体系，从多个维度建立基于用户的运营体系 3、实时分析用户访问流量、订单、店铺等运营指标	涵盖Kettle同步MySQL数据采集方案、JS埋点 + Flume实时用户点击行为数据采集方案、Spark on hive数据仓库解决方案、Apache Superset可视化方案、Kylin交互式快速数据分析方案、Canal MySQL业务数据实时采集方案、Flink实时ETL处理解决方案、Flink + Druid实时数仓解决方案、HBase + Phoenix明细数据实时查询方案、Flink CEP实时风控方案、Azkaban作业调度调度方案。	可掌握的核心能力：掌握Spark + Hive构建离线数仓；掌握Kafka + Flink + Druid构建实时数仓；掌握基于Kettle的数据ETL处理技术；掌握离线数仓和实时数仓分层架构；掌握基于Parquet + Snappy的存储、压缩技术；掌握Spark处理数据倾斜问题；掌握基于Redis + Flink实时ETL处理技术；掌握基于Spark引擎的Kylin Cube构建技术；掌握Kylin的碎片管理、Cube调优、增量构建等技术；掌握基于Flume、Canal的实时采集技术；掌握基于Proto Buf的高效序列化技术；掌握基于HBase + Phoenix的快速数据查询技术；掌握基于Flink CEP的实时风控处理技术；掌握基于Superset的BI开发技术。可解决的现实问题：具备主流Spark + Hive离线数仓开发技术，并具备海量数据处理性能调优能力，具备实时数仓架构能力，构建毫秒级的实时计算平台。市场价值：可胜任高级离线数仓开发工程师、高级实时数仓开发工程师、高级大数据开发工程等岗位。
可选择线下或线上
大数据平台化开发	大规模大数据集群部署、大规模集群运维监控	涵盖主流的一些大数据平台，涵盖CDH、HDP、Apache、云平台等部署方案，引入各家的最佳实践。包含基于平台下的各个组件的运维，包括Prometheus、Zabbix、Grafana、Eagle、CM、Ambari、Ganglia等。	可掌握的核心能力：掌握大数据组件的常用运维方法解决实际的运维方案；掌握大数据框架必备的数据结构及常用的数据结构；掌握企业级大数据架构原理及源码深入剖析；掌握PySpark、PyFlink等Python大数据生态技术；掌握大数据数据挖掘常见的算法及应用场景；掌握数据中台构建思路及实战；掌握数据科学常见的问题方法；掌握大型互联网公司常见面试题。可解决的现实问题: 具备大数据平台运维能力；具备企业数据中台构建能力；具备大数据数据挖掘、机器学习模型开发、调优能力；具备Apache顶级项目二次开发能力、源码级调优开发能力；具备大型企业大数据平台架构能力。市场价值：直通BAT等大厂。
大数据数据中台	大数据数据体系建设、管理	基于Altlas元数据管理工具进行数据血缘分析、构建数据地图，构建统一存储计算平台，建立数据类目体系、标签类目体系、数据资产管理，并基于数据中台构建数据应用服务。
大厂解决方案实战	出行、电商、视频、社交等领域大数据解决方案	大型门户可视化任务提交解决方案、大型旅游出行服务平台统一性能监控平台解决方案、B2B2C电商集中实时采集消息队列存储方案、出行平台实时风控性能调优方案、大型电商双十一千万级实时处理调优、视频网站海量用户行为数据计算调优。
大数据常见架构与设计	一线大厂技术架构	美团点评实时数仓架构、拼多多离线数仓架构、小米快速OLAP分析架构、抖音小视频实时推荐架构。
新零售项目实战	新零售大数据项目实战，离线实时全覆盖	本项目基于国内大型新零售巨头开发的大数据平台，基于高性能方案构建离线数仓、以及实时数仓。该项目涵盖完整的业务，包括销售、屡单、会员、促销、商品、客户等主题，每个主题涵盖大量真实的业务场景，项目手把手带着学生开发基于新零售场景下的离线、实时业务。本项目采用Hive+Presto架构构建高性能的离线处理方案，并采用基于ClickHouse的实时数仓，实现秒级OLAP分析。
工业大数据项目实战	制造业大数据项目实战	本项目基于国内大型的设备制造商大数据项目开发。该企业在全球范围内销售设备，设备涵盖加油站相关的所有，例如：加油机、油罐建设、加气机、自助设备等设备生产制造、设计、销售，并提供全球性的服务。在国内重点客户为：中国石油、中国石化、以及各个地域的大型企业。在国内，业务覆盖的油站约8W座，设备数量50W台。拿加油机设备来说，一台设备包含了众多的配件，每个配件的维护，设备信息的上报，服务工作人员的调度、GPS跟踪定位等，企业经过多年的经营，积累了海量的数据。集群公司为了能够确保企业精细化运营，决定进行数字化转型，依托于大数据技术，以客户、生产、服务、运营为核心，打造一个全方位的数字化平台。
大数据数据挖掘	企业级大数据数据挖掘解决方案	机器学习基础、SparkMl&SparkMllib基础实战、Python核心基础、Python数据科学库基础(Numpy、Pandas、Matplotlib、Seaborn、Imblearn-Learn、Scikit-Learn)、Python数据挖掘案例、PyHdfs、PyHive、PyHbase、Kafka-Python、PySpark、PyFLink案例实战。
BAT直通车	互联网公司常见面试题及应用场景剖析	BAT大数据常见的面试精选题、一线大厂多领域场景剖析、HDFS、MapReduce、Hive、Flume、Sqoop等面试题精讲、Spark、Spark Streaming等面试题精讲、Flink面试题精讲、底层数据结构面试题精讲。

备注：该课程大纲仅供参考，实际课程内容可能在授课过程中发生更新或变化，具体授课内容最终以各班级课表为准。

大数据学科项目介绍

企业级360°全方位用户画像

项目简介：

1、标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识，它是一种相关性很强的关键字，可以简洁的描述和分类人群。
2、标签的定义来源于业务目标，基于不同的行业，不同的应用场景，同样的标签名称可能代表了不同的含义，也决定了不同的模型设计和数据处理方式。
3、标签标签是构建用户画像的基础，会产生两类用户画像，即个人用户画像和群体画像。个人画像，也叫360度用户视图，用于用户精准互动和一对一服务，销售和运营等操作实务指导为主。群体画像是群体行为分析，群体行为洞察有利于做趋势分析、产品规划、营销决策等层面的工作。

项目特色：

1、大型电商真实的用户画像项目，真实的业务场景；
2、自义定SparkSQL DataSource插件；
3、插件化集成Spark的ML/Mllib建模；
4、自定义Oozie定时工作流自动构建；
5、用户标签的自动化生成；
6、支持对人对物的秒级画像生成；
7、各种企业级组合标签设计的思想和方案(如：高富帅、羊毛党等组合标签实战)；
8、RFM(客户价值模型)模型的应用实战。
千亿级实时数据仓库

技术要点：

1、使用Canal采集关系型数据库结构化的交易数据；
2、使用Flume采集非结构化的用户行为数据到Kafka；
3、使用Kafka存储埋点系统产生的实时的用户行为数据；
4、使用Hive、HBase存储大规模数据；
5、基于ODS-DWB-DWS-DM-ADS的数仓分层；
6、使用Oozie调度Spark定时工作流处理和计算分层数据；
7、使用Kylin预计算DM层的数据立方体满足多维查询；
8、使用Zeppelin+Impala实现灵活的数据开发功能；
9、使用Superset实现EDW的可视化；
10、使用Flink计算实时访客相关指标；
11、使用Druid实时聚合订单和销售等相关指标；
12、使用ECharts实现实时Dashboard的可视化

项目特色：

1、企业级离线和流式数仓建设的方案和思想；
2、企业级数据仓库建设的难点攻克；
3、数仓模型的设计分层设计思想、指标/维度设计思想和模块设计思想；
4、阿里巴巴数仓分层架构(ODS-DWS-DWB-DM-ADS)实战；
5、实时指标计算方面，利用Flink的低延迟，状态管理等特性进行实时指标的开发，提高指标的计算效率真正做到指标的实时统计；
6、利用druid时序分析数据库进行数据的存储以及指标的统计；
7、离线部分除了使用传统数仓技术如hive外，我们加入kylin,hbase等框架，实现了数据查询的低延迟，可以利用即席查询对离线数据进行快速高效的查询分析；
8、企业级真实的数据仓库建设全部的核心流程和技术。
黑马电商推荐系统

项目简介：

黑马电商平台个性化推荐系统通过采集用户购买、加购、浏览、收藏、点击等用户动态行为数据，结合用户静态属性(基于人口统计学信息)数据。通过混合推荐系统平台推荐给用户最可能购买的商品。项目依托于Hadoop大数据平台，完成了用户行为数据采集、用户数据分析、实时查询、实时展现以及通过构建推荐引擎实现离线和实时推荐，将结果通过Hbase或Redis存储推荐结果，通过线下构建用户兴趣模型、线上ABTest测试推荐结果的可行性。

技术栈：

1、数据采集：ngnix+lua+javascript；
2、数据存储：HDFS、HBASE、Redis、MongoDB、Mysql；
3、数据处理：HiveSql、SparkSql、SparkStreaming；
4、数据统计计算：Hive、SparkSql；
5、数据建模：SparkML、SparkMLLib、SparkGraphX、TensorflowOnSpark；
6、数据展示：Web(Vue.js)、Neo4j；
7、任务调度：Azkaban；
8、搜索服务：ElasticSearch。

项目特色：

1、使用Spark-ALS算法训练模型和超参数调优，通过模型的predict方法预测推荐结果，通过Rmse比较推荐结果。
2、通过Spark-FPGrowth算法训练模型和超参数调优，获取购买行为类型的样本数据，从数据中形成关联挖掘所需的数据，算法通过不同的置信度和支持度超参数设定，调整算法模型。
3、项目构建基于Scala基础的UserCF、ItemCF的基于记忆的推荐引擎,得到推荐结果相关表，即为初始推荐结果。
4、项目应用SparkGraphX的SVD++算法模型实现基于图计算的推荐方式，利用neo4j构建用户和商品的关系图示。
5、项目扩展Tensorflow技术对CTR排序中的FM、FFM、DeepFM、Wide And Deep模型提取二阶及高阶特征完成排序。
6、推荐结果从MongoDB和ElasticSearch中将离线推荐结果、实时推荐结果、内容推荐结果混合。
电信信号强度诊断

项目简介：

1、本项目基于谋公司开发的手机测速软件采集的数据对用户的手机网速、上行下行流量，网络制式、信号强度等信息进行宏观分析。
2、本项目总体分为三大模块，分别为数据导入模块、数据处理模块、报表生成模块、地图处理和渲染。
1）数据导入模块：数据加载模块主要用于在传统关系型数据库与大数据平台之间进行数据传输，将mysql数据库内的同步到大数据平台中。实时新数据首先进入mysql中。除此之外，该平台数据导入模块还负责数据原始文件、本地wifi文件的自动导入功能。
2）数据处理模块：数据处理模块主要用于对已经加载到大数平台的数据根据实际业务需求进行更深入的处理、分析、运算、加工。
3）报表生成模块：报表生成模块主要用于对已经被大数据平台处理过的数据进行图形化转化、界面化的展示。以便于领导比较简单的、直观的了解经处理后的数据所传递的信息。
4）地图处理和渲染：百度和高德地图的LBS服务使用，地图网格的切分思想，地图热力图的显示，街景的实现，大数据基于地图的安防案例实现。

项目特色：

1、调用高德或者百度的API，实现区域热点分析；
2、地图网格的切分思想和实现；
3、大数据技术+多维地图展现（包括地图、卫星图、三维图）；
4、信号强度热图使用多方案展现，并与大数据及时方案完美融合；
5、信号强度矩阵图（矩阵计算），每个独立的矩形都要独立进行计算、一次查询至少需要计算长*宽次（25*12），并在地图上渲染，对于查询的时效性要求极高；
6、以某一用户为中心，计算用户八个方向的信号质量、系统、APP等并以街景图形式展现。难点在于计算用户八个方向的数据；
7、大数据技术和地图完美的整合。

教学服务

每日测评

每晚对学员当天知识的吸收程度、老师授课内容难易程度进行评分，老师会根据学员反馈进行分析，对学员吸收情况调整授课内容、课程节奏，最终让每位学员都可以跟上班级学习的整体节奏。
技术辅导

为每个就业班都安排了一名优秀的技术指导老师，不管是白天还是晚自习时间，随时解答学员问题，进一步巩固和加强课上知识。
学习系统

为了能辅助学员掌握所学知识，黑马程序员自主研发了6大学习系统，包括教学反馈系统、学习难易和吸收分析系统、学习测试系统、在线作业系统、学习任务手册、学员综合能力评定分析等。
末位辅导

末位辅导队列的学员，将会得到重点关心。技术辅导老师会在学员休息时间，针对学员的疑惑进行知识点梳理、答疑、辅导。以确保知识点掌握上没有一个学员掉队，真正落实不抛弃，不放弃任何一个学员。
生活关怀

从学员学习中的心态调整，到生活中的困难协助，从课上班级氛围塑造到课下多彩的班级活动，班主任360度暖心鼓励相伴。
就业辅导

小到五险一金的解释、面试礼仪的培训；大到500强企业面试实训及如何针对性地制定复习计划，帮助学员拿到高薪Offer。

2020年大数据课程大纲

大数据课程设计理念

完全面向零基础的大数据课程

更新潮紧随技术发展浪潮

更真实深度还原企业应用场景

更全面典型技术点线面横向扩展

更广泛就业领域

大数据-课程升级前后对比

大数据基础班-课程大纲

大数据就业班-课程大纲

大数据中级进修课-课程大纲

大数据学科项目介绍

企业级360°全方位用户画像

千亿级实时数据仓库

黑马电商推荐系统

电信信号强度诊断

教学服务