十八掌徐培成倾力打造大数据开发


十八掌徐培成倾力打造大数据开发


 

课程涵盖Hadoop大数据生态圈全方位剖析,做到知识无死角,挑战高薪大数据职位; 循序渐进,由浅入深学习大数据技能,大数据处理技术方方面面一览无余,积跬步以至千里。 企业案例,理论与实际相结合,技术与操作同进行,学以致用,止于至善。 从内到外理解大数据各种技术,HBase,Hive,Pig,Zookeeper等等技术源码级传授,从无到有掌握Hadoop技术。

 

【课程内容】

------------------大数据Java基础------------------


第一天

01.类型转换
02.归档分析与实现
03.解档程序
04.使用zipOuputStream压缩文件流
05.使用zipInputStream使用解压缩
06.多线程同步问题
07.多线程同步问题-线程死锁
08.集合-ArrayList-linkedList
09.IDE-eclipse环境处理

第二天

01.多线程和尚馒头问题
02.hashcode原理-hashmap-hashset
03.arrayList-linkedList-equals-hashcode
04.jvm栈溢出
06.jvm内部结构-jconsole-jvm虚拟机调参
07.jvm classloader类加载过程
08.tcp-ip-OSI七层协议-三次握手

第三天

01.udp发送和接受
02.屏广过程分析
03.屏广过程分析-教师端程序
04.屏广过程分析-学生端接受程序分析和实现
05.屏广-学生端UI实现-增加压缩机制
05.屏广-学生端UI实现-测试通过
06.QQ通信-分析程序
07.QQ通信-消息实现-消息工厂-消息类-消息解析-消息转换
08.QQ通信-消息转换-解析2

第四天

01.客户端解析服务器消息
02.客户端消息转换-流基础
03.客户端消息通信-退出刷新
04.私聊窗口实现-刷新好友列表

第五天

01.设计模式-oop部分
02.OOP-2
03.NIO-ByteBuffer-FileChannel
04.NIO-MappedFileBuffer-离堆内存
05.NIO-离堆内存回收
06.NIO-ServerSocketChannel-Selector-SocketChannel
07.NIO-SocketChannel
08.JDK动态代理

------------------大数据Linux基础------------------

第一天

01..vmware安装-centos安装
02..CentOS基本命令

第二天

01.centos命令基础
02.centos命令-文件类型-权限
03.centos网络连接模式-虚拟网络编辑
04.centos网路配置-域名解析-光驱挂载
05.centos虚拟机增强工具的安装-文本模式的安装

第三天

01.符号连接-sudoers
02.进程查看-主机名-dirname-basename-磁盘分区
03.hostname-hosts-useradd-userdel
04.nc
05.nc传输文件-centosmin安装

第四天

01.CentOS-yum源修改-yum命令
02.CentOS-iso文件制作
03.CentOS-min版虚拟机增强

------------------大数据离线计算-Hadoop------------------

第一天

01.大数据介绍
02.hadoop介绍-jdk安装
03.hadoop安装-配置(独立模式-伪分布)

第二天

01.伪分布式启动-fs格式化-webui
02.完全分布式-准备工作-虚拟机克隆
03.完全分布式-搭建
04.完全分布式-调错
05.完全分布式-编写脚本-xcall-xsync

第三天

01.脚本分析-单个进程启动
02.hdfs常用操作
03.hadoop基础-hdfs-block
04.hadoop API-网络拓扑

第四天

01.maven搭建
02.maven-idea
03.maven-idea-创建项目-模块
04.idea-快捷键设置-项目调整-maven设置
05.hadoop最小块设置-指定副本数
06.hadoop滚动日志-安全模式-保存名称空间
07.配额管理-空间配合-目录配额
08.快照管理-删除-创建-重命名-启用-禁用
09.节点的服役和退役
10.rose建模-虚拟光驱安装

第五天

01-hdfs写入剖析
02-2nn融合nn的镜像文件和编辑日志
03-MR介绍
04-MR编写以及运行原理
05-MR原理图剖析
06-MR集群模式部署-运行

第六天

01.Yarn作业提交过程
02.job的文件split计算法则
03.切片和recorderreader读取法则
04.压缩文件
05.程序打包-centos运行-远程调试
06.5pom中引入antrun插件-远程调试-snappy库centos安装
07.LZO压缩编解码配置与测试
08.seqfile文件结构-同步点-压缩类型
09.自定义分区-数据倾斜-combiner类

第七天

01.多输入问题
02.计数器使用-跟踪运行信息
03.hadoop全排序
04.hadoop全排序-采样器
05.hadoop二次排序-原理-实现
06.hadoop二次排序-编程实现-年份最高气温值提取

第八天

01.二次排序-链条化
02.数据倾斜-自定义分区-随机分配
03.链式处理map和reduce tasks
04.DBInputFormat-DBWritable-实现数据库读取内容
05.DBInputFormat-DBWritable-输出数据到数据库中

第九天

01.机架感知
02.机架感知实现-配置
03.手动移动块数据-HA介绍
04.hadoop-ha介绍-配置-原理
05.hadoop-ha-配置
06.hadoop-ha-配置总结

第十天

01.mysql-jdbc加强
02.mysql-jdbc加强-state-ppst
03.mysql-定义存储过程
04.jdbc通过callableStatement调用存储过程
05.jdbc通过callableStatement实现百万数据插入
06.jdbc通过CallableStatement数据库函数
07.jdbc事务处理并发现象-脏读-不可重复读-幻读
08.mysql并发现象-脏读设置与演示
09.mysql并发现象-不可重复设置与演示
10.mysql并发现象-serializable-悲观锁-查询时使用forupdate写锁
11.java编程展现隔离级别-连接查询处理-内连接-左右外链接-笛卡尔积
12.mysql查询语法构成-where-分组-having-orderby-limit
13.mysql嵌套子查询-分组-having-二次分组

第十一天

01.Hadoop实现join操作原理分析
02.MR Map端连接实现
03.MR Reduce端连接实现-组合key-分区类-mapper类
04.MR Reduce端连接实现-排序对比器-分组对比器-App

------------------大数据数据仓库Hive------------------

第一天

01.hive的安装-配置
02.hive基本操作-建库-建表
03.hive中使用hiveserver2和beeline命令采用jdbc协议访问
04.hive中使用API通过jdbc访问数据藏库
05.hive中分区表-添加-删除-加载-查询
06.hive中桶表-实现-操作

第二天

01.hive操作-排序
02.hive动态分区-严格模式-非严格模式
03.hive事务处理-聚合
04.hive实现单词统计-嵌套子查询-分组聚合-topN
05.hive实现单词统计-结果存储-事务性表处理
06.hive视图操作
07.hive调优-mr严格模式-map端连接-explain
08.JVM重用-MR数量限制-本地模式
09.HiveUDF函数 
10.HiveUDF函数-注册函数-使用函数 
11.HiveUDF函数-日期时间函数 
12.HiveUDF-使用GenericUDF 
13.HiveUDF-GenericUDF-date日期函数

第三天

01.hive的数据倾斜

------------------大数据序列号Avro和Protobuf------------------

01.protobuf串行化
02.protobuf和java对比
03.avro串行化-编译方式
04.avro串行化-编译方式-串行-反串行
05.avro串行化-非编译模式

------------------大数据协调服务Zookeeper------------------

第一天

01.zk介绍-相关概念
02.zk安装-配置-服务器启动
03.zk命令操作
04.zk API访问zk数据
05.zk递归方式输出zk系统目录
06.zk观察者模式-编程API使用-监控演示
07.zk的读写操作过程

第二天

01.leader推选法则
02.zk完全分布式集群配置
03.HA分布式自动容灾1
04.HA分布式自动容灾2-配置实现-容灾演示
05.RM的HA配置

------------------大数据数据库HBase------------------

第一天

01.Hbse介绍
02.Hbse完全分布式集群搭建
03..HA集群架构回顾

第二天

01.hbase HA
02.hbase shell基本操作
03.hbase API方式实现插入和查询
04.hbase 架构介绍
05.hbase写入过程剖析-百万数据插入测试
06.hbase表和区域的切割
07.hbase和hadoop HA集成配置
08.hbase手动移动区域
09.hbaseAPI访问hbase数据库-crud-scan-动态元数据访问

第三天

01.hbase预切割
02.hbase版本数据-检查时版本数指定
03.hbase版本TTL-原生扫描-KeepDeleteCells
04.hbase扫描器缓存-设置-测试
05.hbase扫描器批处理设置
06.hbase过滤器-row-family-col-value-dep
07.hbasePage过滤-复杂查询
08.hbase计数器
09.hbase协处理器

第四天

01.rowkey的设计原则
02.rowkey的Calllogs呼叫日志设计实现
03.CallLog日志数据put和协处理器实现
04.CallLog实现-测试
05.CallLog实现-查询通化详单
06.hbase的布隆过滤器
07.hbase的phonix
08.phonix客户端SQuirrel安装
09.SQuirrel使用-SQL语句-upsert-select-delete

第五天

01.Hive-Hbase集成,hive

------------------大数据日志采集Flume------------------

01.flume日志收集介绍与架构
02.flume-netcat source
03.flume-常用的source-exec-spooldir-seq-netcat
04.flume-hdfs sink
05.flume-hbase sink
06.flume-hdfs round-roller区别
07.flume-avro hop跃点
08.flume-channel-file-memory-spillatable

------------------分布式发布订阅消息系统Kafka------------------

01.JMS简介-kafka
02.kafka安装
03.kafka集群配置-启动-验证
04.kafka生产消费控制台配置演示
05.kafka分区-部分-再平衡
06.kafka手动分区再平衡-同步复制-异步复制
07.通过java API编程实现kafka消息生产者
08.通过java API编程实现kafka消息消费者
09.flume与kafka集成

------------------大数据实时处理Storm------------------

第一天

01.storm
02.storm和hadoop对别
03.storm优点
04.storm架构介绍-核心组件
05.storm安装
06.storm完全分布式集群部署和配置-webui查看
07.storm编程实现电话呼叫日志处理-本地模式执行
08.storm完全分布式集群运行top作业
09.storm集群logviewer查看器进程-日志目录
10.wordcount的storm实现
11.定义工具类,使用nc结合socket编程实现分布式程序的调试功能
12.调整任务的并发度和任务数-worker数-执行线程数

第二天

01.回顾
02.storm分组策略-shuffle-field-数据倾斜
03.storm分组策略-wordcount-二次聚合-数据倾斜
04.storm分组使用守护线程按时间片定时清分-集合同步问题
05.storm分组-all-direct-global
06.storm分组-none分组
07.storm分组log设置
08.storm分组-自定义分组
09.storm确保消息被消费
10.storm确保消息被消费-使用双队列方式实现
11.storm与kafka集成
12.storm与kafka集成-log4j注意事项
13.storm与hbase集成

第三天

01.storm与hbase集成

------------------大数据JavaWeb基础SSM------------------


SSM-mybatis

01.ssm简介
02.项目初始化
03.配置文件和数据库创建-表创建
04.使用API测试是否连通
05.创建mapper文件和javabean
06.实现insert操作
07.实现update操作
08.实现selectOne操作
09.实现selectAll操作
10.复杂关系-准备数据-表结构
11.复杂关系-设计java类
12.复杂关系-orderMapper映射文件
13.复杂关系-修改配置-插入关联数据
14.复杂关系-多对一关联查询
15.复杂关系-多对一映射编写
16.复杂关系-多对一API编程测试
17.项目改造-规范化-Dao-Util
18.项目改造-样板代码-接口回调实现封装
19.项目改造-接口回调原理图说明

spring整合mybatis

01.体验Spring
02.spring注解方式-扫描组件-依赖配置
03.spring整合mybatis原理图
04.项目初始化-连接数据源c3p0-测试
05.sf-dao设计实现
06.service接口和实现类设计
07.配置文件-事务通知-aop配置
08.rose图分析
09.调错
10.整合回顾
11.业务增加-item处理
12.事务管理原理介绍-现象展示

SpringMVC

01.web程序简介
02.搭建tomcat服务器
03.tomcat目录结构-端口修改-server.xml
04.在idea下创建web模块-配置tomcat-运行程序
05.在idea下配置tomcat服务器热部署
06.在idea添加maven支持-修改热部署-默认浏览器
07.bs结构程序的工作流程
08.Spring MVC结构
09.引入Springmvc依赖-配置servlet
10.spring注解驱动配置mvc-编写controller
11.IDEA下的weeb模块运行找不到第三方类库的解决办法
12.配置视图解析器-增加jsp页面-增加控制器方法
13.实现注册用户功能
14.获得表单提交数据-HttpServletRequest
15.Controller向jsp传递参数-Model
16.Controller向jsp传递集合数据进行显示
17.springMVC完成CRUD-forward-redirect
18.forward-redirect区别

SSM整合

01.项目初始化-maven依赖
02.整合架构-包结构分析
03.基本类库创建-service-dao-domain
04.控制器-spring配置文件-分发器配置文件
05.实现user查看-web.xml配置监听-beans加载mybatis文件
06.SpringMVC静态资源访问
07.引入css表
08.删除用户
09.中文乱码问题
10.分页查询
11.jsp页面参数获取
12.数据范围-session-application-request
13.数据范围-session登录处理-session数据保存

------------------大数据Scala基础------------------

第一天

01.Scala安装-体验scala语法
02.Scala操作符重载-apply方法
03.Scala C风格printf函数-readLine读行数据
04.Scalawhile循环99表格
05.for训话守卫条件和yield推导式
06.函数-带名函数-默认值-过程
07.数组-变长数组-转换
08.数组常用操作-sum-max-min-排序-mkdString
09.多维数组
10.类型自动转换
11.map-可变immutable-不可变mutable-迭代
12.tuple-zip操作
13.OOP-类-this关键字-var变量-val-get-set-主构造-辅助构造
14.OOP-对象-伴生对象
15.OOP-抽象类-方法覆盖
16.安装idea下的scala插件-创建scala模块-运行程序
17.scala包的导入-package object

第二天

01.扩展-类型检查-转换-类型树
02.文件和正则表达式-爬虫实现网页图片下载
03.爬虫实现原理-正则href解析
04.trait
05.操作符-apply-unapply
06.apply-unapply2
07.高阶函数-匿名函数
08.复杂高阶函数演示
09.高阶函数进化演示
10.柯里化-控制抽象
11.集合操作

第三天

1.模式匹配
2.样例类-密封样例类
3.偏函数
5.隐式转换-隐式参数值 

------------------大数据实时计算Spark------------------

第一天

01.Spark介绍
02.安装Spark
03.使用Spark实现word count
04.Spark编程实现wordcount
05.Spark java版单词统计
06.Spark程序包找不到问题-配置idea下的全局库-在模块中指定全局库
07.部署spark完全分布式集群
08.spark脚本分析-进程管理

第二天

01.Scala文件的maven编译问题
02.核心API模块介绍
03.RDD弹性分布式数据集
04.RDD并发度-分区-变换
05.RDD变换-wordcount-count-reduce
06.RDD变换-groupByKey-join
07.RDD变换-cogroup
08.RDD变换-笛卡尔积
09.RDD变换-pipe
10.RDD Action-collect-count-countByKey-saveAs-foreach-take
11.RDD数据倾斜处理
12.Spark和hadoop HA整合-数据倾斜使用

第三天

01.spark运行代码解析-1
02.spark-dag调度器-task调度器-job-taskset-task
03.spark-activeJob-taskSchedulerImpl
04.spark作业提交-事件loop-调度器处理-监听器总线
05.spark作业提交-后台调度器-RpcEndpoint-消息发送-消息接受-最终代码调用

第四天

01.spark提交流程回顾
02.spark提交流程图形总结-宽窄依赖1
03.spark启动模式
04.spark持久化-shuffle
05.spark持久化-删除数据-丢失数据的恢复
06.spark累加器-广播变量
07.spark分布式计算PI值
08.Spark SQL模块

第五天

01.SparkSQL操纵json文件-read-write
02.SparkSQL使用jdbc操纵Mysql数据库
03.SparkSQL交互hive
04.SparkSQL交互hive-thriftserver
05.SparkSQL分布式SQL查询引擎
06.Spark Streaming流计算
07.Spark Streaming流计算JavaAPI编程实现-完全分布式提交作业
08.Spark Streaming流计算集群上提交演示
09.Spark Streaming DStream类考察-Receiver
10.Spark Streaming 和Kafka集成
11.Spark Streaming RDD-DStream-hadoop分区
12.Spark Streaming updateStateByKey状态更新

第六天

01.spark  streaming windows化操作
02.spark streaming容错处理
03.spark streaming容错代码测试-checkpoint-注意事项
04.spark机器学习-介绍-分类-聚类-推荐(协同过滤)
05.spark分类算法
06.spark机器学习-逻辑回归测试
07.spark机器学习-逻辑回归测试2
08.spark机器学习-分类-spamFilter

第七天

01.推荐算法
02.ALS最小二乘法实现推荐模型
03.ALS实现电影推荐
04.推荐model应用-商品推荐-用户推荐-topn推荐-all用户推荐
05.python体验
06.pythonwindows的安装
07.python基础-语句块
08.python基本数据类型
09.python运算符
10.python循环
11.python String
12.python文件访问

第八天

01.mysql集成python3.4-注意事项
02.mysql大数据量插入-查询-条件查询
03.python操纵mysql事务管理-自动提交模式
04.python操纵mysql 存储过程和函数
05.python操纵多线程-时间函数
06.python OOP
07.python多线程
08.python Socket编程
09.python Socket UDP编程
10.python 爬虫实现

第九天

01.python协同hbase实现数据写入
02.python编写wordcount
03.python编译hbase.thrift文件-实现put操作
04.python编译错误纠正-测试
05.python查询hbase scan-delete
06.python爬虫存储页面在hbase中-base64对url编码
07.python & spark实现数据分析-图表
08.python&spark实现数据分析-直方图-饼图-嵌套子图-条形图

第十天

01.商品价格抓取
02.Spark闭包处理-local-cluster模式下区别
03.SparkApp部署模式-client-cluster区分演示
04.Spark yarn集群运行模式
05.Spark yarn client模式运行
06.Spark yarn cluster模式运行-上传sparkjar到hdfs
07.Spark HA模式配置与测试
08.Spark hive集成

第十一天

01.sparkSQL集成hive访问hbase库-类库问题
02.sparkSQL idea编程实现spark对hbase数据的统计查询
03.sparkSQL同web项目集成
04.sparkSQL同web项目集成2
05.团购网站的标签生成应用-描述-数据结构
06.团购网站的标签生成应用-数据分析过程
07.团购网站的标签生成应用-java编程抽取json串中的评论
08.团购网站的标签生成应用-scala编程实现标签生成程序
09.用户画像概念
10.性别-年龄进行画像分析
11.性别-年龄进行用户画像MR代码分析与数据解析
12.性别-年龄进行用户画像第一阶段实现运行
13.性别-年龄进行用户画像算法实现
14.性别-年龄进行用户画像总结

------------------项目:电信电话项目(真实企业项目)------------------

第一天

01.通话记录系统架构分析
02.通话记录模拟生成程序
03.通话记录模拟生成程序生成jar部署到centos运行
04.部署数据生成程序到centos运行-编写执行脚本-生成测试数据
05.启动zk集群和kafka集群
06.创建kafka主题-并查看主体列表
07.创建flume配置文件-启动收集程序-F持续收集-从头收集
08.启动数据生成程序,查看数据收集状况
09.启动hadoop的hdfs集群-进行容灾切换-查看状态
10.启动hbase集群-双master节点做HA容灾处理-容器切换
11.创建hbase名字空间和表
12.编写HbaseDao实现数据的hbase写入-配置文件外部化-kafka消费者
13.编使用maven命令下载工件需要的所有第三方类库到指定目录下
14.导出消费者jar组织安装目录-编写运行脚本-执行程序
15.编写centos下的脚本-运行程序-查看消费数据
16.导入IDEA中其他模块到新项目中-调整配置
17.web项目集成-hbase数据查询展示

第二天

01.按照时间段查询通话记录
02.实现CallLogController查询页面和接受参数
03.编写jsp查询通话记录页面
04.查询时间段的通话记录分析
05.计算时间范围
06.实现范围时段查询
07.创建CallLog日志表的协处理器-完成被叫数据的保存
08.打包CallLog日志表的协处理器并进行部署-测试web程序
09.重写postGetOp方法,实现被叫查询返回主叫结果
10.web程序集成协处理器实现被叫查询返回主叫结果
11.重写CallLogRegionObserver的postScannerNext方法实现scan时数据的主被叫处理

第三天

01.启动yarn的集群-HA
02.启动hive-完成hive到hbase表映射-实现最近通话信息查询
03.SSM集成hive查询-交互与hiveserver2服务器-jdbc方式访问
04.SSM集成hive查询-修改pom依赖使用hive-jdbc-1.2.1依赖库
05.SSM集成hive-jdbc访问hiveser2时bug解决
06.通话记录增加名字信息
07.通话记录增加名字信息-准备数据
08.测试SSMWEB部分关联名字信息展示数据
09.修改物理内存和虚拟内存对MR的限制,否则Hive查询无法执行
10.使用Fastjson返回json的数据串-web集成ajax访问后台数据
11.集成jQuery库实现ajax访问-动态刷新通话记录
12.集成jQuery实现周期性刷新页面-javascript
13.全流程数据链演示
14.真正分布式配置指导

第四天

01.kafka存活时间设置
02.hive中substr的方法-按照年份统计指定人各月的通话次数
03.hive查询统计指标-controller实现
04.hive查询统计指标-jsp页面实现
05.linux awk命令批量按照java进程名称kill进程
06.ssh远程命令解决命令找不到-改造xcall.sh文件
07.编写管理脚本-hive查询统计结果数据
08.hive中查询所有用户的每个月的通话次数
09.ajax异步访问服务器中文数据乱码问题
10.使用echarts脚本库实现数据展现-柱状图
11.json数据后台查询-字符串处理-echart图表展示
12.使用ganglia进行集群监控-安装-注意事项-权限问题
13.yum源安装问题-cdh源使用
14.使用udp协议实现进程监控
15.使用udp协议实现接收方-发送方代码实现

------------------项目:团购网的标签生成(真实企业项目)------------------

01.团购网站的标签生成应用-描述-数据结构
02.团购网站的标签生成应用-数据分析过程
03.团购网站的标签生成应用-java编程抽取json串中的评论
04.团购网站的标签生成应用-scala编程实现标签生成程序

------------------项目:用户画像(真实企业项目)------------------

01.用户画像概念
02.性别-年龄进行画像分析
03.性别-年龄进行用户画像MR代码分析与数据解析
04.性别-年龄进行用户画像第一阶段实现运行
05.性别-年龄进行用户画像算法实现
06.性别-年龄进行用户画像总结

------------------项目:友盟网大数据(真实企业项目)------------------

第一天

01.业务模型说明
02.架构描述
03.术语解释-新增-活跃-用户等等
04.初始化weblog收集模块-公共模块-配置模块
05.初始化收集端模块-编程模拟上传json数据
06.通过firefox的poster插件测试web程序
07.创建client数据生成程序 不断发送数据给server
08.client上传log时,将client系统时间写入request的header中
09.编写工具类,使用内省实现属性复制
10.处理server收到的日志

第二天

01.时间修正
02.属性复制
03.通过GeoLite提取ip地址的真实区域
04.工具类封装地理信息获取
05.startuplog对象的地址设置
06.地理信息进行缓存处理
07.-将日给kafka主题
08.准备kafka集群和zk集群并创建主题
09.启动kakfa集群-web程序-phone程序测试数据收集
10.分析flume收集kafka消息-分区手段
11.自定义拦截器-添加logType和log创建时间的头信息
12.导出flumejar文件部署到flume lib下
13.配置flume
14.添加自定义拦截器给配置文件
15.使用maven命令导出工件需要的所有第三方类库
16.联动测试-收集数据到hdfs
17.使用json serse作为hive表的串行化处理工具

第三天

01.使用当前线程类加载解决公共模块的加载问题
02.修改flume配置文件原生类型-避免大量小文件
03.使用脚本创建仓库表
04.调度导入分区表数据分析
05.时间导入数据分析
06.使用sed编辑器处理时间问题
07.编写exec.sh文件和exportData.sql文件
08.使用hive命令测试导入hdfs数据到hive分区表
09.修改手机端数据生成时间戳
10.实现调度周期导入hdfs数据到hive分区表
11.centos安装tomcat
12.部署web程序到centos的tomcat下
13.分析统计用户和新增用户数
14.计算一天的起始和结束时间片

相关资源

发表评论

点 击 提 交