十八掌徐培成倾力打造大数据开发




	
	 

	

	课程涵盖Hadoop大数据生态圈全方位剖析，做到知识无死角，挑战高薪大数据职位； 循序渐进，由浅入深学习大数据技能，大数据处理技术方方面面一览无余，积跬步以至千里。 企业案例，理论与实际相结合，技术与操作同进行，学以致用，止于至善。 从内到外理解大数据各种技术，HBase，Hive，Pig，Zookeeper等等技术源码级传授，从无到有掌握Hadoop技术。

	

	 

	

	【课程内容】

	

	------------------大数据Java基础------------------

	

	

	第一天

	

	01.类型转换

	02.归档分析与实现

	03.解档程序

	04.使用zipOuputStream压缩文件流

	05.使用zipInputStream使用解压缩

	06.多线程同步问题

	07.多线程同步问题-线程死锁

	08.集合-ArrayList-linkedList

	09.IDE-eclipse环境处理

	

	第二天

	

	01.多线程和尚馒头问题

	02.hashcode原理-hashmap-hashset

	03.arrayList-linkedList-equals-hashcode

	04.jvm栈溢出

	06.jvm内部结构-jconsole-jvm虚拟机调参

	07.jvm classloader类加载过程

	08.tcp-ip-OSI七层协议-三次握手

	

	第三天

	

	01.udp发送和接受

	02.屏广过程分析

	03.屏广过程分析-教师端程序

	04.屏广过程分析-学生端接受程序分析和实现

	05.屏广-学生端UI实现-增加压缩机制

	05.屏广-学生端UI实现-测试通过

	06.QQ通信-分析程序

	07.QQ通信-消息实现-消息工厂-消息类-消息解析-消息转换

	08.QQ通信-消息转换-解析2

	

	第四天

	

	01.客户端解析服务器消息

	02.客户端消息转换-流基础

	03.客户端消息通信-退出刷新

	04.私聊窗口实现-刷新好友列表

	

	第五天

	

	01.设计模式-oop部分

	02.OOP-2

	03.NIO-ByteBuffer-FileChannel

	04.NIO-MappedFileBuffer-离堆内存

	05.NIO-离堆内存回收

	06.NIO-ServerSocketChannel-Selector-SocketChannel

	07.NIO-SocketChannel

	08.JDK动态代理

	

	------------------大数据Linux基础------------------

	

	第一天

	

	01..vmware安装-centos安装

	02..CentOS基本命令

	

	第二天

	

	01.centos命令基础

	02.centos命令-文件类型-权限

	03.centos网络连接模式-虚拟网络编辑

	04.centos网路配置-域名解析-光驱挂载

	05.centos虚拟机增强工具的安装-文本模式的安装

	

	第三天

	

	01.符号连接-sudoers

	02.进程查看-主机名-dirname-basename-磁盘分区

	03.hostname-hosts-useradd-userdel

	04.nc

	05.nc传输文件-centosmin安装

	

	第四天

	

	01.CentOS-yum源修改-yum命令

	02.CentOS-iso文件制作

	03.CentOS-min版虚拟机增强

	

	------------------大数据离线计算-Hadoop------------------

	

	第一天

	

	01.大数据介绍

	02.hadoop介绍-jdk安装

	03.hadoop安装-配置(独立模式-伪分布)

	

	第二天

	

	01.伪分布式启动-fs格式化-webui

	02.完全分布式-准备工作-虚拟机克隆

	03.完全分布式-搭建

	04.完全分布式-调错

	05.完全分布式-编写脚本-xcall-xsync

	

	第三天

	

	01.脚本分析-单个进程启动

	02.hdfs常用操作

	03.hadoop基础-hdfs-block

	04.hadoop API-网络拓扑

	

	第四天

	

	01.maven搭建

	02.maven-idea

	03.maven-idea-创建项目-模块

	04.idea-快捷键设置-项目调整-maven设置

	05.hadoop最小块设置-指定副本数

	06.hadoop滚动日志-安全模式-保存名称空间

	07.配额管理-空间配合-目录配额

	08.快照管理-删除-创建-重命名-启用-禁用

	09.节点的服役和退役

	10.rose建模-虚拟光驱安装

	

	第五天

	

	01-hdfs写入剖析

	02-2nn融合nn的镜像文件和编辑日志

	03-MR介绍

	04-MR编写以及运行原理

	05-MR原理图剖析

	06-MR集群模式部署-运行

	

	第六天

	

	01.Yarn作业提交过程

	02.job的文件split计算法则

	03.切片和recorderreader读取法则

	04.压缩文件

	05.程序打包-centos运行-远程调试

	06.5pom中引入antrun插件-远程调试-snappy库centos安装

	07.LZO压缩编解码配置与测试

	08.seqfile文件结构-同步点-压缩类型

	09.自定义分区-数据倾斜-combiner类

	

	第七天

	

	01.多输入问题

	02.计数器使用-跟踪运行信息

	03.hadoop全排序

	04.hadoop全排序-采样器

	05.hadoop二次排序-原理-实现

	06.hadoop二次排序-编程实现-年份最高气温值提取

	

	第八天

	

	01.二次排序-链条化

	02.数据倾斜-自定义分区-随机分配

	03.链式处理map和reduce tasks

	04.DBInputFormat-DBWritable-实现数据库读取内容

	05.DBInputFormat-DBWritable-输出数据到数据库中

	

	第九天

	

	01.机架感知

	02.机架感知实现-配置

	03.手动移动块数据-HA介绍

	04.hadoop-ha介绍-配置-原理

	05.hadoop-ha-配置

	06.hadoop-ha-配置总结

	

	第十天

	

	01.mysql-jdbc加强

	02.mysql-jdbc加强-state-ppst

	03.mysql-定义存储过程

	04.jdbc通过callableStatement调用存储过程

	05.jdbc通过callableStatement实现百万数据插入

	06.jdbc通过CallableStatement数据库函数

	07.jdbc事务处理并发现象-脏读-不可重复读-幻读

	08.mysql并发现象-脏读设置与演示

	09.mysql并发现象-不可重复设置与演示

	10.mysql并发现象-serializable-悲观锁-查询时使用forupdate写锁

	11.java编程展现隔离级别-连接查询处理-内连接-左右外链接-笛卡尔积

	12.mysql查询语法构成-where-分组-having-orderby-limit

	13.mysql嵌套子查询-分组-having-二次分组

	

	第十一天

	

	01.Hadoop实现join操作原理分析

	02.MR Map端连接实现

	03.MR Reduce端连接实现-组合key-分区类-mapper类

	04.MR Reduce端连接实现-排序对比器-分组对比器-App

	

	------------------大数据数据仓库Hive------------------

	

	第一天

	

	01.hive的安装-配置

	02.hive基本操作-建库-建表

	03.hive中使用hiveserver2和beeline命令采用jdbc协议访问

	04.hive中使用API通过jdbc访问数据藏库

	05.hive中分区表-添加-删除-加载-查询

	06.hive中桶表-实现-操作

	

	第二天

	

	01.hive操作-排序

	02.hive动态分区-严格模式-非严格模式

	03.hive事务处理-聚合

	04.hive实现单词统计-嵌套子查询-分组聚合-topN

	05.hive实现单词统计-结果存储-事务性表处理

	06.hive视图操作

	07.hive调优-mr严格模式-map端连接-explain

	08.JVM重用-MR数量限制-本地模式

	09.HiveUDF函数 

	10.HiveUDF函数-注册函数-使用函数 

	11.HiveUDF函数-日期时间函数 

	12.HiveUDF-使用GenericUDF 

	13.HiveUDF-GenericUDF-date日期函数

	

	第三天

	

	01.hive的数据倾斜

	

	------------------大数据序列号Avro和Protobuf------------------

	

	01.protobuf串行化

	02.protobuf和java对比

	03.avro串行化-编译方式

	04.avro串行化-编译方式-串行-反串行

	05.avro串行化-非编译模式

	

	------------------大数据协调服务Zookeeper------------------

	

	第一天

	

	01.zk介绍-相关概念

	02.zk安装-配置-服务器启动

	03.zk命令操作

	04.zk API访问zk数据

	05.zk递归方式输出zk系统目录

	06.zk观察者模式-编程API使用-监控演示

	07.zk的读写操作过程

	

	第二天

	

	01.leader推选法则

	02.zk完全分布式集群配置

	03.HA分布式自动容灾1

	04.HA分布式自动容灾2-配置实现-容灾演示

	05.RM的HA配置

	

	------------------大数据数据库HBase------------------

	

	第一天

	

	01.Hbse介绍

	02.Hbse完全分布式集群搭建

	03..HA集群架构回顾

	

	第二天

	

	01.hbase HA

	02.hbase shell基本操作

	03.hbase API方式实现插入和查询

	04.hbase 架构介绍

	05.hbase写入过程剖析-百万数据插入测试

	06.hbase表和区域的切割

	07.hbase和hadoop HA集成配置

	08.hbase手动移动区域

	09.hbaseAPI访问hbase数据库-crud-scan-动态元数据访问

	

	第三天

	

	01.hbase预切割

	02.hbase版本数据-检查时版本数指定

	03.hbase版本TTL-原生扫描-KeepDeleteCells

	04.hbase扫描器缓存-设置-测试

	05.hbase扫描器批处理设置

	06.hbase过滤器-row-family-col-value-dep

	07.hbasePage过滤-复杂查询

	08.hbase计数器

	09.hbase协处理器

	

	第四天

	

	01.rowkey的设计原则

	02.rowkey的Calllogs呼叫日志设计实现

	03.CallLog日志数据put和协处理器实现

	04.CallLog实现-测试

	05.CallLog实现-查询通化详单

	06.hbase的布隆过滤器

	07.hbase的phonix

	08.phonix客户端SQuirrel安装

	09.SQuirrel使用-SQL语句-upsert-select-delete

	

	第五天

	

	01.Hive-Hbase集成,hive

	

	------------------大数据日志采集Flume------------------

	

	01.flume日志收集介绍与架构

	02.flume-netcat source

	03.flume-常用的source-exec-spooldir-seq-netcat

	04.flume-hdfs sink

	05.flume-hbase sink

	06.flume-hdfs round-roller区别

	07.flume-avro hop跃点

	08.flume-channel-file-memory-spillatable

	

	------------------分布式发布订阅消息系统Kafka------------------

	

	01.JMS简介-kafka

	02.kafka安装

	03.kafka集群配置-启动-验证

	04.kafka生产消费控制台配置演示

	05.kafka分区-部分-再平衡

	06.kafka手动分区再平衡-同步复制-异步复制

	07.通过java API编程实现kafka消息生产者

	08.通过java API编程实现kafka消息消费者

	09.flume与kafka集成

	

	------------------大数据实时处理Storm------------------

	

	第一天

	

	01.storm

	02.storm和hadoop对别

	03.storm优点

	04.storm架构介绍-核心组件

	05.storm安装

	06.storm完全分布式集群部署和配置-webui查看

	07.storm编程实现电话呼叫日志处理-本地模式执行

	08.storm完全分布式集群运行top作业

	09.storm集群logviewer查看器进程-日志目录

	10.wordcount的storm实现

	11.定义工具类，使用nc结合socket编程实现分布式程序的调试功能

	12.调整任务的并发度和任务数-worker数-执行线程数

	

	第二天

	

	01.回顾

	02.storm分组策略-shuffle-field-数据倾斜

	03.storm分组策略-wordcount-二次聚合-数据倾斜

	04.storm分组使用守护线程按时间片定时清分-集合同步问题

	05.storm分组-all-direct-global

	06.storm分组-none分组

	07.storm分组log设置

	08.storm分组-自定义分组

	09.storm确保消息被消费

	10.storm确保消息被消费-使用双队列方式实现

	11.storm与kafka集成

	12.storm与kafka集成-log4j注意事项

	13.storm与hbase集成

	

	第三天

	

	01.storm与hbase集成

	

	------------------大数据JavaWeb基础SSM------------------

	

	

	SSM-mybatis

	

	01.ssm简介

	02.项目初始化

	03.配置文件和数据库创建-表创建

	04.使用API测试是否连通

	05.创建mapper文件和javabean

	06.实现insert操作

	07.实现update操作

	08.实现selectOne操作

	09.实现selectAll操作

	10.复杂关系-准备数据-表结构

	11.复杂关系-设计java类

	12.复杂关系-orderMapper映射文件

	13.复杂关系-修改配置-插入关联数据

	14.复杂关系-多对一关联查询

	15.复杂关系-多对一映射编写

	16.复杂关系-多对一API编程测试

	17.项目改造-规范化-Dao-Util

	18.项目改造-样板代码-接口回调实现封装

	19.项目改造-接口回调原理图说明

	

	spring整合mybatis

	

	01.体验Spring

	02.spring注解方式-扫描组件-依赖配置

	03.spring整合mybatis原理图

	04.项目初始化-连接数据源c3p0-测试

	05.sf-dao设计实现

	06.service接口和实现类设计

	07.配置文件-事务通知-aop配置

	08.rose图分析

	09.调错

	10.整合回顾

	11.业务增加-item处理

	12.事务管理原理介绍-现象展示

	

	SpringMVC

	

	01.web程序简介

	02.搭建tomcat服务器

	03.tomcat目录结构-端口修改-server.xml

	04.在idea下创建web模块-配置tomcat-运行程序

	05.在idea下配置tomcat服务器热部署

	06.在idea添加maven支持-修改热部署-默认浏览器

	07.bs结构程序的工作流程

	08.Spring MVC结构

	09.引入Springmvc依赖-配置servlet

	10.spring注解驱动配置mvc-编写controller

	11.IDEA下的weeb模块运行找不到第三方类库的解决办法

	12.配置视图解析器-增加jsp页面-增加控制器方法

	13.实现注册用户功能

	14.获得表单提交数据-HttpServletRequest

	15.Controller向jsp传递参数-Model

	16.Controller向jsp传递集合数据进行显示

	17.springMVC完成CRUD-forward-redirect

	18.forward-redirect区别

	

	SSM整合

	

	01.项目初始化-maven依赖

	02.整合架构-包结构分析

	03.基本类库创建-service-dao-domain

	04.控制器-spring配置文件-分发器配置文件

	05.实现user查看-web.xml配置监听-beans加载mybatis文件

	06.SpringMVC静态资源访问

	07.引入css表

	08.删除用户

	09.中文乱码问题

	10.分页查询

	11.jsp页面参数获取

	12.数据范围-session-application-request

	13.数据范围-session登录处理-session数据保存

	

	------------------大数据Scala基础------------------

	

	第一天

	

	01.Scala安装-体验scala语法

	02.Scala操作符重载-apply方法

	03.Scala C风格printf函数-readLine读行数据

	04.Scalawhile循环99表格

	05.for训话守卫条件和yield推导式

	06.函数-带名函数-默认值-过程

	07.数组-变长数组-转换

	08.数组常用操作-sum-max-min-排序-mkdString

	09.多维数组

	10.类型自动转换

	11.map-可变immutable-不可变mutable-迭代

	12.tuple-zip操作

	13.OOP-类-this关键字-var变量-val-get-set-主构造-辅助构造

	14.OOP-对象-伴生对象

	15.OOP-抽象类-方法覆盖

	16.安装idea下的scala插件-创建scala模块-运行程序

	17.scala包的导入-package object

	

	第二天

	

	01.扩展-类型检查-转换-类型树

	02.文件和正则表达式-爬虫实现网页图片下载

	03.爬虫实现原理-正则href解析

	04.trait

	05.操作符-apply-unapply

	06.apply-unapply2

	07.高阶函数-匿名函数

	08.复杂高阶函数演示

	09.高阶函数进化演示

	10.柯里化-控制抽象

	11.集合操作

	

	第三天

	

	1.模式匹配

	2.样例类-密封样例类

	3.偏函数

	5.隐式转换-隐式参数值 

	

	------------------大数据实时计算Spark------------------

	

	第一天

	

	01.Spark介绍

	02.安装Spark

	03.使用Spark实现word count

	04.Spark编程实现wordcount

	05.Spark java版单词统计

	06.Spark程序包找不到问题-配置idea下的全局库-在模块中指定全局库

	07.部署spark完全分布式集群

	08.spark脚本分析-进程管理

	

	第二天

	

	01.Scala文件的maven编译问题

	02.核心API模块介绍

	03.RDD弹性分布式数据集

	04.RDD并发度-分区-变换

	05.RDD变换-wordcount-count-reduce

	06.RDD变换-groupByKey-join

	07.RDD变换-cogroup

	08.RDD变换-笛卡尔积

	09.RDD变换-pipe

	10.RDD Action-collect-count-countByKey-saveAs-foreach-take

	11.RDD数据倾斜处理

	12.Spark和hadoop HA整合-数据倾斜使用

	

	第三天

	

	01.spark运行代码解析-1

	02.spark-dag调度器-task调度器-job-taskset-task

	03.spark-activeJob-taskSchedulerImpl

	04.spark作业提交-事件loop-调度器处理-监听器总线

	05.spark作业提交-后台调度器-RpcEndpoint-消息发送-消息接受-最终代码调用

	

	第四天

	

	01.spark提交流程回顾

	02.spark提交流程图形总结-宽窄依赖1

	03.spark启动模式

	04.spark持久化-shuffle

	05.spark持久化-删除数据-丢失数据的恢复

	06.spark累加器-广播变量

	07.spark分布式计算PI值

	08.Spark SQL模块

	

	第五天

	

	01.SparkSQL操纵json文件-read-write

	02.SparkSQL使用jdbc操纵Mysql数据库

	03.SparkSQL交互hive

	04.SparkSQL交互hive-thriftserver

	05.SparkSQL分布式SQL查询引擎

	06.Spark Streaming流计算

	07.Spark Streaming流计算JavaAPI编程实现-完全分布式提交作业

	08.Spark Streaming流计算集群上提交演示

	09.Spark Streaming DStream类考察-Receiver

	10.Spark Streaming 和Kafka集成

	11.Spark Streaming RDD-DStream-hadoop分区

	12.Spark Streaming updateStateByKey状态更新

	

	第六天

	

	01.spark  streaming windows化操作

	02.spark streaming容错处理

	03.spark streaming容错代码测试-checkpoint-注意事项

	04.spark机器学习-介绍-分类-聚类-推荐(协同过滤)

	05.spark分类算法

	06.spark机器学习-逻辑回归测试

	07.spark机器学习-逻辑回归测试2

	08.spark机器学习-分类-spamFilter

	

	第七天

	

	01.推荐算法

	02.ALS最小二乘法实现推荐模型

	03.ALS实现电影推荐

	04.推荐model应用-商品推荐-用户推荐-topn推荐-all用户推荐

	05.python体验

	06.pythonwindows的安装

	07.python基础-语句块

	08.python基本数据类型

	09.python运算符

	10.python循环

	11.python String

	12.python文件访问

	

	第八天

	

	01.mysql集成python3.4-注意事项

	02.mysql大数据量插入-查询-条件查询

	03.python操纵mysql事务管理-自动提交模式

	04.python操纵mysql 存储过程和函数

	05.python操纵多线程-时间函数

	06.python OOP

	07.python多线程

	08.python Socket编程

	09.python Socket UDP编程

	10.python 爬虫实现

	

	第九天

	

	01.python协同hbase实现数据写入

	02.python编写wordcount

	03.python编译hbase.thrift文件-实现put操作

	04.python编译错误纠正-测试

	05.python查询hbase scan-delete

	06.python爬虫存储页面在hbase中-base64对url编码

	07.python & spark实现数据分析-图表

	08.python&spark实现数据分析-直方图-饼图-嵌套子图-条形图

	

	第十天

	

	01.商品价格抓取

	02.Spark闭包处理-local-cluster模式下区别

	03.SparkApp部署模式-client-cluster区分演示

	04.Spark yarn集群运行模式

	05.Spark yarn client模式运行

	06.Spark yarn cluster模式运行-上传sparkjar到hdfs

	07.Spark HA模式配置与测试

	08.Spark hive集成

	

	第十一天

	

	01.sparkSQL集成hive访问hbase库-类库问题

	02.sparkSQL idea编程实现spark对hbase数据的统计查询

	03.sparkSQL同web项目集成

	04.sparkSQL同web项目集成2

	05.团购网站的标签生成应用-描述-数据结构

	06.团购网站的标签生成应用-数据分析过程

	07.团购网站的标签生成应用-java编程抽取json串中的评论

	08.团购网站的标签生成应用-scala编程实现标签生成程序

	09.用户画像概念

	10.性别-年龄进行画像分析

	11.性别-年龄进行用户画像MR代码分析与数据解析

	12.性别-年龄进行用户画像第一阶段实现运行

	13.性别-年龄进行用户画像算法实现

	14.性别-年龄进行用户画像总结

	

	------------------项目：电信电话项目（真实企业项目）------------------

	

	第一天

	

	01.通话记录系统架构分析

	02.通话记录模拟生成程序

	03.通话记录模拟生成程序生成jar部署到centos运行

	04.部署数据生成程序到centos运行-编写执行脚本-生成测试数据

	05.启动zk集群和kafka集群

	06.创建kafka主题-并查看主体列表

	07.创建flume配置文件-启动收集程序-F持续收集-从头收集

	08.启动数据生成程序，查看数据收集状况

	09.启动hadoop的hdfs集群-进行容灾切换-查看状态

	10.启动hbase集群-双master节点做HA容灾处理-容器切换

	11.创建hbase名字空间和表

	12.编写HbaseDao实现数据的hbase写入-配置文件外部化-kafka消费者

	13.编使用maven命令下载工件需要的所有第三方类库到指定目录下

	14.导出消费者jar组织安装目录-编写运行脚本-执行程序

	15.编写centos下的脚本-运行程序-查看消费数据

	16.导入IDEA中其他模块到新项目中-调整配置

	17.web项目集成-hbase数据查询展示

	

	第二天

	

	01.按照时间段查询通话记录

	02.实现CallLogController查询页面和接受参数

	03.编写jsp查询通话记录页面

	04.查询时间段的通话记录分析

	05.计算时间范围

	06.实现范围时段查询

	07.创建CallLog日志表的协处理器-完成被叫数据的保存

	08.打包CallLog日志表的协处理器并进行部署-测试web程序

	09.重写postGetOp方法，实现被叫查询返回主叫结果

	10.web程序集成协处理器实现被叫查询返回主叫结果

	11.重写CallLogRegionObserver的postScannerNext方法实现scan时数据的主被叫处理

	

	第三天

	

	01.启动yarn的集群-HA

	02.启动hive-完成hive到hbase表映射-实现最近通话信息查询

	03.SSM集成hive查询-交互与hiveserver2服务器-jdbc方式访问

	04.SSM集成hive查询-修改pom依赖使用hive-jdbc-1.2.1依赖库

	05.SSM集成hive-jdbc访问hiveser2时bug解决

	06.通话记录增加名字信息

	07.通话记录增加名字信息-准备数据

	08.测试SSMWEB部分关联名字信息展示数据

	09.修改物理内存和虚拟内存对MR的限制，否则Hive查询无法执行

	10.使用Fastjson返回json的数据串-web集成ajax访问后台数据

	11.集成jQuery库实现ajax访问-动态刷新通话记录

	12.集成jQuery实现周期性刷新页面-javascript

	13.全流程数据链演示

	14.真正分布式配置指导

	

	第四天

	

	01.kafka存活时间设置

	02.hive中substr的方法-按照年份统计指定人各月的通话次数

	03.hive查询统计指标-controller实现

	04.hive查询统计指标-jsp页面实现

	05.linux awk命令批量按照java进程名称kill进程

	06.ssh远程命令解决命令找不到-改造xcall.sh文件

	07.编写管理脚本-hive查询统计结果数据

	08.hive中查询所有用户的每个月的通话次数

	09.ajax异步访问服务器中文数据乱码问题

	10.使用echarts脚本库实现数据展现-柱状图

	11.json数据后台查询-字符串处理-echart图表展示

	12.使用ganglia进行集群监控-安装-注意事项-权限问题

	13.yum源安装问题-cdh源使用

	14.使用udp协议实现进程监控

	15.使用udp协议实现接收方-发送方代码实现

	

	------------------项目：团购网的标签生成（真实企业项目）------------------

	

	01.团购网站的标签生成应用-描述-数据结构

	02.团购网站的标签生成应用-数据分析过程

	03.团购网站的标签生成应用-java编程抽取json串中的评论

	04.团购网站的标签生成应用-scala编程实现标签生成程序

	

	------------------项目：用户画像（真实企业项目）------------------

	

	01.用户画像概念

	02.性别-年龄进行画像分析

	03.性别-年龄进行用户画像MR代码分析与数据解析

	04.性别-年龄进行用户画像第一阶段实现运行

	05.性别-年龄进行用户画像算法实现

	06.性别-年龄进行用户画像总结

	

	------------------项目：友盟网大数据（真实企业项目）------------------

	

	第一天

	

	01.业务模型说明

	02.架构描述

	03.术语解释-新增-活跃-用户等等

	04.初始化weblog收集模块-公共模块-配置模块

	05.初始化收集端模块-编程模拟上传json数据

	06.通过firefox的poster插件测试web程序

	07.创建client数据生成程序 不断发送数据给server

	08.client上传log时，将client系统时间写入request的header中

	09.编写工具类，使用内省实现属性复制

	10.处理server收到的日志

	

	第二天

	

	01.时间修正

	02.属性复制

	03.通过GeoLite提取ip地址的真实区域

	04.工具类封装地理信息获取

	05.startuplog对象的地址设置

	06.地理信息进行缓存处理

	07.-将日给kafka主题

	08.准备kafka集群和zk集群并创建主题

	09.启动kakfa集群-web程序-phone程序测试数据收集

	10.分析flume收集kafka消息-分区手段

	11.自定义拦截器-添加logType和log创建时间的头信息

	12.导出flumejar文件部署到flume lib下

	13.配置flume

	14.添加自定义拦截器给配置文件

	15.使用maven命令导出工件需要的所有第三方类库

	16.联动测试-收集数据到hdfs

	17.使用json serse作为hive表的串行化处理工具

	

	第三天

	

	01.使用当前线程类加载解决公共模块的加载问题

	02.修改flume配置文件原生类型-避免大量小文件

	03.使用脚本创建仓库表

	04.调度导入分区表数据分析

	05.时间导入数据分析

	06.使用sed编辑器处理时间问题

	07.编写exec.sh文件和exportData.sql文件

	08.使用hive命令测试导入hdfs数据到hive分区表

	09.修改手机端数据生成时间戳

	10.实现调度周期导入hdfs数据到hive分区表

	11.centos安装tomcat

	12.部署web程序到centos的tomcat下

	13.分析统计用户和新增用户数

	14.计算一天的起始和结束时间片
十八掌徐培成倾力打造大数据开发

相关资源

发表评论