大数据：hadoop7天完整版


【课程内容】
第一天
1、数据部的一般组织架构
2、数据分析的一般流程
3、数据部背景知识总结
4、Hadoop是什么、Hadoop的特点
4、虚拟机访问外网配置
5、Hadoop HDFS核心组件
6、Hadoop MapReduce编程模型
7、Hadoop JobTracker与TaskTracker及hadoop基础总结
8、Hadoop生态及SecondaryNameNode
9、vm虚拟机软件安装
10、centos虚拟机安装
11、拷贝虚拟机及网络配置-文件占用异常-关闭防火墙
12、Hadoop集群安装（hostname，下载，解压，环境变量，配置文件修改，scp，启动集群，wordcount实例）
13、Hadoop集群安装步骤概述
14、安装JDK
附录1、使用CRT软件登录虚拟机
第二天
1、当日课程安排
2、Hadoo shell常用命令
3、windows开发环境准备-需要配置环境变量
4、使用Java API 操作Hdfs
5、底层核心API，查看block的元数据信息，合并多个block
6、Hadoop hdfs文件上传机制
7、Hadoop hdfs文件下载机制及文件上传下载步骤总结（重要）
8、Hdfs实战-文件定时上传告警脚本-功能分析及说明
9、Hdfs实战-文件上传告警脚本-需求分析及周边系统说明
10、Hdfs实战-文件上传告警脚本-编码开发
11、Hdfs实战-文件上传告警脚本-文件上传时的COPYING状态
第三天
1、wordcount运行-控制台过程分析、8088管理页面分析、面试技巧
2、wordcount驱动类分析
3、map，reduce生命周期，输入输出泛型格式，writeable实现类，自定义DataWriteable(保证顺序一致)
4、编写wordcount函数及运行分析
5、shuffle归并排序
6、Combiner概念分析-不是所有的combiner都能写成和reduce一样的
7、combiner补充说明
8、Partitioner的概念分析及说明
9、使用IK分词器对中文歌曲进行分词
10、自定义combiner实现文件倒排索引
11、通过工具查看fimage文件和edits文件
12、SecondaryNode的运行机制（只做合并操作）
13、在yarn资源调度管理器上运行hadoop mapreduce程序的流程
14、lucene搜索引擎分析
15、hadoop离线课程总结（重要）
第四天
1、实时计算课程安排
2、背景知识：企业日志收集的两种方式比较-点击流日志收集系统
3、Storm基础（离线计算的特点、流式计算的特点、Storm是什么、Storm与Hadoop的区别）
4、Storm集群搭建步骤-（请先准备好虚拟机和zk、JDK）,storm配置文件说明
5、Storm任务提交流程分析及拓扑任务界面分析
6、Storm常用命令说明
7、Storm的应用场景及典型案例
8、Storm核心组件概念及StreamGrouping（重要）
9、流式计算一般架构图（很灵活）
10、wordcount分析-spout、Bolt的声明周期、spout与bolt链接
11、自己编写storm任务执行的过程
12、案例：39女生节业务指标数据实时统计
附：zookeeper安装步骤
第五天
2、Storm任务提交过程总结
3、任务提交时worker数量与集群worker数量的关系
5、Storm任务提交流程
8、disruptor概念介绍-无锁的队列，每秒600万
10、Storm总结
附：Jstorm源码解读-组件启动流程
第六天
1、Kafka是什么-Kafka在流式计算中的位置-流式计算为什么需要Kafka
2、JMS规范-为什么要有消息队列、JMS模型、大数据领域下的消息系统
3、Kafka配置文件说明-Kafka集群安装
4、补充：Kafka配置文件说明-Kafka集群安装--必看
5、Kafka常用命令行使用
6、Kafka Java API 操作
7、Kafka核心组件的描述
8、Consumer与topic关系
9、Kafka消息的分发-Consumer的负载均衡
10、Kafka文件存储过程
11、Kakfa总结
附：Redis-String案例
第七天
1、redis哈希散列-案列，list-案例
2、redis set及sortset案例
redis set及sortset案例