传智黑马大数据Hadoop基础加强与进阶




	
	

	 

	

	【课程内容】

	

	Vmware

	

	Vmware虚拟网络组件

	Vmware三种网络模式

	Vmware虚拟机搭建--nat模式搭建

	Vmware虚拟机搭建--完整克隆虚拟机

	

	SSH协议

	

	基于用户名密码验证

	基于密钥验证

	

	Linux文件上传下载

	

	sftp&lrzsz

	

	Linux增强

	

	常用查找命令的使用

	su&sudo配置使用

	mount挂载操作

	本地yum源制作

	系统服务管理

	网络管理

	crontab配置使用

	

	Shell编程

	

	shell介绍&Hello World

	shell变量使用

	shell参数传递&特殊字符

	shell运算符

	shell流程控制上--ifelse&for

	shell流程控制下--while&case

	shell函数定义&返回值事项

	shell函数参数传递

	

	ZooKeeper

	

	概述和特性

	集群角色

	集群搭建上--描述&JDK安装

	集群搭建下--配置文件修改&启动

	数据模型

	节点属性

	节点类型

	Shell客户端--连接集群&创建节点

	Shell客户端--节点查看&更新&删除

	Shell客户端--quota限制&其他命令

	Watcher--介绍&通知状态事件类型

	Watcher--shell操作Watcher

	JAVA API--介绍&创建节点

	JAVA API--watcher操作

	集群选举--概念&全新集群选举

	集群选举--非全新集群选举

	典型应用--数据发布与订阅

	典型应用--命名服务&分布式锁

	

	网络编程

	

	概述&网络通信要素模拟思路

	网络通信三要素

	了解网络模型

	socket--概述

	socket--基于UDP客户端编程

	socket--基于UDP服务端编程

	socket--基于TCP协议编程

	IO通信模型--BIO&NIO

	IO通信模型--阻塞等概念

	了解RPC

	

	数据分析

	

	数据分析定义和数据分析作用

	数据分析方法论

	数据分析基本步骤

	数据分析行业前景&职业要求

	科技发展挑战--分布式系统

	科技发展挑战--海量数据处理

	大数据时代--什么是大数据

	大数据时代--大数据分析

	大数据分析系统--概念&分类（实时、离线）

	

	网站流量日志自定义采集系统

	

	原理分析

	确定收集信息

	确定埋点代码

	前端数据收集脚本

	后端脚本

	日志格式&日志切分

	系统环境部署

	采集实现--方案一：基本功能

	采集实现--方案二：点击事件

	采集实现

	

	Apache Hadoop

	

	Hadoop介绍

	Hadoop发展简史

	Hadoop特性优点&国内外应用

	集群搭建--发行版本&集群简介

	集群搭建--服务器环境准备

	集群搭建--JDK环境安装

	集群搭建--安装包目录结构

	集群搭建--配置文件修改上

	集群搭建--配置文件修改下

	集群搭建--配置文件注意事项

	集群搭建--namenode格式化

	集群搭建--启动方式

	集群搭建--集群ui&初体验

	HDFS--介绍&模拟实现思路

	HDFS--设计目标

	HDFS--重要特性

	HDFS--shell客户端

	HDFS--shell常用命令介绍

	

	Hadoop HDFS

	

	HDFS基本原理--NameNode概述

	HDFS基本原理--DataNode概述

	HDFS工作机制--概述

	HDFS工作机制--写数据流程--上

	HDFS工作机制--写数据流程--下

	HDFS工作机制--读数据流程

	HDFS应用开发--JAVA api环境&对象

	HDFS应用开发--创建目录&客户端身份设置

	HDFS应用开发--下载文件&本地hadoop环境配置

	HDFS应用开发--其他api&Stream操作

	案例：shell定时采集数据至hdfs--需求分析

	案例：shell定时采集数据至hdfs--实现

	

	Hadoop MapReduce

	

	理解MapReduce思想

	MapReduce计算模拟实现思路

	MapReduce设计构思

	MapReduce框架结构&编程规范

	WordCount案例--Mapper编写：mr数据类型

	WordCount案例--Mapper编写：map方法

	WordCount案例--Reducer编写：类型确定&如何调用

	WordCount案例--Reducer编写：reduce方法编程

	WordCount案例--运行主类Job编程

	程序运行模型--集群运行模式

	程序运行模型--本地运行模式

	MapReduce的输入和输出

	初识mapreduce数据分区&分区规则

	处理流程--Mapper任务执行流程解析

	处理流程--Reducer任务执行流程解析

	编程案例--流量汇总--序列化机制Writable

	编程案例--流量汇总--对象序列化编写

	编程案例--流量汇总--mapper编写

	编程案例--流量汇总--Reducer编写

	编程案例--流量汇总--运行主类编写

	编程案例--流量汇总排序--需求分析&comopareTo方法重写

	编程案例--流量汇总排序--mr代码实现

	编程案例--流量汇总分区--需求分析&HashPartitioner讲解

	编程案例--流量汇总分区--自定义分区&mr编写

	编程案例--流量汇总分区--分区个数和reduceTask个数关系

	combiner组件介绍&使用注意事项

	

	Apache Flume

	

	概述&运行机制

	安装部署&netcat-logger

	案例--spooldir使用注意事项

	案例--采集目录至HDFS

	案例--采集文件至HDFS

	高级功能--load balance

	高级功能--failover

	实战案例--采集日志汇总&拦截器使用

	扩展了解--自定义拦截器思路

	

	数据

	

	数据分析系统不同数据来源

	数据管理--文件管理服务&跨部门文件管理规范

	数据管理--文件管理规范示例

	数据管理--数据质量检测

	数据仓库--基本概念&和数据库区别

	数据仓库--数据仓库主要特征

	数据仓库--数据仓库分层架构

	数据仓库--数据仓库元数据管理

	

	Apache Hive

	

	介绍&Hive实现思路模拟

	架构&组件

	与RDBMS区别

	安装部署--内置derby版以及缺陷

	安装部署-mysql版安装

	安装部署-几种交互方式

	初体验-理解什么是映射

	DDL--创建表--数据类型&分隔符

	DDL--创建表--默认分隔符

	DDL--创建表--分区表创建

	DDL--创建表--双分区表&小结

	DDL--创建表--分桶表创建&分桶数据导入

	DDL--创建表--分桶表总结&分桶表好处

	DDL--创建表--内外部表&like复制

	DDL--修改表&显示命令

	DML--load装载数据

	DML--insert&多重插入&动态分区

	DML--导出数据

	DML--select查询

	join操作

	命令行&参数配置方式

	内置运算符函数&dual测试方式

	自定义函数UDF开发

	了解transform

	特殊分隔符处理
传智黑马大数据Hadoop基础加强与进阶

相关资源

发表评论