尚硅谷线上问诊离线数仓实战

大数据实战：如何从零搭建线上问诊离线数仓项目

 1. 项目实战课程核心价值   
本套由尚硅谷推出的《线上问诊离线数仓》大数据实战教程，完整覆盖数据采集、存储、处理到可视化全链路，基于真实医疗场景模拟业务数据。课程包含102节实操视频，配套源码与课件，特别适合已掌握Hadoop、Hive基础但缺乏项目经验的学习者。通过构建医疗问诊数仓，学员能系统掌握维度建模、数据同步优化、集群调优等企业级技能。 

 2. 课程内容模块解析   
课程采用"理论+实战"双主线设计：   

- 数据采集层：详解Flume日志采集、Maxwell实时同步MySQL数据、DataX批量数据传输等工具配置   

- 存储计算层：包含Hadoop集群部署、Hive on Spark性能调优、Kafka消息队列实战   

- 数仓设计层：重点解析事务型事实表、周期快照表、拉链表等建模方法，并配套医疗业务指标设计案例   

- 运维优化篇：提供集群资源均衡方案、DataX参数优化技巧等生产环境经验   

 3. 特色技术点深度剖析   
课程突破传统理论教学，直击企业痛点：   

- 增量数据同步方案：对比Maxwell与Canal的优缺点，演示如何解决MySQL binlog解析异常   

- 复杂维度处理：通过医生多值属性案例，讲解JSON格式在Hive中的存储与解析技巧   

- 性能调优实战：从HDFS多目录存储配置到YARN资源分配策略，包含20+调优参数详解   

- 全自动化脚本：提供集群启停、数据均衡、监控等12个实用Shell脚本   

 4. 适合人群与学习路径   
建议学习者按以下顺序进阶：   

1. 先修基础：掌握Linux基础命令、SQL语法、Hadoop核心组件原理   

2. 环境搭建（第12-31节）：完成CentOS集群部署与组件安装   

3. 数据同步（第32-56节）：重点实践MySQL→HDFS的全量/增量同步   

4. 模型设计（第58-84节）：结合医疗业务理解星型模型与维度建模   

5. 优化扩展（第85-100节）：通过参数调整提升Hive查询效率   

 5. 课程资源与学习支持   
课程提供企业级项目源码包，包含：   

- 全量/增量数据同步JSON模板   

- ODS层与DIM层建表语句合集   

- 自动化数据生成Java工具   

- 集群监控脚本集（进程检查、日志清理等）   

通过本课程，学习者不仅能掌握离线数仓建设方法论，更能获得可直接复用到电商、金融等领域的解决方案。医疗场景特有的数据敏感性和复杂性，将使项目经验更具竞争力。

资源下载通道

夸克网盘分享

文件大小：3.5GB

资源目录列表：

├─【尚硅谷】大数据项目《线上问诊离线数仓》 - 带源码课件
│  ├─01-数据采集课程内容介绍.mp4
│  ├─02-数据仓库的概念.mp4
│  ├─03-数据仓库的架构.mp4
│  ├─04-项目需求分析.mp4
│  ├─05-技术选型.mp4
│  ├─06-系统数据流程设计.mp4
│  ├─07-框架版本的选择.mp4
│  ├─08-服务器的选型.mp4
│  ├─09-集群规模.mp4
│  ├─10-集群规模设计.mp4
│  ├─11-业务数据说明.mp4
│  ├─12-虚拟机安装配置.mp4
│  ├─13-集群分发脚本.mp4
│  ├─14-安装jdk.mp4
│  ├─15-环境变量配置说明.mp4
│  ├─16-查看进程脚本.mp4
│  ├─17-安装hadoop-配置集群.mp4
│  ├─18-安装hadoop-配置历史服务器.mp4
│  ├─19-hadoop群起脚本.mp4
│  ├─20-hdfs存储多目录.mp4
│  ├─21-集群数据均衡.mp4
│  ├─22-hadoop参数调优.mp4
│  ├─23-安装zookeeper.mp4
│  ├─24-zookeeper启动脚本.mp4
│  ├─25-zookeeper常用指令.mp4
│  ├─26-安装kafka.mp4
│  ├─27-kafka群起脚本.mp4
│  ├─28-kafka常用指令-topic相关.mp4
│  ├─29-kafka常用指令-生产者和消费者相关.mp4
│  ├─30-flume安装与项目经验.mp4
│  ├─31-安装mysql.mp4
│  ├─32-模拟生成数据.mp4
│  ├─33-客户端连接异常问题.mp4
│  ├─34-maxwell简介.mp4
│  ├─35-mysql原理.mp4
│  ├─36-安装maxwell.mp4
│  ├─37-maxwell启动脚本.mp4
│  ├─38-maxwell数据同步.mp4
│  ├─39-同步策略.mp4
│  ├─40-数据同步工具.mp4
│  ├─41-datax简介和框架设计.mp4
│  ├─42-datax运行流程.mp4
│  ├─43-datax调度思路.mp4
│  ├─44-datax与sqoop的对比.mp4
│  ├─45-datax安装.mp4
│  ├─46-将数据从mysql导入到hdfs-tableMode模式.mp4
│  ├─47-将数据从mysql导入到hdfs-querysql模式.mp4
│  ├─48-datax传参.mp4
│  ├─49-将数据从hdfs导入到mysql.mp4
│  ├─50-datax优化.mp4
│  ├─51-datax配置文件生成.mp4
│  ├─52-全量表数据同步脚本.mp4
│  ├─53-flume配置01.mp4
│  ├─54-flume配置02.mp4
│  ├─55-增量表首日同步.mp4
│  ├─56-flume启动停止脚本.mp4
│  ├─57-安装hive.mp4
│  ├─58-在线就诊数仓项目简介.mp4
│  ├─59-数仓的概念.mp4
│  ├─60-数仓架构.mp4
│  ├─61-建模的意义.mp4
│  ├─62-ER模型.mp4
│  ├─63-维度模型.mp4
│  ├─64-事实表介绍.mp4
│  ├─65-事务型事实表概述.mp4
│  ├─66-事务型事实表的设计流程.mp4
│  ├─67-事务型事实表的不足.mp4
│  ├─68-事务型事实表的不足.mp4
│  ├─69-周期型快照事实表的概念.mp4
│  ├─70-周期型快照事实表设计与事实类型.mp4
│  ├─71-累积型快照事实表.mp4
│  ├─72-维度表设计.mp4
│  ├─73-规范化与反规范化.mp4
│  ├─74-全量快照维度表.mp4
│  ├─75-拉链表.mp4
│  ├─76-多值维度.mp4
│  ├─77-多值属性.mp4
│  ├─78-数据仓库的分层.mp4
│  ├─79-数仓的构建流程.mp4
│  ├─80-数据调研.mp4
│  ├─81-明确数据域.mp4
│  ├─82-业务总线矩阵.mp4
│  ├─83-明确统计指标.mp4
│  ├─84-维度模型与汇总模型设计.mp4
│  ├─85-hive引擎简介.mp4
│  ├─86-hive on spark兼容性说明.mp4
│  ├─87-搭建hive on spark.mp4
│  ├─88-ApplicationMaster资源比例调整.mp4
│  ├─89-datagrip使用.mp4
│  ├─90-模拟产生数据.mp4
│  ├─91-hive常见问题和解决方案.mp4
│  ├─92-ods层设计要点.mp4
│  ├─93-全量表建表.mp4
│  ├─94-复杂数据类型回顾.mp4
│  ├─95-json数据建表.mp4
│  ├─96-增量表建表.mp4
│  ├─97-ods数据加载脚本.mp4
│  ├─98-维度表建模理论回顾.mp4
│  ├─99-dim层设计要点.mp4
│  ├─100-医生维度表建表.mp4