尚硅谷线上问诊离线数仓实战

大数据实战:如何从零搭建线上问诊离线数仓项目


大数据实战:如何从零搭建线上问诊离线数仓项目

1. 项目实战课程核心价值

本套由尚硅谷推出的《线上问诊离线数仓》大数据实战教程,完整覆盖数据采集、存储、处理到可视化全链路,基于真实医疗场景模拟业务数据。课程包含102节实操视频,配套源码与课件,特别适合已掌握Hadoop、Hive基础但缺乏项目经验的学习者。通过构建医疗问诊数仓,学员能系统掌握维度建模、数据同步优化、集群调优等企业级技能

2. 课程内容模块解析

课程采用"理论+实战"双主线设计

- 数据采集层:详解Flume日志采集、Maxwell实时同步MySQL数据、DataX批量数据传输等工具配置

- 存储计算层:包含Hadoop集群部署、Hive on Spark性能调优、Kafka消息队列实战

- 数仓设计层:重点解析事务型事实表、周期快照表、拉链表等建模方法,并配套医疗业务指标设计案例

- 运维优化篇:提供集群资源均衡方案、DataX参数优化技巧等生产环境经验

3. 特色技术点深度剖析

课程突破传统理论教学,直击企业痛点:

- 增量数据同步方案:对比Maxwell与Canal的优缺点,演示如何解决MySQL binlog解析异常

- 复杂维度处理:通过医生多值属性案例,讲解JSON格式在Hive中的存储与解析技巧

- 性能调优实战:从HDFS多目录存储配置到YARN资源分配策略,包含20+调优参数详解

- 全自动化脚本:提供集群启停、数据均衡、监控等12个实用Shell脚本

4. 适合人群与学习路径

建议学习者按以下顺序进阶:

1. 先修基础:掌握Linux基础命令、SQL语法、Hadoop核心组件原理

2. 环境搭建(第12-31节):完成CentOS集群部署与组件安装

3. 数据同步(第32-56节):重点实践MySQL→HDFS的全量/增量同步

4. 模型设计(第58-84节):结合医疗业务理解星型模型与维度建模

5. 优化扩展(第85-100节):通过参数调整提升Hive查询效率

5. 课程资源与学习支持

课程提供企业级项目源码包,包含:

- 全量/增量数据同步JSON模板

- ODS层与DIM层建表语句合集

- 自动化数据生成Java工具

- 集群监控脚本集(进程检查、日志清理等)

通过本课程,学习者不仅能掌握离线数仓建设方法论,更能获得可直接复用到电商、金融等领域的解决方案。医疗场景特有的数据敏感性和复杂性,将使项目经验更具竞争力。

资源下载通道

夸克网盘分享
文件大小:3.5GB

资源目录列表:

├─【尚硅谷】大数据项目《线上问诊离线数仓》 - 带源码课件
│  ├─01-数据采集课程内容介绍.mp4
│  ├─02-数据仓库的概念.mp4
│  ├─03-数据仓库的架构.mp4
│  ├─04-项目需求分析.mp4
│  ├─05-技术选型.mp4
│  ├─06-系统数据流程设计.mp4
│  ├─07-框架版本的选择.mp4
│  ├─08-服务器的选型.mp4
│  ├─09-集群规模.mp4
│  ├─10-集群规模设计.mp4
│  ├─11-业务数据说明.mp4
│  ├─12-虚拟机安装配置.mp4
│  ├─13-集群分发脚本.mp4
│  ├─14-安装jdk.mp4
│  ├─15-环境变量配置说明.mp4
│  ├─16-查看进程脚本.mp4
│  ├─17-安装hadoop-配置集群.mp4
│  ├─18-安装hadoop-配置历史服务器.mp4
│  ├─19-hadoop群起脚本.mp4
│  ├─20-hdfs存储多目录.mp4
│  ├─21-集群数据均衡.mp4
│  ├─22-hadoop参数调优.mp4
│  ├─23-安装zookeeper.mp4
│  ├─24-zookeeper启动脚本.mp4
│  ├─25-zookeeper常用指令.mp4
│  ├─26-安装kafka.mp4
│  ├─27-kafka群起脚本.mp4
│  ├─28-kafka常用指令-topic相关.mp4
│  ├─29-kafka常用指令-生产者和消费者相关.mp4
│  ├─30-flume安装与项目经验.mp4
│  ├─31-安装mysql.mp4
│  ├─32-模拟生成数据.mp4
│  ├─33-客户端连接异常问题.mp4
│  ├─34-maxwell简介.mp4
│  ├─35-mysql原理.mp4
│  ├─36-安装maxwell.mp4
│  ├─37-maxwell启动脚本.mp4
│  ├─38-maxwell数据同步.mp4
│  ├─39-同步策略.mp4
│  ├─40-数据同步工具.mp4
│  ├─41-datax简介和框架设计.mp4
│  ├─42-datax运行流程.mp4
│  ├─43-datax调度思路.mp4
│  ├─44-datax与sqoop的对比.mp4
│  ├─45-datax安装.mp4
│  ├─46-将数据从mysql导入到hdfs-tableMode模式.mp4
│  ├─47-将数据从mysql导入到hdfs-querysql模式.mp4
│  ├─48-datax传参.mp4
│  ├─49-将数据从hdfs导入到mysql.mp4
│  ├─50-datax优化.mp4
│  ├─51-datax配置文件生成.mp4
│  ├─52-全量表数据同步脚本.mp4
│  ├─53-flume配置01.mp4
│  ├─54-flume配置02.mp4
│  ├─55-增量表首日同步.mp4
│  ├─56-flume启动停止脚本.mp4
│  ├─57-安装hive.mp4
│  ├─58-在线就诊数仓项目简介.mp4
│  ├─59-数仓的概念.mp4
│  ├─60-数仓架构.mp4
│  ├─61-建模的意义.mp4
│  ├─62-ER模型.mp4
│  ├─63-维度模型.mp4
│  ├─64-事实表介绍.mp4
│  ├─65-事务型事实表概述.mp4
│  ├─66-事务型事实表的设计流程.mp4
│  ├─67-事务型事实表的不足.mp4
│  ├─68-事务型事实表的不足.mp4
│  ├─69-周期型快照事实表的概念.mp4
│  ├─70-周期型快照事实表设计与事实类型.mp4
│  ├─71-累积型快照事实表.mp4
│  ├─72-维度表设计.mp4
│  ├─73-规范化与反规范化.mp4
│  ├─74-全量快照维度表.mp4
│  ├─75-拉链表.mp4
│  ├─76-多值维度.mp4
│  ├─77-多值属性.mp4
│  ├─78-数据仓库的分层.mp4
│  ├─79-数仓的构建流程.mp4
│  ├─80-数据调研.mp4
│  ├─81-明确数据域.mp4
│  ├─82-业务总线矩阵.mp4
│  ├─83-明确统计指标.mp4
│  ├─84-维度模型与汇总模型设计.mp4
│  ├─85-hive引擎简介.mp4
│  ├─86-hive on spark兼容性说明.mp4
│  ├─87-搭建hive on spark.mp4
│  ├─88-ApplicationMaster资源比例调整.mp4
│  ├─89-datagrip使用.mp4
│  ├─90-模拟产生数据.mp4
│  ├─91-hive常见问题和解决方案.mp4
│  ├─92-ods层设计要点.mp4
│  ├─93-全量表建表.mp4
│  ├─94-复杂数据类型回顾.mp4
│  ├─95-json数据建表.mp4
│  ├─96-增量表建表.mp4
│  ├─97-ods数据加载脚本.mp4
│  ├─98-维度表建模理论回顾.mp4
│  ├─99-dim层设计要点.mp4
│  ├─100-医生维度表建表.mp4
立 即 下 载

相关资源

发表评论

点 击 提 交