黑马程序员Python爬虫数据采集课程

零基础掌握Python爬虫：7天高效数据采集实战指南

 1. 为什么选择这门Python爬虫课程？ 
数据采集已成为互联网时代的核心技能，无论是市场分析、学术研究还是商业决策都依赖高效的数据获取能力。本课程由黑马程序员资深开发团队打造，通过142节实操视频系统讲解爬虫技术栈，从HTTP协议基础到Scrapy-Redis分布式架构，真正实现从入门到实战的无缝衔接。课程特别设计了反爬策略专题，解决90%学习者在实际工作中遇到的验证码识别、JS加密等核心难题。 

 2. 课程核心知识模块解析 
模块化教学体系覆盖爬虫工程师必备技能树：   

- 基础篇：HTTP/HTTPS协议详解、爬虫工作流程设计   

- 工具篇：Requests高级用法、Selenium动态页面抓取   

- 进阶篇：XPath/JSONPath数据提取、MongoDB数据存储   

- 实战篇：Scrapy框架深度优化、分布式爬虫部署   

- 突破篇：验证码破解、IP代理池构建、Header伪装等反反爬技术   

每个章节均配备企业级案例，如GitHub模拟登录、京东商品爬取等真实项目场景。 

 3. 与众不同的实战教学特色 
课程采用"3D学习法"：   

1) Demo演示：每个知识点都配有可运行的代码示例   

2) Debug解析：重点讲解常见报错解决方案   

3) Development实战：最终完成10+商业级爬虫项目   

特别值得关注的是Selenium+Appium移动端采集章节，这在同类课程中较为罕见，可应对APP数据抓取的特殊需求。 

 4. 适合哪些学习者？ 
- 需要批量获取公开数据的科研/市场人员   

- 希望转型数据分析/开发岗的职场人士   

- 计算机相关专业学生补充项目经验   

- 已有Python基础想拓展技术边界的开发者   

课程对Windows/Mac双平台环境均有详细配置指导，无需担心环境搭建问题。 

 5. 掌握后的职业发展路径 
完成本课程将获得：   

- 处理动态渲染页面的核心能力   

- 构建日均百万级数据的采集系统   

- 应对主流反爬机制的解决方案库   

- 符合企业要求的项目作品集   

技术栈覆盖初级到高级爬虫工程师岗位需求，可向大数据开发、自动化测试等领域延伸。 

系统化的知识体系+真实商业场景实战，这门课程堪称Python爬虫领域的"技术百科全书"。无论是快速入门还是技能进阶，都能找到对应的学习路径，特别适合希望短时间掌握可商用技能的务实型学习者。

资源下载通道

夸克网盘分享

文件大小：11.75GB

资源目录列表：

├─python
│  ├─黑马程序员《Python爬虫数据采集课程》
│  │  ├─01_爬虫基础
│  │  │  ├─01.爬虫特点介绍.flv
│  │  │  ├─02.课程结构.flv
│  │  │  ├─03.爬虫的概念.flv
│  │  │  ├─04.爬虫的作用.flv
│  │  │  ├─05.爬虫的分类.flv
│  │  │  ├─06.爬虫的流程.flv
│  │  │  ├─07.http与https的区别.flv
│  │  │  ├─08.常见的请求头与响应头.flv
│  │  │  ├─09.创建的响应状态码.flv
│  │  │  ├─10.浏览器运行过程.flv
│  │  ├─02_requests模块
│  │  │  ├─1.requests模块-简介-安装-使用.flv
│  │  │  ├─2.requests模块-响应对象的text与content之间的区别.flv
│  │  │  ├─3.requests模块-响应对象常用的参数和方法.flv
│  │  │  ├─4.requests模块-发送带请求头的请求.flv
│  │  │  ├─5.requests模块-发送带参数的请求.flv
│  │  │  ├─6.requests模块-在headers中设置cookies参数.flv
│  │  │  ├─7.requests模块-cookies参数的使用.flv
│  │  │  ├─8.requests模块-cookiejar对象的处理.flv
│  │  │  ├─9.requests模块-timeout参数.flv
│  │  │  ├─10.requests模块-代理proxies使用.flv
│  │  │  ├─11.requests模块-verify参数与ca证书.flv
│  │  │  ├─12.requests模块-post请求_金山翻译案例.flv
│  │  │  ├─13.requests-post数据来源.flv
│  │  │  ├─14.requests模块-session.flv
│  │  │  ├─15.案例-github模拟登陆.flv
│  │  ├─03_数据提取
│  │  │  ├─01.数据提取-响应内容的分类.flv
│  │  │  ├─02.xml与html.flv
│  │  │  ├─03.常用数据解析方法.flv
│  │  │  ├─04.jsonpath-场景-安装-使用.flv
│  │  │  ├─05.jsonpath-练习.flv
│  │  │  ├─06.jsonpath-案例-拉钩.flv
│  │  │  ├─07.lxml简介.flv
│  │  │  ├─08.xpathhelper简介_安装.flv
│  │  │  ├─09.xpath语法-基础节点选择.flv
│  │  │  ├─10.xpath语法-节点修饰语法.flv
│  │  │  ├─11.xpath语法-其他常用语法.flv
│  │  │  ├─12.lxml使用.flv
│  │  │  ├─13.百度贴吧.flv
│  │  │  ├─14.tostring.flv
│  │  ├─04_selenium
│  │  │  ├─01.selenium-介绍_效果展示.flv
│  │  │  ├─02.selenium的工作原理.flv
│  │  │  ├─03.selenium-模块与driver的安装.flv
│  │  │  ├─04.selenium-简单使用.flv
│  │  │  ├─05.selenium-driver属性和方法.flv
│  │  │  ├─06.selenium-元素定位.flv
│  │  │  ├─07.selenium-元素操作.flv
│  │  │  ├─08.selenium-标签切换.flv
│  │  │  ├─09.selenium-窗口切换.flv
│  │  │  ├─10.selenium-cookies操作.flv
│  │  │  ├─11.selenium-执行js.flv
│  │  │  ├─12.selenium-页面等待.flv
│  │  │  ├─13.selenium-配置对象.flv
│  │  │  ├─14.selenium-案例-斗鱼直播.flv
│  │  ├─05_反爬与反反爬
│  │  │  ├─01.反爬与反反爬-反爬原因.flv
│  │  │  ├─02.反爬与反反爬-什么样的爬虫会被反.flv
│  │  │  ├─03.反爬与反反爬-常见概念与反爬方向.flv
│  │  │  ├─04.反爬与反反爬-基于身份识别的反爬.flv
│  │  │  ├─05.反爬与反反爬-及与爬虫行为的反爬.flv
│  │  │  ├─06.反爬与反反爬-基于数据加密进行反爬.flv
│  │  │  ├─07.验证码-验证码的知识.flv
│  │  │  ├─08.验证码-图像识别引擎.flv
│  │  │  ├─09.验证码-打码平台.flv
│  │  │  ├─10.chrome浏览器的使用.flv
│  │  │  ├─11.js解析-人人网登录分析.flv
│  │  │  ├─12.js解析-定位js文件.flv
│  │  │  ├─13.js解析-js代码分析.flv
│  │  │  ├─14.js解析-js2py使用.flv
│  │  │  ├─15.js解析-人人网登陆.flv
│  │  │  ├─16.有道翻译分析.flv
│  │  │  ├─17.hashlib使用.flv
│  │  │  ├─18.有道翻译实现.flv
│  │  ├─06_MongoDB数据库
│  │  │  ├─01.mongodb的介绍.flv
│  │  │  ├─02.mongodb的安装.flv
│  │  │  ├─03.mongodb简单使用-测试启动.flv
│  │  │  ├─04.mongodb简单使用-生产启动.flv
│  │  │  ├─05.mongodb简单使用-数据库操作.flv
│  │  │  ├─06.mongdb简单使用-集合操作.flv
│  │  │  ├─07.mongodb的数据类型.flv
│  │  │  ├─08.mongdb插入数据.flv
│  │  │  ├─09.mongodb查询数据.flv
│  │  │  ├─10.mongodb查询结果操作.flv
│  │  │  ├─11.mongodb-修改&删除.flv
│  │  │  ├─12.聚合管道-分组管道.flv
│  │  │  ├─13.聚合管道-其他管道.flv
│  │  │  ├─14.mongodb-索引.flv
│  │  │  ├─15.mongodb的权限管理-管理用户.flv
│  │  │  ├─16.mongodb权限管理-普通用户.flv
│  │  │  ├─17.pymongo使用.flv
│  │  ├─07_scrapy基础
│  │  │  ├─01.scrapy-概念&作用.flv
│  │  │  ├─02.scrapy-工作流程.flv
│  │  │  ├─03.scrapy-各模块功能.flv
│  │  │  ├─04.项目开发流程-1框架安装&流程简介.flv
│  │  │  ├─05.项目开发流程-2创建项目.flv
│  │  │  ├─06.项目开发流程-3创建爬虫.flv
│  │  │  ├─07.项目开发流程-4完成爬虫.flv
│  │  │  ├─08.项目开发流程-5保存数据.flv
│  │  │  ├─09.项目开发流程-数据建模&流程完善.flv
│  │  │  ├─10.请求对象-请求&网易招聘简介.flv
│  │  │  ├─11.请求对象-案例-网易招聘.flv
│  │  │  ├─12.请求对象-其他参数.flv
│  │  │  ├─13.请求对象-meta传参.flv
│  │  │  ├─14.scrapy模拟登陆-cookies参数使用.flv
│  │  │  ├─15.scrapy模拟登陆-FormRequest发送post请求.flv
│  │  │  ├─16.scrapy管道的使用.flv
│  │  │  ├─17.crawlspider.flv
│  │  │  ├─18.tencent_crawl.flv
│  │  │  ├─19.中间件-分类与作用.flv
│  │  │  ├─20.中间件-豆瓣爬虫.flv
│  │  │  ├─21.中间件-随机请求头.flv
│  │  │  ├─22.中间件-随机ip代理.flv
│  │  │  ├─23.中间件-selenium动态加载.flv
│  │  ├─08_scrapy-redis
│  │  │  ├─01.scrapy-redis-分布式的概念_原理.flv
│  │  │  ├─02.scrapy-redis-断点续爬.flv
│  │  │  ├─03.scrapy-redis-源码分析.flv
│  │  │  ├─04.scrapy-redis-分布式爬虫实现.flv
│  │  │  ├─05.scrapy-redis-分布式爬虫编写流程.flv
│  │  │  ├─06.scrapy-redis-京东爬虫-简介.flv
│  │  │  ├─07.scrapy-redis-京东爬虫-图书分类页面.flv
│  │  │  ├─08.scrapy-redis-京东爬虫-图书列表页面.flv
│  │  │  ├─09.scrapy-redis-京东爬虫-图书价格.flv
│  │  │  ├─10.scrapy-redis-京东爬虫-修改成分布式爬虫.flv
│  │  ├─09_scrapy其他
│  │  │  ├─01.splash-介绍_环境配置.flv
│  │  │  ├─02.splash-使用.flv
│  │  │  ├─03.scrapy-日志信息.flv
│  │  │  ├─04.scrpay配置-常用配置.flv
│  │  │  ├─05.scrapy配置-其他配置.flv
│  │  │  ├─06.使用scrapyd进行爬虫部署.flv
│  │  │  ├─07.使用Gerapy进行爬虫管理.flv
│  │  ├─10_appium
│  │  │  ├─01.appium简介.flv
│  │  │  ├─02.appium环境搭建.flv
│  │  │  ├─03.appium环境联调测试.flv
│  │  │  ├─04.appium使用.flv
│  │  ├─资料
│  │  │  ├─第1节爬虫基础
│  │  │  ├─第2节requests模块
│  │  │  ├─第3节数据提取
│  │  │  ├─第4节selenium
│  │  │  ├─第5节反爬与反反爬
│  │  │  ├─第6节MongoDB数据库
│  │  │  ├─第7节scrapy基础
│  │  │  ├─第8节scrapy-redis
│  │  │  ├─第9节scrapy其他
│  │  │  ├─第10节appium
│  │  │  ├─爬虫课件完整版本(HTML版本).zip