黑马程序员Python爬虫数据采集课程
零基础掌握Python爬虫:7天高效数据采集实战指南

1. 为什么选择这门Python爬虫课程?
数据采集已成为互联网时代的核心技能,无论是市场分析、学术研究还是商业决策都依赖高效的数据获取能力。本课程由黑马程序员资深开发团队打造,通过142节实操视频系统讲解爬虫技术栈,从HTTP协议基础到Scrapy-Redis分布式架构,真正实现从入门到实战的无缝衔接。课程特别设计了反爬策略专题,解决90%学习者在实际工作中遇到的验证码识别、JS加密等核心难题。2. 课程核心知识模块解析
模块化教学体系覆盖爬虫工程师必备技能树:
- 基础篇:HTTP/HTTPS协议详解、爬虫工作流程设计
- 工具篇:Requests高级用法、Selenium动态页面抓取
- 进阶篇:XPath/JSONPath数据提取、MongoDB数据存储
- 实战篇:Scrapy框架深度优化、分布式爬虫部署
- 突破篇:验证码破解、IP代理池构建、Header伪装等反反爬技术
每个章节均配备企业级案例,如GitHub模拟登录、京东商品爬取等真实项目场景。3. 与众不同的实战教学特色
课程采用"3D学习法":
1) Demo演示:每个知识点都配有可运行的代码示例
2) Debug解析:重点讲解常见报错解决方案
3) Development实战:最终完成10+商业级爬虫项目
特别值得关注的是Selenium+Appium移动端采集章节,这在同类课程中较为罕见,可应对APP数据抓取的特殊需求。4. 适合哪些学习者?
- 需要批量获取公开数据的科研/市场人员
- 希望转型数据分析/开发岗的职场人士
- 计算机相关专业学生补充项目经验
- 已有Python基础想拓展技术边界的开发者
课程对Windows/Mac双平台环境均有详细配置指导,无需担心环境搭建问题。5. 掌握后的职业发展路径
完成本课程将获得:
- 处理动态渲染页面的核心能力
- 构建日均百万级数据的采集系统
- 应对主流反爬机制的解决方案库
- 符合企业要求的项目作品集
技术栈覆盖初级到高级爬虫工程师岗位需求,可向大数据开发、自动化测试等领域延伸。
系统化的知识体系+真实商业场景实战,这门课程堪称Python爬虫领域的"技术百科全书"。无论是快速入门还是技能进阶,都能找到对应的学习路径,特别适合希望短时间掌握可商用技能的务实型学习者。
资源下载通道
夸克网盘分享
文件大小:11.75GB
资源目录列表:
├─python│ ├─黑马程序员《Python爬虫数据采集课程》
│ │ ├─01_爬虫基础
│ │ │ ├─01.爬虫特点介绍.flv
│ │ │ ├─02.课程结构.flv
│ │ │ ├─03.爬虫的概念.flv
│ │ │ ├─04.爬虫的作用.flv
│ │ │ ├─05.爬虫的分类.flv
│ │ │ ├─06.爬虫的流程.flv
│ │ │ ├─07.http与https的区别.flv
│ │ │ ├─08.常见的请求头与响应头.flv
│ │ │ ├─09.创建的响应状态码.flv
│ │ │ ├─10.浏览器运行过程.flv
│ │ ├─02_requests模块
│ │ │ ├─1.requests模块-简介-安装-使用.flv
│ │ │ ├─2.requests模块-响应对象的text与content之间的区别.flv
│ │ │ ├─3.requests模块-响应对象常用的参数和方法.flv
│ │ │ ├─4.requests模块-发送带请求头的请求.flv
│ │ │ ├─5.requests模块-发送带参数的请求.flv
│ │ │ ├─6.requests模块-在headers中设置cookies参数.flv
│ │ │ ├─7.requests模块-cookies参数的使用.flv
│ │ │ ├─8.requests模块-cookiejar对象的处理.flv
│ │ │ ├─9.requests模块-timeout参数.flv
│ │ │ ├─10.requests模块-代理proxies使用.flv
│ │ │ ├─11.requests模块-verify参数与ca证书.flv
│ │ │ ├─12.requests模块-post请求_金山翻译案例.flv
│ │ │ ├─13.requests-post数据来源.flv
│ │ │ ├─14.requests模块-session.flv
│ │ │ ├─15.案例-github模拟登陆.flv
│ │ ├─03_数据提取
│ │ │ ├─01.数据提取-响应内容的分类.flv
│ │ │ ├─02.xml与html.flv
│ │ │ ├─03.常用数据解析方法.flv
│ │ │ ├─04.jsonpath-场景-安装-使用.flv
│ │ │ ├─05.jsonpath-练习.flv
│ │ │ ├─06.jsonpath-案例-拉钩.flv
│ │ │ ├─07.lxml简介.flv
│ │ │ ├─08.xpathhelper简介_安装.flv
│ │ │ ├─09.xpath语法-基础节点选择.flv
│ │ │ ├─10.xpath语法-节点修饰语法.flv
│ │ │ ├─11.xpath语法-其他常用语法.flv
│ │ │ ├─12.lxml使用.flv
│ │ │ ├─13.百度贴吧.flv
│ │ │ ├─14.tostring.flv
│ │ ├─04_selenium
│ │ │ ├─01.selenium-介绍_效果展示.flv
│ │ │ ├─02.selenium的工作原理.flv
│ │ │ ├─03.selenium-模块与driver的安装.flv
│ │ │ ├─04.selenium-简单使用.flv
│ │ │ ├─05.selenium-driver属性和方法.flv
│ │ │ ├─06.selenium-元素定位.flv
│ │ │ ├─07.selenium-元素操作.flv
│ │ │ ├─08.selenium-标签切换.flv
│ │ │ ├─09.selenium-窗口切换.flv
│ │ │ ├─10.selenium-cookies操作.flv
│ │ │ ├─11.selenium-执行js.flv
│ │ │ ├─12.selenium-页面等待.flv
│ │ │ ├─13.selenium-配置对象.flv
│ │ │ ├─14.selenium-案例-斗鱼直播.flv
│ │ ├─05_反爬与反反爬
│ │ │ ├─01.反爬与反反爬-反爬原因.flv
│ │ │ ├─02.反爬与反反爬-什么样的爬虫会被反.flv
│ │ │ ├─03.反爬与反反爬-常见概念与反爬方向.flv
│ │ │ ├─04.反爬与反反爬-基于身份识别的反爬.flv
│ │ │ ├─05.反爬与反反爬-及与爬虫行为的反爬.flv
│ │ │ ├─06.反爬与反反爬-基于数据加密进行反爬.flv
│ │ │ ├─07.验证码-验证码的知识.flv
│ │ │ ├─08.验证码-图像识别引擎.flv
│ │ │ ├─09.验证码-打码平台.flv
│ │ │ ├─10.chrome浏览器的使用.flv
│ │ │ ├─11.js解析-人人网登录分析.flv
│ │ │ ├─12.js解析-定位js文件.flv
│ │ │ ├─13.js解析-js代码分析.flv
│ │ │ ├─14.js解析-js2py使用.flv
│ │ │ ├─15.js解析-人人网登陆.flv
│ │ │ ├─16.有道翻译分析.flv
│ │ │ ├─17.hashlib使用.flv
│ │ │ ├─18.有道翻译实现.flv
│ │ ├─06_MongoDB数据库
│ │ │ ├─01.mongodb的介绍.flv
│ │ │ ├─02.mongodb的安装.flv
│ │ │ ├─03.mongodb简单使用-测试启动.flv
│ │ │ ├─04.mongodb简单使用-生产启动.flv
│ │ │ ├─05.mongodb简单使用-数据库操作.flv
│ │ │ ├─06.mongdb简单使用-集合操作.flv
│ │ │ ├─07.mongodb的数据类型.flv
│ │ │ ├─08.mongdb插入数据.flv
│ │ │ ├─09.mongodb查询数据.flv
│ │ │ ├─10.mongodb查询结果操作.flv
│ │ │ ├─11.mongodb-修改&删除.flv
│ │ │ ├─12.聚合管道-分组管道.flv
│ │ │ ├─13.聚合管道-其他管道.flv
│ │ │ ├─14.mongodb-索引.flv
│ │ │ ├─15.mongodb的权限管理-管理用户.flv
│ │ │ ├─16.mongodb权限管理-普通用户.flv
│ │ │ ├─17.pymongo使用.flv
│ │ ├─07_scrapy基础
│ │ │ ├─01.scrapy-概念&作用.flv
│ │ │ ├─02.scrapy-工作流程.flv
│ │ │ ├─03.scrapy-各模块功能.flv
│ │ │ ├─04.项目开发流程-1框架安装&流程简介.flv
│ │ │ ├─05.项目开发流程-2创建项目.flv
│ │ │ ├─06.项目开发流程-3创建爬虫.flv
│ │ │ ├─07.项目开发流程-4完成爬虫.flv
│ │ │ ├─08.项目开发流程-5保存数据.flv
│ │ │ ├─09.项目开发流程-数据建模&流程完善.flv
│ │ │ ├─10.请求对象-请求&网易招聘简介.flv
│ │ │ ├─11.请求对象-案例-网易招聘.flv
│ │ │ ├─12.请求对象-其他参数.flv
│ │ │ ├─13.请求对象-meta传参.flv
│ │ │ ├─14.scrapy模拟登陆-cookies参数使用.flv
│ │ │ ├─15.scrapy模拟登陆-FormRequest发送post请求.flv
│ │ │ ├─16.scrapy管道的使用.flv
│ │ │ ├─17.crawlspider.flv
│ │ │ ├─18.tencent_crawl.flv
│ │ │ ├─19.中间件-分类与作用.flv
│ │ │ ├─20.中间件-豆瓣爬虫.flv
│ │ │ ├─21.中间件-随机请求头.flv
│ │ │ ├─22.中间件-随机ip代理.flv
│ │ │ ├─23.中间件-selenium动态加载.flv
│ │ ├─08_scrapy-redis
│ │ │ ├─01.scrapy-redis-分布式的概念_原理.flv
│ │ │ ├─02.scrapy-redis-断点续爬.flv
│ │ │ ├─03.scrapy-redis-源码分析.flv
│ │ │ ├─04.scrapy-redis-分布式爬虫实现.flv
│ │ │ ├─05.scrapy-redis-分布式爬虫编写流程.flv
│ │ │ ├─06.scrapy-redis-京东爬虫-简介.flv
│ │ │ ├─07.scrapy-redis-京东爬虫-图书分类页面.flv
│ │ │ ├─08.scrapy-redis-京东爬虫-图书列表页面.flv
│ │ │ ├─09.scrapy-redis-京东爬虫-图书价格.flv
│ │ │ ├─10.scrapy-redis-京东爬虫-修改成分布式爬虫.flv
│ │ ├─09_scrapy其他
│ │ │ ├─01.splash-介绍_环境配置.flv
│ │ │ ├─02.splash-使用.flv
│ │ │ ├─03.scrapy-日志信息.flv
│ │ │ ├─04.scrpay配置-常用配置.flv
│ │ │ ├─05.scrapy配置-其他配置.flv
│ │ │ ├─06.使用scrapyd进行爬虫部署.flv
│ │ │ ├─07.使用Gerapy进行爬虫管理.flv
│ │ ├─10_appium
│ │ │ ├─01.appium简介.flv
│ │ │ ├─02.appium环境搭建.flv
│ │ │ ├─03.appium环境联调测试.flv
│ │ │ ├─04.appium使用.flv
│ │ ├─资料
│ │ │ ├─第1节爬虫基础
│ │ │ ├─第2节requests模块
│ │ │ ├─第3节数据提取
│ │ │ ├─第4节selenium
│ │ │ ├─第5节反爬与反反爬
│ │ │ ├─第6节MongoDB数据库
│ │ │ ├─第7节scrapy基础
│ │ │ ├─第8节scrapy-redis
│ │ │ ├─第9节scrapy其他
│ │ │ ├─第10节appium
│ │ │ ├─爬虫课件完整版本(HTML版本).zip
相关资源