Python网络爬虫基础教程 教案第3章 抓取静态网页数据.docx
《Python网络爬虫基础教程 教案第3章 抓取静态网页数据.docx》由会员分享,可在线阅读,更多相关《Python网络爬虫基础教程 教案第3章 抓取静态网页数据.docx(8页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、样的教育,不一样的品质黑马程序员 itheima 传智教育旗下 高端IT教育品牌黑马程序员Python网络爬虫基础教程教学设计课程名称: 授课年级:授课学期:教师发名:课题名称第3章抓取静态网页数据4课时课时教学引入静态网页是早期网站中经常用到的页面,这类网页的特点是所有数据都直 接呈现在网页源代码中,对于网络爬虫来说,只要获取了静态网页的源代码, 就相当于抓取了静态网页的数据,操作比拟简单。本章将针对抓取静态网页数 据的相关内容进行详细地讲解。教学目标 使学生了解抓取静态网页的实现技术,能够说出每种实现技术的特点 使学生掌握Requests中基本请求的发送方式,能够向服务器发送GET请求 和
2、POST请求 使学生掌握Requests中响应内容的处理方式,能够使用多种形式获取响应 内容 使学生掌握Requests中请求头的定制方式,能够为GET请求和POST请求 定制请求头 使学生掌握Requests中代理服务器的设置方式,能够为请求设置代理服务 器 使学生掌握Requests中异常的处理方式,能够处理请求超时异常教学重点 发送GET请求 发送POST请求 处理响应 定制请求头 验证 Cookie 保持会话 SSL证书验证 代理服务器简介 设置代理服务器 检测代理IP的有效性 处理异常教学难点 处理响应 定制请求头验证 Cookie 保持会话教学方式课堂教学以PPT讲授为主,并结合多
3、媒体进行教学教 学 过 程第一课时(抓取静态网页的技术、发送GET请求、发送POST请求、处理响 应)一、创设情景,导入新课教师首先向学生提问,静态页面数据如何抓取,引出抓取静态网页的实现 技术;然后教师讲解网站对于不同数据,所使用的请求方式也不同,引出发送 GET请求和发送POST请求;最后教师向学生讲解,当请求发送成功后,网站 会将请求数据进行响应,引出处理响应。二、新课讲解知识点1抓取静态网页的技术教师通过PPT的方式讲解抓取静态网页的技术。(1) 了解什么是urllib。黑马程序员 itheima 传智教育旗下 高端IT教育品牌样的教育,不一样的品质黑马程序员 itheima 传智教育
4、旗下 高端IT教育品牌样的教育,不一样的品质了解什么是urllib3。(2) T解什么是 Requests。教师通过PPT的方式讲解什么是urllibourllib是Python最早内置的 客户端库,它涵盖了基础的网络请求功 能。urllib库中主要包含了 4个用于处理URL的模块,这些模块分别是 urllib.request、urllib.error urllib.parse urllib.robotparser,其中 urllib.request 模块封装了构造和发送网络请求的功能,urllib.error模块封装了发送请求时出 现的所有网络异常,urllib.parse模块封装了解析网页
5、数据的功能, urllib.robotparser模块封装了解析robots.txt文件的功能。教师通过PPT的方式讲解什么是urllib3ourllib3是一个强大的、用户友好的Python的 客户端库,它主要服务 于升级的 1.1标准,增加了一些urllib库中缺少的特性,包括线程平安、 连接池、客户端TLS/SSL验证、文件分部编码上传、压缩编码等。教师通过PPT的方式讲解什么是RequestsoRequests是基于urllib3编写的库,该库自称 for Humans,直译过来的意 思是专门为人类设计的 库,对开发人员更加友好。Requests相比urllib, Requests库会
6、在请求完网页数据后重复使用Socket套接字,并没有与服务器断 开连接,而urllib库会在请求完网页数据后会断开与服务器的连接。知识点2-发送GET请求教师通过PPT的方式讲解发送GET请求。(3) 掌握使用Requests库发送GET请求。(2)掌握使用get()函数发送不携带URL参数的请求。(3)掌握使用get()函数发送携带URL参数的请求。教师通过PPT的方式讲解使用Requests库发送GET请求。在Requests库中,GET请求通过调用get。函数发送,该函数会根据传入的 URL构建一个请求(每个请求都是Request类的对象),将该请求发送给服务 器,并接收服务器成功响应后
7、返回的响应信息。教师通过PPT的方式讲解使用get()函数发送不携带URL参数的请求。假设GET请求的URL中不携带参数,我们在调用get()函数发送GET请求时 只需要给url参数传入指定的URL即可。教师通过PPT的方式讲解使用get()函数发送携带URL参数的请求。假设GET请求的URL中携带参数,我们在调用get()函数时可以采用两种方 式发送GET请求,第1种方式为手动构建完整的URL;第2种方式是将参数 转换为字典,之后将该字典传入params参数。知识点3-发送POST请求教师通过PPT的方式讲解发送POST请求。在Requests中,POST请求可以通过调用post。函数发送,
8、post。函数会根 据传入的URL构建一个请求,将该请求发送给服务器,并接收服务器成功响应 后返回的响应信息。知识点4-处理响应教师通过PPT的方式讲解处理响应。当服务器返回的响应状态码为200时,说明本次 请求成功,此时可 以接收到由服务器返回的响应信息。在Requests库中,Response类的对象中封 装了服务器返回的响应信息,包括响应头和响应内容等。除了前面讲解的黑马程序员传智教育旗下 itheima I高端IT教育品牌一样的教育,不一样的品质status_code属性之外,Response类中还提供了一些其他属性。Response类的常 用属性如下表所示。属性说明status_co
9、de获取服务器返回的状态码text获取字符串形式的响应内容content获取二进制形式的响应内容url获取响应的最终URLrequest获取请求方式headers获取响应头encoding设置或获取响应内容的编码格式,与text属性搭配使用cookies获取服务器返回的Cookie三、归纳总结教师回顾本节课所讲的内容,并通过测试题的方式引导学生解答问题并给 予指导。四、布置作业教师通过高校教辅平台( :/tch. ityxb. com)布置本节课作业以及下 节课的预习作业。第二课时(定制请求头、验证Cookie、保持会话、SSL证书验证) 一、复习巩固教师通过上节课作业的完成情况,对学生吸收不
10、好的知识点进行再次巩固 讲解。一、教师通过直接导入的方式导入新课上节课主要讲解了抓取静态页面的技术、发送GET请求、发送POST请求、 处理响应,接下来,本节课将讲解定制请求头、验证Cookie保持会话、SSL 证书验证。三、新课讲解知识点1-定制请求头教师通过PPT的方式讲解定制请求头。(1)掌握如何查看请求头。(2)掌握如何设置请求头。教师通过PPT的方式讲解如何查看请求头。翻开Fiddler工具,在Chrome浏览器中加载知乎网登录页面,加载完成后 切换至Fiddler工具,在窗口左侧选中刚刚发送的 请求,并在窗口右侧查 看该请求对应的请求头信息,具体如下列图所示。黑马程序员 ithei
11、ma 黑马程序员 itheima 传智教育旗下 高端IT教育品牌样的教育,不一样的品质Sie Edit gules lools View HelpQReplay X Go Stream Decode Keep: All sessions Any Process 的 Find 瓜 Save 阮 Browse * Clear Cache /T Textwizard34567891112131415161718195 片ft fta国自层C语匡A拦ft.434567891112131415161718195 片ft fta国自层C语匡A拦ft.4Hos Tumd tc wwv/.douban.con
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Python网络爬虫基础教程 教案 第3章 抓取静态网页数据 Python 网络 爬虫 基础教程 抓取 静态 网页 数据
限制150内