网文章正文采集方法,以微信文章采集为例15128.docx

上传人：you****now

文档编号：48062206

上传时间：2022-10-05

格式：DOCX

页数：37

大小：5.09MB

( 4.5 )

《网文章正文采集方法,以微信文章采集为例15128.docx》由会员分享，可在线阅读，更多相关《网文章正文采集方法,以微信文章采集为例15128.docx（37页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、网页文章章正文采采集方法法，以及及微信文文章采集集为例当我们想想要将今今日头条条上的新新闻、搜搜狗微信信上的文文章正文文内容保保存下来来的时候候，怎么么办？一一篇篇复复制粘贴贴？选择择一款通通用的网网页数据据采集器器，将会会使工作作简单很很多。八爪鱼是是一款通通用的网网页数据据采集器器，可采采集互联联网上的的公开数数据。用用户可以以设置从从哪个网网站爬取取数据，爬爬取那些些数据，爬爬取什么么范围的的数据，什什么时候候去爬取取数据，爬爬取的数数据如何何保存等等等。言归正传传，本文文将以搜搜狗微信信的文章章正文采采集为例例，讲解解使用八八爪鱼采采集网页页文章正正文的方方法。文文章正文文采集，主主要

2、有两两大类情情况：一一、采集集文章正正文中的的文本，不不含图片片；二、采采集文章章正文中中的文本本和图片片URLL。示例网站站：htttp:/m/使用功能能点：Xpatthhtttp:/m/seearcch?qquerry=XXPatth判断条件件htttp:/wwww.bbazhhuayyu.ccom/tuttoriialddetaail-1/jjudgge.hhtmll分页列表表信息采采集 hhttpp:/wwww.baazhuuayuu.coom/ttutooriaal/ffylbb-700.asspx?t=11AJAXX滚动教教程 hhttpp:/wwww.baazhuuayuu.co

3、om/ttutooriaaldeetaiil-11/ajjgd_7.hhtmllAJAXX点击和和翻页hhttpp:/wwww.baazhuuayuu.coom/ttutooriaaldeetaiil-11/ajjaxddjfyy_7.htmml一、采集文章章正文中中的文本本，不含含图片具体步骤骤：步骤1：创建采采集任务务1）进入入主界面面，选择择“自定定义模式式”网页文章章正文采采集步骤骤12）将要要采集的的网址URRL复制粘贴贴到网站站输入框框中，点点击“保保存网址址”网页文章章正文采采集步骤骤2步骤2：创建翻翻页循环环1）在页面右右上角，打打开“流流程”，以以展现出出“流程程设计器器

4、”和“定制制当前操操作”两两个板块块。网页页打开后后，默认认显示“热热门”文文章。下下拉页面面，找到到并点击击“加载载更多内内容”按按钮，在在操作提提示框中中，选择择“更多多操作”网页文章章正文采采集步骤骤32）选择“循循环点击击单个元元素”，以以创建一一个翻页页循环网页文章章正文采采集步骤骤4由于此网网页涉及及Ajaax技术术，我们们需要进进行一些些高级选选项的设设置。选选中“点点击元素素”步骤骤，打开开“高级级选项”，勾选“Ajax加载数据”，设置时间为“2秒”网页文章章正文采采集步骤骤5注：AJJAX即即延时加加载、异异步更新新的一种种脚本技技术，通通过在后后台与服服务器进进行少量量数

5、据交交换，可可以在不不重新加加载整个个网页的的情况下下，对网网页的某某部分进进行更新新。具体体请看AJAXX点击和和翻页教教程：hhttpp:/wwww.baazhuuayuu.coom/ttutooriaaldeetaiil-11/ajjaxddjfyy_7.htmml观察网页页，我们们发现，通通过5次次点击“加加载更多多内容”，页面加载到最底部，一共显示100篇文章。因此，我们设置整个“循环翻页”步骤执行5次。选中“循环翻页”步骤，打开“高级选项”，打开“满足以下条件时退出循环”，设置循环次数等于“5次”，点击“确定”网页文章章正文采采集步骤骤6步骤3：创建列表循循环并提提取数据据1）移

6、动鼠标标，选中页页面里第第一条文文章链接接。系统统会自动动识别相相似链接接，在操操作提示示框中，选选择“选选中全部部”网页文章章正文采采集步骤骤72）选择“循循环点击击每个链链接”网页文章章正文采采集步骤骤83）系统会自自动进入入文章详详情页。点点击需要要采集的的字段（这这里先点点击了文文章标题题），在在操作提提示框中中，选择择“采集集该元素素的文本本”。文文章发布布时间、文文章来源源字段的的采集方方法同理理网页文章章正文采采集步骤骤94）接下来开开始采集集文章正正文。先先点击文文章正文文的第一一段，系系统会自自动识别别页面内内的同类类元素，选选择“选选中全部部”网页文章章正文采采集步骤

7、骤105）可以以看到，所所有的正正文段落落均被选选中，变变为绿色色。选择择“采集集以下元元素文本本”网页文章章正文采采集步骤骤11注意：在在字段表表中，可可进行字字段的自自定义修修改网页文章章正文采采集步骤骤126）经过过如上操操作，正正文就会会被全部部采集下下来（默默认为每每一段正正文为一一个单元元格）。一一般而言言，我们们希望采采集的正正文，合合并为同同一个单单元格。点点击“自自定义数数据字段段”按钮钮，选择择“自定定义数据据合并方方式”，勾勾选“同同一字段段多次提提取合并并为一行行，即追追加到同同一字段段，例如如正文分分页合并并”，再再点击“确确定”网页文章章正文采采集步骤骤13“自定义

8、义数据字字段”按按钮网页文章章正文采采集步骤骤14选择“自自定义数数据合并并方式”网页文章章正文采采集步骤骤15如图进行行勾选步骤4：修改XXpatth1）选中中整个“循循环步骤骤”，打打开“高高级选项项”，可可以看到到，八爪爪鱼默认认生成的的是固定定元素列列表，定定位的是是前200篇文章章的链接接网页文章章正文采采集步骤骤162）在火火狐浏览览器中打打开要采采集的网网页并观观察源码码。我们们发现，通通过此条条Xpaath：/DIIVclaass=maain-lefft/DIIV33/UUL/LLI/DDIV2/H31/A，页页面中所所需的1100篇篇文章均均被定位位了网页文章章正文采采集步骤

9、骤173）将修修改后的的Xpaath，复复制粘贴贴到八爪爪鱼中所所示位置置，然后后点击“确确定”网页文章章正文采采集步骤骤18步骤5：修改流流程图结结构我们继续续观察，通通过5次次点击“加加载更多多内容”后，此网页加载出全部100篇文章。因而我们配置规则的思路是，先建立翻页循环，加载出全部100篇文章，再建立循环列表，提取数据1）选中中整个“循循环”步步骤，将将其拖出出“循环环翻页”步骤。如果不进行此项操作，那么将会出现很多重复数据网页文章章正文采采集步骤骤19拖动完成成后，如如下图所所示网页文章章正文采采集步骤骤20步骤6：数据采采集及导导出1）点击击左上角角的“保保存”，然然后点击击“开始

10、始采集”，选择“启动本地采集”网页文章章正文采采集步骤骤212）采集完成成后，会会跳出提提示，选选择“导出数数据”，选择择“合适的的导出方方式”，将采采集好的的数据导导出网页文章章正文采采集步骤骤223）这里里我们选选择exxcell作为导导出为格格式，数数据导出出后如下下图网页文章章正文采采集步骤骤234）如上图，部部分文章章的正文文没有采采集到。那那是因为为，系统统自动生生成的文文章正文文的循环环列表的的Xpaath：/idd=jjs_cconttentt/P，定定位不到到此篇文文章的正正文。将将Xpaath修修改为：/idd=jjs_cconttentt/P，所所有的文文章正文文均可

11、被被定位到到。再次次启动采采集，所所有文章章的正文文内容，均均被采集集到了网页文章章正文采采集步骤骤24修改Xppathh前网页文章章正文采采集步骤骤25修改Xppathh后经过如上上操作，目目标网址址中的微微信文章章正文中中的全部部文本被被采集下下来。如如果还需需采集图图片，则则需往已已有的规规则中，加加入一个个判断条条件。二、采集文章章正文中中的文本本和图片片URLL接一中的的步骤66步骤7：增加判判断条件件经过前66个步骤骤，我们们仅采集集了微信信文章里里的文本本内容，并并不包括括文章里里的图片片。如果果需要采采集图片片，则需需往规则则里加入入一个判判断条件件：对文文章内容容列表进进行

12、判断断，如果果包含iimg元元素（图图片），则则执行图图片采集集分支；如果不不包含iimg元元素（图图片），则则执行文文本采集集分支。同时，在在八爪鱼鱼中，默默认对左左侧分支支，设置置判断条条件，满满足此判判断条件件，则执执行左侧侧分支；默认最最右侧分分支为“不不判断，总总是执行行该分支支”，即即当不满满足左侧侧分支的的判断条条件时，则则执行最最右侧分分支。回到此规规则，即即对左侧侧分支设设置条件件：如果果包含iimg元元素（图图片），则则执行左左侧分支支；如果果不满足足左侧条条件分支支的条件件（即不不包含iimg元元素），则则执行右右侧分支支。具体体操作如如下：1）从左侧工工具栏，往往流程

13、中中拖入一一个“判判断条件件”步骤骤（选定定图标拖拖住不放放，拖入入箭头所所示的绿绿色加号号位置）网页文章章正文采采集步骤骤262）流程图中中出现判判断条件件。我们们将“提提取数据据”步骤骤，移动动到右侧侧分支中中（绿色色加号处处）。再再点击右右侧分支支，在出出现的结结果页面面（分支支条件检检测结果果-检测测结果总总是Trrue）点点击“确确定”网页文章章正文采采集步骤骤27将“提取取元素”步步骤，拖拖入右侧侧分支网页文章章正文采采集步骤骤28右侧分支支-检测测结果总总是Trrue3）点击左侧侧分支，在在出现的的结果页页面（分分支条件件检测结结果-检检测结果果总是TTruee）点击击“确定

14、定”。然然后对其其设置判判断条件件：勾选选“当前前循环项项包含元元素”，输输入元素素Xpaath：/iimg（代代表图片片），再再点击“确确定”网页文章章正文采采集步骤骤29点击左侧侧分支对左侧分分支，设设置判断断条件网页文章章正文采采集步骤骤304）左侧侧分支条条件设置置完毕后后，再进进行提取取数据步步骤。从从左侧工工具栏，拖拖入一个个“提取取数据”步骤，到流程图中的左侧分支中（绿色加号处），然后选中页面内一张图片，在操作提示框中，选择“采集该图片地址”拖入新的的“提取取数据”步步骤，到到左侧分分支网页文章章正文采采集步骤骤31采集图片片地址网页文章章正文采采集步骤骤325）选中中右侧分分支

15、的“提提取数据据”步骤骤，点击击“自定定义数据据字段”按按钮，选选择“自自定义定定位元素素方式”，将将红框中中的“元元素匹配配的Xppathh”：/*idd=jjs_cconttentt/p11/sspann1与“相对对Xpaath”：/sppan1，记记录下来来自定义定定位元素素方式网页文章章正文采采集步骤骤33元素匹配配的Xppathh、“相相对Xppathh”网页文章章正文采采集步骤骤346）选中中左侧分分支的“提提取数据据”步骤骤，点击击“自定定义数据据字段”按钮，选择“自定义定位元素方式”，参照右侧分支相同位置的Xpath进行修改：“元素匹配的Xpath”改为：/*id=js_con

16、tent/p1/img1，“相对Xpath”改为：/img1，然后点击“确定”网页文章章正文采采集步骤骤357）选中中左侧分分支的“提提取数据据”步骤骤，点击击“自定定义数据据字段”按钮，选择“自定义数据合并方式”，如图进行勾选。勾选后，多次提取的正文将追加为一个字段网页文章章正文采采集步骤骤368）注意意，在八八爪鱼中中，判断断条件里里各分支支中的“提提取数据据”步骤骤中的字字段名需需相同，字字段个数数需一致致。这里里，我们们将左右右两个分分支中，提提取的字字段名均均改为“正正文”（判判断条件件教程，请请参考：htttp:/wwww.bbazhhuayyu.ccom/tuttoriialdd

17、etaail-1/jjudgge.hhtmll）网页文章章正文采采集步骤骤379）如上上，整个个判断条条件设置置完毕。点点击左上上角的“保保存”并并“开始始采集”。我们发现，在导出的excel表格中，图片地址为一堆乱码。这是为什么呢？继续观察网页搜狗微信文章正文里的图片，需下拉滚动，才能加载出来，加载出来后才能采集到正确的图片地址。因而，在打开文章后，需对其进行设置“页面加载完成后向下滚动”。在这里，设置滚动次数为“30次”，每次间隔“2秒”，滚动方式为“向下滚动一屏”网页文章章正文采采集步骤骤38微信文章章正文里里的图片片，需下下拉滚动动，才能能加载出出来设置“页页面加载载完成后后向下滚滚动

18、”网页文章章正文采采集步骤骤39注意：这这里的滚滚动次数数、时间间、方式式的设置置，会影影响采集集数据的的速度、质质量。本本文仅做做参考，大大家可按按需设置置可参考AAJAXX滚动教教程：hhttpp:/wwww.baazhuuayuu.coom/ttutooriaaldeetaiil-11/ajjgd_7.hhtmll10）重重新启动动采集，并并导出数数据，数数据导出出后如图图所示：网页文章章正文采采集步骤骤40导出数据据网页文章章正文采采集步骤骤41数据示例例说明：因因搜狗微微信文章章中的图图片，需需经过下下拉滚动动，方可可加载出出来。在在采集过过程中，大大量时间间用在等等待图片片加载，因

19、因而采集集速度较较慢。如如果没有有采集图图片的需需求，直直接使用用文本采采集，无无需等待待图片加加载，采采集速度度会快很很多。相关采集集教程：百度搜索索结果采采集新浪微博博数据采采集豆瓣电影影短评采采集八爪鱼700万用户户选择的的网页数数据采集集器。1、操作作简单，任任何人都都可以用用：无需需技术背背景，会会上网就就能采集集。完全全可视化化流程，点点击鼠标标完成操操作，22分钟即即可快速速入门。2、功能能强大，任任何网站站都可以以采：对对于点击击、登陆陆、翻页页、识别别验证码码、瀑布布流、AAjaxx脚本异异步加载载数据的的网页，均均可经过过简单设设置进行行采集。3、云采采集，关关机也可可以。配配置好采采集任务务后可关关机，任任务可在在云端执执行。庞庞大云采采集集群群24*7不间间断运行行，不用用担心IIP被封封，网络络中断。4、功能能免费+增值服服务，可可按需选选择。免免费版具具备所有有功能，能能够满足足用户的的基本采采集需求求。同时时设置了了一些增增值服务务（如私私有云），满满足高端端付费企企业用户户的需要要。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

20 金币

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 文章正文采集方法文章 15128

得力文库 - 分享文档赚钱的网站所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

限制150内

关于本文

本文标题：网文章正文采集方法,以微信文章采集为例15128.docx
链接地址：https://www.deliwenku.com/p-48062206.html