网页质量维度评估标准 - 1.doc
《网页质量维度评估标准 - 1.doc》由会员分享,可在线阅读,更多相关《网页质量维度评估标准 - 1.doc(32页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、百度网页质量维度评估指南网页质量维度评估标准目 录1评估前的准备22网页质量概述23衡量网页质量的维度23.1页面可访问33.1.1是否死链33.1.2页面访问权限33.2页面特征43.2.1页面意图:是否有作弊43.2.2内容质量:主体内容的好坏53.2.3浏览体验:是否影响主体内容的浏览83.3页面来源:是否专业、知名103.3.1专业权威度103.3.2知名度114质量打分分档介绍124.1抛弃无法判断的网页154.20分垃圾页面154.31分内容低质页面164.42分内容不差,浏览体验差的页面164.53分一般页面174.64分优质页面174.75分非常优质页面185打分简要参考 【可
2、以打印出来放在手边参考哦】196评估中常见的问题207附录227.1典型的死链实例227.1.1协议死链227.1.2内容死链237.2典型的作弊实例251 评估前的准备欢迎加入网页质量评估工作!在参与评估前,您需要做好以下准备工作:1、 确保的您的浏览器正常访问网络,推荐使用IE、firefox、Chrome等常用浏览器。2、 需要使用1500px*900px以下尺寸的分辨率,大多数百度用户会使用这个范围的显示器。3、 建议在一个安装好百度影音、快播、迅雷等常见的插件和防病毒软件的电脑上评估。4、 文档中的每个例子都非常重要,评估前请务必打开每个例子,仔细阅读说明。5、 对于标准理解有任何的
3、问题或者意见,可以去评估论坛质量版块提问,一旦您的的意见被我们采纳,我们会送出精美的礼品。6、 请保持细心、耐心的完成文档阅读和每个case的评估。接下来,让我们一起了解网页质量的评估标准,同时再次强调:请务必打开每个例子2 网页质量概述对于每一次搜索来说,在结果跟用户相关的基础上,内容是否完整、结果是否专业、页面是否美观等,都影响着用户的需求满足,这些因素共同决定着网页质量。网页质量是一个网页满足用户需求能力的衡量,提升网页质量是改进搜索体验的重要途径。结合用户的实际感受,我们制定了一套评判结果质量维度的标准,用以辅助后续的策略改进。希望您认真阅读,您的打分将会对亿万百度用户的搜索体验产生影
4、响。3 衡量网页质量的维度衡量网页的质量,我们会从以下表列出的维度出发。接下来,会一一介绍这些影响页面质量判断的特征:特征分档划分页面可访问是否死链是、不是页面访问权限有、无页面特征页面意图(是否作弊)作弊、非作弊内容质量无效、差、中、好浏览体验差、好页面来源是否专业专业、不专业是否知名知名、不知名3.1 页面可访问不能被用户访问到内容的页面,一定是垃圾或低质。可访问是页面质量判断的前提。一般来说,页面不能访问,有两种情况:死链和存在页面访问权限。在打开一个网页进行质量评估的最开始,我们需要看下用户是否能正常看到它的内容。3.1.1 是否死链死链分为两种,协议死链和内容死链,这两种页面都无法获
5、取到主体内容,完全不能满足任何的用户需求,是0分的垃圾页面。例如: 打开后404、403、503等错误页面; 程序代码报错页面。 页面打开后提示内容被删除,或者因内容不存在跳转到首页。 完全的空白页面。死链的判断非常简单,详细可以参考附录5.1 死链网页实例3.1.2 页面访问权限页面访问权限是指打开页面都需要登录权限,没有权限完全无法看到页面的任何内容,常见于一些论坛,有页面访问权限的页面因为用户无法获取内容,是1分低质页面。需要说明的是,如果一个页面本身就是登陆页,则不是权限页面。具体见下面的例子:页面访问权限打分实例参考:示例访问权限说明case 3.1.2-1有内容页,访问需要先登录c
6、ase 3.1.2-2 有模拟试题,需要登录后才可以访问case3.1.2-3有内容页,访问需要先登录case 3.1.2-4无这是个登录页,访问它是不需要权限的。3.2 页面特征打开页面,第一眼看到的是页面的“长相”,即页面特征,能够帮助我们判断一个页面的质量好坏的页面特征主要包括页面意图是否作弊、内容质量、浏览体验三个子维度:3.2.1 页面意图:是否有作弊互联网上的每个页面的存在都是有其目的的。根据页面的意图,我们把页面分为两类:1、正常网页:以满足用户需求为目的。大部分的网页应该属于这一类,正常网页都是以给用户提供有价值信息和服务为目的,你能很容易的识别出他的意图和给用户提供的价值。下
7、面列举一些常见的网页意图: 一篇描述事实、表达观点的新闻:给用户提供客观信息; 关于某个人或事物的百科知识介绍:帮用户了解相关知识; 给用户提供导航的网站首页、频道页:引导用户浏览网站; 正常的影视、图片等资源的播放、展示的页面:给用户提供所需资源; 正常的商品购买页面:给用户提供商品信息和购买渠道; 回答用户问题的问答页面:给用户提供问题的答案; 软件、文档的下载页:给用户提供所需资源的下载入口; 2、作弊网页互联网上还有少数页面的意图不是为满足用户需求,而是通过各种手段骗取用户和搜索引擎获取利益,我们称这些网页为作弊网页。作弊的网页的价值是负向的,对用户的伤害很大,属于本标准中0分垃圾页面
8、。这样的页面分为两类:n 欺骗用户的页面:提供虚假信息,欺骗用户浏览和产生交互的网页。 仿冒官网的钓鱼网站; 骗子发布的虚假信息; 恶意的广告软文; 页面上包含恶意代码; 页面下载的文件里有病毒; 通过欺骗行为恶意引导用户访问受益链接; 通过标题欺骗用户点击,内容完全无关,不满足用户。 n 欺骗搜索引擎的页面:批量生成的无价值垃圾页面,不能满足需求同时通过骗取用户点击、浏览广告等方式获益。 网页上堆砌垃圾关键词,不具有可读性; 在文字中穿插关键词,破坏主体语义; 垃圾搜索结果页,主体与内容不相关; 批量生成的淘宝客推广页面,目的为获取流量分成; 被黑客篡改植入的垃圾页面; 需要说明的是,如果网
9、页所在的网站本身就是欺诈、作弊或纯垃圾采集,这个网站下面的所有页面都可以标注为作弊,最后质量是0分。作弊网页的类型非常多,我们特别在附录5.2 作弊网页实例一节里,单独给出了大量作弊网页的实例,请您一定仔细阅读学习。 3.2.2 内容质量:主体内容的好坏网页的内容质量主要受页面主体内容好坏的影响。内容质量的高低,是与产生内容所耗费的时间、资源、专业技能和经验相关的。内容质量高的网页,需要花费较多时间和精力编辑,倾注专业的知识和经验,主体内容是完整、丰富、有效的,可以很好支撑页面主题。内容质量低的网页,往往其主体内容(或资源)缺失、不完整或者与主题毫无关系,不能给用户提供所需的信息和资源,产生的
10、内容成本很低,耗费很少的资源,不需要专业技能。页面主体内容,是页面存在的价值所在,不同类型的网页主体内容不同,我们判断他们的内容质量时,需要关注的点也有区别:n 首页:需要看页面提供的导航链接和推荐内容是否清晰、有效。n 文章页:需要看能否提供了清晰完整的内容,是否图文并茂。n 商品页:需要看是否提供了完整的商品信息和有效的购买入口。n 登录页:主体内容是登录功能,页面上文字的多少不是主要衡量因素,只要关注是否可以满足用户的登录需求即可。n 问答页:需要看是否提供了有参考价值的答案。n 下载页:需要看是否提供下载入口,是否有权限的限制。n 文档页:需要看是否可以供用户阅读。n 搜索结果页:需要
11、看列出来的结果,是不是与搜索词相关的信息。根据页面主体内容、资源的好坏,我们将内容质量分为:无效、差、中、好四档。1、无主体内容或已无效:主体内容为空,或无任何有效信息。例如: 文章有标题,但没有任何内容; 问答页,有问无答,或回答完全不能解决问题; 黄页或个人博客等,只是一个框架,没有发布任何实质内容。 资源下载页上的下载链接不存在或资源失效; 视频播放页视频无效或不存在,无法播放; 搜索结果页,但没任何相关信息;注意:下载页、视频页等资源页面,评估时请务必确认资源的有效性,不能只通过看页面表面就做出判断。 无主体内容或已无效实例参考:示例内容质量说明case 3.2.2.1-1 无效文章有
12、标题,但没有任何内容case 3.2.2.1-2 无效问答页,只有问题没有回答case 3.2.2.1-3无效回答完全不能解决问题case 3.2.2.1-4无效文章有标题,但主体内容还未发布case 3.2.2.1-5无效下载页资源失效case 3.2.2.1-6无效视频播放页视频无效,无法播放case 3.2.2.1-7无效搜索结果页,但没有任何相关信息2、内容质量差:未经过认真编辑整理,粗制滥造或从别处采集的内容。主要表现是:主体内容空洞或不能支撑页面主题,不能满足用户主要需求;例如: 内容空短:有很少量的内容,不能支撑页面的主要意图。 论坛中,缺少有价值信息的“水帖”; 主题是影视全集
13、,但实际只是预告片或截取的部分片段; 视频明显模糊不清,不能看清内容; 商品、团购等下架、无货;招聘、交易类信息过期;页面上有明显的过期标记(下架、售完、过期时间等)内容质量差实例参考:示例内容质量说明case 3.2.2.2-1差内容空短,有很少量的内容,不能支撑页面的主要意图case 3.2.2.2-2差论坛水贴case 3.2.2.2-3差影视专题,但视频都是截取片段或预告片case 3.2.2.2-4差视频模糊不清晰(注意排除由于年代久远,视频资源模糊)case 3.2.2.2-5差商品已下架,不能满足用户需求case 3.2.2.2-6 差团购结束,不能满足用户需求case 3.2.
14、2.2-7 差交易信息已过期case 3.2.2.2-8差招聘已失效3、内容质量好:内容质量好的网页,内容产生的成本都是很高的,其内容清晰、有效、完整且丰富,花费了较多时间和精力编辑的,倾注了经验和专业知识。例如: 专业医疗机构发布的内容丰富的医疗专题页面; 资深工程师发布的完整解决某个技术问题的专业文章; 专业视频网站上,播放清晰流畅的正版电影全集页面; 京东等b2c网站上,一个完整有效的商品购买页; 权威新闻站原创或经过编辑整理的热点新闻的报道; 经过网友认真编辑,内容丰富的百科词条。内容质量好实例参考:示例内容质量说明好专业医疗网站发布的丰富医疗专题页面case 3.2.2.3-2 好资
15、深工程师发布的完整解决某个技术问题的专业文章case 3.2.2.3-3 好专业视频网站上,播放清晰流畅的正版影视全集页面case 3.2.2.3-4好京东的一个完整有效的商品购买页case 3.2.2.3-5好权威新闻站原创的热点新闻的报道case 3.2.2.3-6 好经过网友认真编辑,内容丰富的百科词条4、内容质量中:除了上面提到的内容质量无效、差和好这三类页面,其余的内容质量打分都为中,例如一篇不知名的博客,帖吧里一个普通的帖子,一个普通的百度知道问答结果等等。在内容质量判断中,需要特别注意采集页面的打分问题:对于没有经过加工整理的转载和采集的页面,其内容产生的成本较低,内容质量最多是
16、“中”这一档。例如: 网易没有进行任何编辑,直接转载了一篇新浪的新闻,内容产生的成本很低,认为网易新闻的内容质量为中; 中国政府网发布了国庆放假安排被贴到文库上,内容质量也是中; 一个采集起点的盗版小说页,质量最多也只能给到中;实例参考:示例内容质量说明case 3.2.2.4-1中网易直接转载了中国新闻网的一篇新闻。case 3.2.2.4-2中文库上网友上传的“国庆放假安排”新闻case 3.2.2.4-3中采集起点小说网的盗版小说站3.2.3 浏览体验:是否影响主体内容的浏览一个优质的网页,需要让用户第一眼能看到页面的主体内容,获取页面信息的时候没有多余的干扰,可以快速找到所需。浏览体验
17、的好坏主要受内容排版、广告以及页面资源获取成本这3个因素影响。好的浏览体验,需要能便捷的获取到需要的内容,有良好的布局,清晰的结构划分,便于用户浏览,对用户不会产生干扰等。页面的浏览体验可以简单分为两档:好、差。1、 浏览体验差:页面布局和广告影响了主体内容的获取。包括但不仅限于以下情况:(1)页面布局差: 正文内容不换行或不分段,都黏在一起,阅读困难; 字体和背景颜色相近,内容辨别困难; 页面布局不合理,页面首屏看不到任何有价值的主体内容; 针对手机用户的wap页面,排版PC访问可读性很差。(2)页面广告泛滥: 广告遮挡主体内容,一般分辨率下首屏都是不相关广告,看不到主体内容; 动态和fla
18、sh无关广告过多,抢夺用户视线; 浏览网页或点击链接时,出现预期之外的广告弹窗。(3)主体内容获取成本高:如果一个页面的主体内容是好的,但获取成本比较高,也会影响用户的浏览体验,获取成本高的网页有两种:一个是需要权限,另一个是需要安装插件。这两类在我们的评估中非常常见,这部分的标准如下:n 获取主体资源需要预期外的权限限制:类似起点小说、CNKI论文等提供优质、正版内容的网站,内容建设的成本很大,尽管查新最新章节或下载论文的时候需要权限,但用户是有预期的,浏览体验认为是好的。例如: 起点上首发的小说,最新章节需要购买VIP权限,原创资源,浏览体验好; CNKI上的一篇论文,需要收费才能下载,有
19、版权资源,浏览体验好; 优酷买一个新电影的版权,但需要用户付费才能观看,浏览体验好;但对于一些非优质、正版的资源,来自于用户转载甚至机器采集,本身没有版权,获取还有权限的限制,需要用户注册登陆,或者付费查看,可以认为是浏览体验差。 一篇思想汇报,网上到处都是,下载还需要注册会员,浏览体验差。 一张收集来的普通风景壁纸,下载还需要付费,浏览体验差。 一个用户上传到新浪网盘的文档,下载需要登陆积分,浏览体验差。n 获取主体内容需安装冷门插件:有一些视频、下载资源页本身资源质量是ok的,但需要安装插件才能正常访问资源,这种页面我们的判断原则是:知名正规的网站插件,如迅雷、快播、百度影音、风行等,凡是
20、安装后能够正常播放的,则不考虑插件的因素正常打分,不认为浏览体验差。如果需要安装一些非常冷门的插件才能访问资源,比如“xx大片播放器”,这种我们认为是浏览体验差,这种页面一般也会伴随有作弊和低质特征,需要特别注意。浏览体验差实例参考:示例浏览体验说明case 3.2.3.1-1差排版差,内容有堆砌现象,广告多,勉强能阅读case 3.2.3.1-2差Wap页面,PC访问页面可读性差case 3.2.3.1-3差广告多,首屏下都是不相关广告case 3.2.3.1-4差下载页面,广告占据第一屏内容,严重阻碍用户浏览页面主体内容case 3.2.3.1-5差入党申请书,本身就是转载的,网上到处都是
21、,但这个页面仍然要求收费才能下载。2、浏览体验好:排版合理,浏览顺畅,广告不影响阅读。主要内容突出、明确,位于页面靠前且中心的位置,是用户打开页面立即可见的部分。一般具有以下特征: 排版合理,版式美观,易于阅读和浏览; 用户需要的内容占据中心和大部分首屏空间。 能够通过页面标签或页面布局十分清楚地区分出哪些是页面广告。 广告不抢占主体内容位置,不分散主要内容的获取。 推荐的广告一般与主体内容相关。 页面获取成本可接受:如上面的描述,来自知名大站,内容质量优质且有版权的资源,如果存在权限,用户是有预期的,可认为浏览体验好。浏览体验好实例参考:示例浏览体验说明case 3.2.3.2-1好【易错题
22、】CNKI上的一篇论文,收费才能下载,但有版权,浏览体验好case 3.2.3.2-2好优酷上一部新电影,需要付费才能观看,浏览体验好。case 3.2.3.2-3好【易错题】招聘、房产等网站首页也有很多广告,但都是招聘相关的,浏览体验是ok的。case 3.2.3.2-4好文章页,页面布局合理,无广告,排版好,结构合理case 3.2.3.2-5好游戏首页,排版美观,布局合理,无广告,浏览体验优3.3 页面来源:是否专业、知名来自不知名小网站(或人)发布的结果,和来自领域内知名、专业权威站点(或人)发布的结果,带给用户的感受是不同的,用户会更相信、认可后者提供的信息。因此,信息发布网站和发布
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 网页质量维度评估标准 网页 质量 维度 评估 标准
限制150内