基于Python的“哔哩哔哩视频网“视频热度分析.doc
《基于Python的“哔哩哔哩视频网“视频热度分析.doc》由会员分享,可在线阅读,更多相关《基于Python的“哔哩哔哩视频网“视频热度分析.doc(28页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、摘 要在21世纪的今天,网络发展越来越快,网上的娱乐方式也越来越多样化,而如今在网上观看视频消遣时间越来越受到大众的青睐。Bilibili视频网站是现当下年轻人最受欢迎的一个视频网站。有调查显示,直到2019年的10月份,Bilibili视频网站的用户在总体网络视频用户占比高达90%。它与其他的视频网站用户相比较,其用户忠实度更高,据其招募报告称,其成员的12个月保留率达79,而2009年注册的用户中60的今天仍然活跃。Bilibili是目前国内最受欢迎的综合用户网站,分析其视频热度可以从侧面分析15-45岁群体的爱好,有着重要研究意义。本论文为基于Python的“哔哩哔哩视频网”视频热度分析
2、。首先讲解本文使用的相关技术,包括Scrapy框架,Pandas库和pyecharts库。然后根据页面分析使用基于Scrapy的方法对哔哩哔哩视频网数据抓取,并展示了部分数据结果,还对数据进行了预处理,接着为数据分析分别对分区占比、平均播放量、平均三连情况、各区平均播放和热门标签进行可视化,最后总结本论文所做的工作以及展望。关键词:Scrapy;Pandas;哔哩哔哩视频网AbstractIn the 21st century, the development of the Internet is faster and faster, the online entertainment is m
3、ore and more diversified, and now watching videos on the Internet for leisure time is more and more popular.Bilibili is one of the most popular video websites for young people today.As of October 2019, Bilibili accounts for 90 percent of all online video users, according to a survey.Bilibilibili has
4、 higher user loyalty than other platforms, with a 12-month retention rate of 79% according to its recruitment report, compared with 60% of users registered in 2009 who are still active today. Bilibilibili is the most popular comprehensive user website in China. Analyzing its video popularity can ana
5、lyze the hobbies of the 15-45-year-old group from the side, which has important research significance.This paper is based on Python BiliBili video network video heat analysis. First of all, it introduces the related technologies used in this paper, including the scrapy framework, pandas library and
6、pyecharts library. Then, according to the page analysis, we use the method based on scratch to capture the data of bilibilibili video network, and show some data results, and preprocess the data. Then we visualize the partition proportion, the average playback volume, the average triple connection,
7、the average playback of each area and the hot tags for the data analysis. Finally, we summarize the work and Prospect of this paper.Key words:Scrapy;Pandas;BiliBili目 录第一章 绪论11.1 研究背景11.2 国内外研究现状21.3 章节安排2第二章 相关技术介绍32.1 Scrapy框架32.2 Pandas库42.3 pyecharts库4第三章 基于Scrapy的数据抓取63.1 页面分析63.2 数据结果73.3 数据预处理
8、8第四章 数据分析104.1 分区占比可视化104.2 平均播放量可视化104.3 平均三连情况可视化114.4各区平均播放可视化134.4热门标签可视化14第五章 总结与展望165.1 工作总结165.2 展望16参 考 文 献18附 录20广东东软学院本科生毕业设计(论文)第一章 绪论1.1 研究背景与以前我国信息交流不发达的时代相比,如今我国学会上网的人也越来越多,而国家对互联网的普及率也越来越高。导致与2018年相比较,如今中国的上网人数已经比那时提高了2%。而如今随着手机的更新换代,手机上网比用电脑上网更加便捷,有数据显示,如今使用手机上网的人数比使用电脑上网人数多3000万。在21
9、世纪的今天,网络发展越来越快,网上的娱乐方式也越来越多样化,而如今在网上观看视频消遣时间越来越受到大众的青睐。Bilibili视频网站是现当下年轻人最受欢迎的一个视频网站。有调查显示,直到2019年的10月份,Bilibili视频网站的用户在总体网络视频用户占比高达90%。而如今不仅是Bilibili,就连像优酷、腾讯、爱奇艺、乐视等的视频网站都以电视剧、电影、动漫等的一些视频类型向游戏、音乐、电竞等当代年轻人喜爱的娱乐类型进行扩展联动。正是有了这些视频网站专业的生产和运营,我国的网络视频行业才慢慢不停地发展起来,逐步形成网络视频的内容与各领域协同的娱乐生态内容。Bilibili视频网站于20
10、09年创立,最开始的时候这个视频网站只是类似于今天的A站一样,分享一些精美图片和视频。但随着中国近十多年来互联网的快速发展,该视频网站也慢慢地扩展了其他的业务,例如一些电子商务和手机游戏等。但其特殊之处还不止这些,与优酷和腾讯等其他视频网站不同,Bilibili在ACG文化以及弹幕文化方面上显得独树一帜。随着Bilibili游客数量的快速增长,它的内容也越来越丰富,除了占主导地位的主题之外,现在的Bilibili还提供了各个领域的视频,包括音乐、舞蹈、科学、技术、娱乐、电影、戏剧、时装、日常生活以及广告电影。此外,Bilibili还提供实时流媒体服务,观众可以与流媒体进行互动。通常这些主题都是
11、关于动画、内容创建与游戏策略等。Bilibili与其他平台相比,其用户忠实度更高,据其招募报告称,其成员的12个月保留率高达79,而2009年注册的用户中有60今天仍然活跃。此外,年龄在15-45岁之间的用户占平台总体用户基础的78。Bilibili的平均用户每天在该平台上花费超过78分钟,观看每月上传的240万个视频中的一些。Bilibili凭借其独特而活跃的内容社区吸引用户,也是该网站用户数量激增的原因。 而自2018年9月以来,它在12个月内获得了3500万的MAU。Bilibili是目前国内最受欢迎的综合用户网站,分析其视频热度可以从侧面分析15-45岁群体的爱好,有着重要研究意义。1
12、.2 国内外研究现状作为当代网民最重要的娱乐方式之一的网络视频已经成为当今互联网世界的第五大应用。而在这个互联网数据的时代,网络视频拥有大量的用户数据,对网络视频的分析研究能够知道当代网民对视频的喜爱类型,对今后网络视频的可持续发展有着重要的意义。马翔1 为了能够实现视频网站分析平台的用户数据可视化应用模型,他从人机交互和可视化等综合视角出发,带领视频制作团队实现把用户的数据向节目形式和内容的转化,也提出了用可视化的数据挖掘以及分析用户的爱好习惯的观点。崔楠,郭俞,张会雄2使用Python网络蜘蛛作为工具对哔哩哔哩视频网获取了大量的弹幕数据,并这些数据进行了挖掘分析,由此间接地评价了视频的内容
13、,最终结果展示了流行短视频的独特评价,对短视频的作者和平台都具有一定的参考价值。他们基于这种弹幕的研究方法也为视频内容的自动识别与评价提供了新的思路。徐璐3 使用获得的Web用户日志分析出观看视频用户的一些选择和观看的视频评分之间的矩阵关系。通俗来讲就是建立用户的兴趣模型来发现观看视频用户的喜好,在此过程中,她还对协同过滤算法中一些计算方法进行了改进,使其模型能够主动向用户提供他们喜好观看的一些的视频。顾军华, 高星, 王守彬, 等4 以新媒体等视频大数据为基础在Spark上建立了BP神经网络视频评估模型。还以传统媒体等视频方面的影响度为基础不断地去完善其评估体系。最后还建立了基于IPTV的大
14、数据,并且能够反映其用户群体的喜好类型评分策略的BP神经网络评估模型。1.3 章节安排本篇论文总共有5个章节,每一个章节的主要内容如下:第1章是绪论章节,主要介绍研究背景和国内外的一些研究现状,接着介绍本文的结构。第2章主要介绍了本文使用的相关技术,包括有Scrapy框架、Pandas库和pyecharts库。第 3 章为基于Scrapy的数据抓取,首先介绍了如何根据页面分析对网页数据进行抓取,然后展示了部分数据结果,并对数据进行了预处理。第 4 章主要为数据分析,分别对分区占比、平均播放量、平均三连情况、各区平均播放以及热门标签进行数据分析并可视化。第 5 章是结论,总结本论文所做的工作以及
15、展望。第二章 相关技术介绍2.1 Scrapy框架Scrapy框架在Python语言中处理复杂情况的一种工具。它是一种强大的网页蜘蛛框架,不仅能够轻松构建请求,并且能轻松解析响应。它的性能非常高甚至还可以将网页蜘蛛这种程序工程化以及模块化。Scrapy框架主要包括:(1)引擎:主要工作负责项目管道、网页蜘蛛、下载器、调度器中间的通讯、信号分析以及相关数据信息传递等。(2)调度器:主要负责接收来自引擎发送的请求,并组织和布置以某种方式入队,当被需要时返回到引擎。(3)下载器:主要工作负责下载引擎发送的所有请求,并将其获取到的响应交还给引擎,并由相关引擎交给网页蜘蛛来处理。(4)网页蜘蛛:主要负责
16、处理所有响应,从中分析提取数据并获得项目字段所需的数据,向引擎提交需要跟踪的URL并又一次进入到调度器之中。(5)项目管道:从爬行器中获取的项目进行处理和后处理的地方。Scrapy 的运行流程基本如下:(1)首先,引擎从调度程序中检索的URL作为初始目标的检索程序,并开始从此URL抓取。(2)其次,URL被引擎封装为请求并且传送给下载器,下载器把资源下载到本机后再封装为响应。(3)网页蜘蛛接收响应同时调用回调函数。2.2 Pandas库Pandas库的创始人是一位名叫Wes McKinney的开发人员开发出来的,其开发Pandas库的目的在于能够对所得到的数据进行更加精准的操作分析以及建模等。
17、而在此出现之前,Python只能够简单的对数据进行处理以及作出一些准备,而对于如今的数据分析的贡献并不是很大。而目前作为一个开源的Pandas,已经能够利用其强大的功能为数据处理提供高性能的处理和分析了。而如今带有Pandas库的Python语言已经在广泛的领域中使用,其中就包括有学术、商业、金融、经济学、统计和分析等。Pandas库的主要特点:(1)具有快速高效的数据框架对象,具有默认和自定义索引。(2)处理数据对齐和丢失数据。(3)将不同文件格式的数据加载到内存中的数据对象工具。(4)可以把日期一期重新塑造以及设置。(5)可以删除或插入数据结构中的列。(6)基于标签的切片,大数据集的索引和
18、子集。2.3 pyecharts库Pyecharts库作为Python中一个图表的库,使用它生成的图表的可观程度非常的高,对数据进行分析起来十分的方便,通过图表数据与数据的比较更容易得出数据分析的结果。Pyecharts库的主要特点:(1)能够支持链式的调用,并且能够实现简单干净的API设计。(2)能提供三十多种的常用图表。(3)带有Jupyter Notebook和JupyterLab并支持当下的Notebook环境。(4)可轻松集成到Flask和Django等主流的Web框架。(5)拥有四百个以上的地图文件,也能够支持地理数据的可视化实现。(6)为新手开发项目提供更多的文档支持。第三章 基
19、于Scrapy的数据抓取3.1 页面分析如图3.1为Bilibili排行榜页面,在对网页的数据抓取前首先需要分析其页面结构。如图3.2为网页的html结构,排行榜页面仅有题目,作者,观看量,评论数,综合得分等数据,更多数据需要进入视频详情页面进行抓取。如图3.3为视频详情的html结构,视频详情页面可以获取与播放视频相关的一些播放量、三连量、转发量、热门标签等信息,我们都可以通过xpath方法来抓取这些在div标签的信息。图3.1 排行榜页面图3.2 排行榜页面代码图3.3 视频详情代码3.2 数据结果表3.1为本文获取数据格式,表3.1展示了其中的九行数据,包括了作者、投币数、弹幕数、三连数
20、、作品id、点赞数、类别,回复数、得分、分享数、观看数、题目以及标签十三列的数据内容。表3.1 原始数据表作者投币数弹幕三连id点赞数类别快乐的Ler5125423319648384695473051611191全站飞鱼不在天2588171182754928891835249279854全站落桑西4590019464117605190609023858630全站翘课迟到4395295294836403289558467582909全站奶糕成精档案社22907634179582291675841268103全站维C永不加班426321111372349445952356127动画可口的红糖126
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Python 哔哩哔哩 视频 热度 分析
限制150内