大数据中的应用-推荐算法.pdf
《大数据中的应用-推荐算法.pdf》由会员分享,可在线阅读,更多相关《大数据中的应用-推荐算法.pdf(2页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、理论研究摘要:本文主要介绍大数据众多应用中的一类推荐算法,并从音乐类应用(网易云音乐和虾米音乐)来分析这个算法的构成和实际作用并解析两者同是推荐算法下的细微差别。同时会对这一类音乐应用的未来发展趋势做一个展望和想象。关键词:大数据推荐算法网易云音乐虾米音乐大数据中的应用推荐算法文|李明辉大数据的概念及特点主要的推荐算法包括基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。其中协2014年淘宝、天猫“双十一”每分钟成交笔数为79万、至同过滤推荐往往被用于音乐、电影等对推荐对象无特殊要求的应2015年亚马逊活跃用户已达3.7亿、2015年7月14日网易云音乐宣用,
2、例如网易云音乐的推荐歌单,它的概念通俗讲来就是把与此布用户数破亿。这些数据比比皆是,且他们的量大的惊人。通常用户有相似兴趣的其他用户感兴趣的内容推荐给该用户。基于内对比这一类的数据,我们会采用抽样调查即随机分析法来获得结容推荐则是把用户的行为、资料抽取为有意义的特征,系统基于论,这样得出的结论普适性较差。由此,大数据诞生了。大数这些特征来学习用户的兴趣,并以此来和其他项目做匹配,找到据是指不用随机分析法这样的捷径,而采用所有数据进行分析最匹配用户的兴趣的,推荐给用户。这些算法的背后隐藏着众多处理。1另一种定义是,大数据指的是所涉及的数据量规模巨大数学的应用,譬如多维空间中两个向量夹角的余弦公式
3、、相似度到无法通过人工,在合理时间内达到截取、管理、处理、并整理矩阵、矩阵的特征值等。成为人类所能解读的形式的信息2。在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋以人为本网易云音乐势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路我们以网易云音乐的推荐歌单为例,简单的说一说协同过滤况等。推荐是怎么进行的。首先我们将音乐分AB类,A类是用户点赞的和随着大数据被越来越多的提及,有些人惊呼大数据时代已经用户完整听完的等一系列表明用户可能喜欢这首歌的行为,B类是到来了,2012年纽约时报的一篇专栏中写到,
4、“大数据”时用户听了一点就跳过的和用户手工移除等一系列表明用户可能不代已经降临,在商业、经济及其他领域中,决策将日益基于数据喜欢这首歌的行为。和分析而作出,而并非基于经验和直觉。但是并不是所有人都对对比不同用户AB分类的相似度,做差集推荐即假设有C、D两大数据感兴趣,有些人甚至认为这是商学院或咨询公司用来哗众个用户,他们的样本特征类似(即对音乐的喜好相似),C用户喜取宠的词,看起来很新颖,但只是把传统重新包装,之前在学术欢的集合(音乐)里面是1、2、3、4,D用户喜欢的集合(音乐)研究或者政策决策中也有海量数据的支撑,大数据并不是一件新是2、3、4、5,由此系统会给A用户推荐5,给D用户推荐1
5、。当用兴事物。户数量越来越来,样本数据也越来越多,推荐的准确度也会越来大数据几乎无法使用大多数的数据库管理系统处理,而必越高。须使用“在数十、数百甚至数千台服务器上同时平行运行的软当然对于这一类大数据的处理避免不了误差,网易云音乐在件”。大数据的定义取决于持有数据组的机构之能力,以及其平众多音乐播放软件中最为人称道的便是推荐歌单的精准度即对于常用来处理分析数据的软件之能力。“对某些组织来说,第一次大数据处理的误差小。大数据处理最核心最根本的还是源于大数面对数百GB的数据集可能让他们需要重新思考数据管理的选项。据本身,所以如何去除脏数据是至关重要的一点。脏数据即异常对于其他组织来说,数据集可能需
6、要达到数十或数百兆字节才会数据,也就是对于你所建的模型偏差很大的点。如果将这些点强对他们造成困扰。3行算作正常数据会导致整体误差增大,所以如果要做到整体误差大数据时代的来临带来无数的机遇,但是与此同时个人或尽量小的话,就必须剔除这些异常点。机构的隐私权也极有可能受到冲击,大数据包含各种个人信息数据,现有的隐私保护法律或政策无力解决这些新出现的问题。有人提出,大数据时代,个人是否拥有“被遗忘权”,被遗忘权即以歌为本虾米音乐是否有权利要求数据商不保留自己的某些信息,大数据时代信息虾米音乐的推荐系统的进行方式与网易云音乐异曲同工,不为某些互联网巨头所控制,但是数据商收集任何数据未必都获得同的是虾米音
7、乐不是把音乐通过用户分类而是把音乐打上标签。用户的许可,其对数据的控制权不具有合法性。2014年5月13日欧比如A音乐有标签X和Y,B音乐有标签Y和Z,那么你喜欢A音乐,A盟法院就“被遗忘权”一案作出裁定,判决谷歌应根据用户请求音乐又有标签Y,那么你也可能喜欢B音乐,则系统为你推荐B音删除不完整的、无关紧要的、不相关的数据以保证数据不出现在乐。这种算法避免了网易云音乐的以下缺点:用户在使用较久之搜索结果中。这说明在大数据时代,加强对用户个人权利的尊重后听到的歌曲风格越来越极度的同质化,再也无法听到其他风格才是时势所趋的潮流。的音乐及其对一个人的品味转移响应速度较慢,如果用户突然改变了喜好音乐的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 中的 应用 推荐 算法
限制150内