基于商品属性值和用户特征的协同过滤推荐算法-高长元.pdf
《基于商品属性值和用户特征的协同过滤推荐算法-高长元.pdf》由会员分享,可在线阅读,更多相关《基于商品属性值和用户特征的协同过滤推荐算法-高长元.pdf(7页珍藏版)》请在得力文库 - 分享文档赚钱的网站上搜索。
1、CN 431258TPISSN 1007130X计算机工程与科学Computer EngineeringScience第39卷第12期2017年12月V0139NO12Dec2017文章编号:1007130X(2017)12233307基于商品属性值和用户特征的协同过滤推荐算法+高长元12,黄 凯1,王 京12,张树臣h2(1哈尔滨理工大学管理学院,黑龙江哈尔滨150040;2哈尔滨理工大学高新技术产业发展研究中心,黑龙江哈尔滨150040)摘 要:为了提高用户相似度计算精度和推荐准确性,缓解数据稀疏性,提出一种基于商品属性值和用户特征的协同过滤推荐算法。该算法首先从用户对商品属性值的偏好出发
2、,计算用户对商品属性值的评分分布和评分期望值,得到用户一属性值评分矩阵;同时利用数据相似性度量方法寻找用户特征邻居,填充用户一属性值评分稀疏矩阵,进而得出目标用户偏好的最近邻居集;计算用户对未评属性值的评分,将目标用户对商品所有属性值评分的均值进行排序,形成该用户的TopN推荐列表。采用Movie Lens和Book Crossing数据集进行实验,结果表明该算法在缓解数据稀疏性问题上效果较好,推荐精度显著提高。关键词:商品属性值;评分期望值;用户特征;协同过滤中图分类号:TP3016 文献标志码:Adoi:103969jissn1007130X201712024A collaborative
3、 filtering recommendation algorithm basedon itern attribute values and user characteristicsGAO Changyuanl,HUANG Kail,WANG Jin91,ZH ANG Shuchenl2(1College of Management,Harbin University of Science and Technology,Harbin 150040;2Hightech Industrial Development Research Center,Harbin University of Scie
4、nce and Technology,Harbin 150040,China)Abstract:In order to improve the precision of similarity calculation and recommendation accuracyand reduce data sparseness,we propose a collaborative filtering recommendation algorithm based on itemattribute values and user featuresFirstly,based on the user pre
5、ference for itern attribute values,wecalculate the rating distribution of item attribute values and rating expectations,and obtain the userattribute value rating matrixIn the meantime,we use a data similarity measure method to find user characteristics neighbors and fill the sparse userattribute val
6、ue rating matrix,thus obtaining the preferenceset of the nearestneighborsThirdly,we calculate the rating of the unrated attribute values,and sortthe means of the rating of all item attribute values,thus obtaining a TopN recommendation list for thetarget userExperiment on the Movie Lens data set and
7、Book Crossing data set show that the algorithmcan better overcome the data sparsity problem and enhance recommendation accuracyKey words:commercial item attribute values;rating expectations values;user characteristics;collaborative filtering收稿日期:2015 12-07;修回日期:2016-05 03基金项目:国家自然科学基金(71 272191);黑龙江
8、省自然科学基金(G201301);黑龙江省高等学校哲学社会科学创新团队建设计划(TD201203);云计算联盟创新模式及管理对策研究”(LBHZ1 5048);黑龙江省博士后基金(LBHZ14068)通信地址:150040黑龙江省哈尔滨市香坊区林园路4号哈尔滨理工大学管理学院Address:College ot Management,Harbin University of Science and Technology,4 Linyuan Rd,Xiangfang District,Harbin 150040,Heilongjiang,PRChina万方数据2334 Computer Engi
9、neering&Science计算机工程与科学201 7,39(12)1 引言近年来,电子商务发展迅猛,竞争愈加激烈,客户的个性化需求越来越越强烈,对于各种电子商务推荐系统的精准性要求越来越高,亚马逊电子商务推荐系统、Hulu视频推荐系统、Pandora音乐推荐系统等众多领域的个性化推荐系统应运而生,个性化推荐已成为目前推荐系统领域研究的重要内容。但是,用户邻居寻找不够准确、数据稀疏性问题困扰着推荐系统的发展。对此国内外学者提出了一些改进算法,邓爱林等3利用项目之间的相似性,计算用户对未评分项目的评分,再寻找相似用户;黄创光等21提出一种不确定近邻的协同过滤推荐算法,自适应地选择预测目标的近邻
10、对象作为推荐群;单晓菲等口3使用选择性随机游走代替传统的Pearson相关系数,寻找最近邻居。Linden等4指出用户评分数据稀疏问题成为传统的协同过滤算法亟待解决的问题。夏建勋等口3提出使用行和列加权平均值、众数的平均值、中位数的平均值对稀疏矩阵进行填充。Zhang等1通过降维技术进行特征提取,将原始数据映射到低维空间,使变换后的数据变得相对稠密;Braak等口3通过分类、聚类技术将用户行为进行聚合,在聚合后的子空间上进行推荐;Lee等r83结合显式和隐式评分对数据稀疏性问题进行改进,Zhang等o提出了一种递归预测算法,把最近邻的用户加入到预处理中,缓解了评分数据的稀疏性。以上学者对协同过
11、滤推荐算法的改进提高了推荐的准确性,但是较少考虑用户对商品属性值的偏好,也未考虑将用户特征应用于推荐算法,利用用户特征相似性填充用户一属性值评分矩阵的研究更是少见。基于此,本文提出了基于商品属性值和用户特征的协同过滤推荐算法,该算法利用用户对属性值的评分分布将用户对商品的评分转换为用户对属性值的评分,从用户对属性值偏好的层面计算用户相似性,在此基础上,利用用户特征相似性填充稀疏矩阵,缓解数据稀疏性问题。2 问题描述21 传统的用户相似性计算问题分析传统的协同过滤推荐算法分三个步骤:评分表示、邻居形成和推荐生成m3。邻居形成是影响推荐系统准确性的关键步骤。传统的用户相似性计算问题分析如下。(1)
12、缺少用户对属性值偏好的分析。用户对商品的偏好程度是对各个属性值感知后得出对商品的总体偏好,相似的用户对商品的某种属性值有相似的偏好。例如:userl和user2的相似性为028,相似性较低。根据userl和1AseY2对item2的评分,会得出user2对item2不感兴趣的结论。userl恰好喜欢item2的所有属性值,所以给出高分,l,ISer2喜欢item2的属性值a,不喜欢item2的属性值b,在综合对属性值a和b的偏好后给出低分。实际上userl和user2都喜欢属性值a,两者在对属性值a的偏好上具有一定的相似性,传统的用户相似性计算方法会忽略掉一个相似用户,导致推荐系统的准确性降低
13、。(2)数据稀疏性影响推荐精度。据统计,一般用户购买商品的总量仅占网站总商品量的12左右,用户对项目的评分数据也是如此,造成用户一项目评分矩阵非常稀疏。具有共同评分的商品很少,因此通过稀疏数据计算得出的最近邻居用户不准确,推荐质量可能就会很低。22基于商品属性值和用户特征的协同过滤推荐算法流程设计通过对以上问题的分析得出:由于用户对商品的偏好与商品属性值高度相关,在商品属性值偏好层面上寻找相似用户比在商品整体偏好层面上寻找相似用户更加精细;此外,评分矩阵的稀疏性导致用户相似度计算不准确,在大量心理学和营销学研究中,人们发现具有相似个人特征的用户在消费偏好上具有很高的相似性。因此,本文根据用户对
14、属性值的偏好计算用户相似性,将用户一项目评分矩阵转化为用户一属性值评分矩阵,并采用用户特征最近邻的方法填充该矩阵,解决评分数据稀疏性影响用户相似性度量的问题。具体算法流程图如图1所示。3 基于商品属性值和用户特征的协同过滤推荐算法的构建31 基于评分分布的商品属性值评分计算定义用户的偏好为用户对各属性值的评分分布。统计用户评价商品中各属性值的数量以及对于每个属性值在各个评分等级上的数量,计算用户对属性值的评分分布,进而计算用户对商品属性值的评分,将用户对商品的评价转化为对商品属性值万方数据高长元等:基于商品属性值和用户特征的协同过滤推荐算法 2335Figure 1 Process of th
15、e collaborative filteringrecommendation algorithm based on itemattribute vaues and user characteristics图1基于商品属性值和用户特征的协同过滤推荐算法流程的评价。定义“。表示第i个用户,项目属性集合记为A,A。表示第m个属性。A。一a。,U口。:Ua。UU a。,a。表示第m个属性的第九个属性值。(1)商品属性值矩阵。在同类商品的推荐系统中,商品属性值相对于商品总数是较少的,商品属性值集合C表示为:C=口】1,口1d,a21,a 2,a。l,一)。商品属性值矩阵X表示为:X一其中,1表示商品具
16、有该属性值,0表示不具有该属性值。(2)属性值评分分布。P。(rl a。)表示用户甜:评论过的商品中具有属性值a。时,评分为r(r=1,2,3,S;S为评分最高等级)时的概率值,表示该用户对属性值a。的评分分布。”I一鬻豫菘等值a rm,则P。(r am)一0(3)商品属性值评分。AVG即。一p(r 1丑。)r (2)r一1AVG。为用户“。对属性值a。评分的期望值,表示用户对该属性值的评分。(4)在得到商品属性值评分之后,可以将所有用户对所有属性值的评分用矩阵R。 表示:R。 一AVG。AVG。,。AVG。AVG。AVG。,。AVG。,一AVG。,。AVG。,。,AVG。,。,AVG。,。,
17、AVG。,。AVG。一; ; i ; i !-AvG”“AVG”“AVGAVG口AVG。AVG”。32基于用户特征的稀疏矩阵填充用户个人特征具有不同的数据类型特点,在一定程度上决定着用户的偏好。基于此,本文提出了利用用户特征相似性对用户一属性值矩阵进行填充的方法。具体步骤如下:(1)用户特征矩阵。“l,“2,“3,“I“,“J,“,U。)表示系统所包含的m个用户的集合。f。,f2,f3,:)表示系统所包含的用户特征1,用户特征2,用户特征z,用户特征用mz的矩阵F表示为:Ifll f12 f1Z, , ,FI,21 ,22 ,2zL厂。,厶z 厂。其中,厶表示用户U。的第z个特征的数据。(2)
18、用户特征相似性计算。Han等11 3提出了不同类型数据的邻近性度量方法,将数据类型分为标称型、数值型、二元型、序数型。用户特征的取值也符合这些属性类型,如表1所示。Table 1 Data type of user characteristics表1 用户特征数据类型瞿关釜 特点 举例标称型标称型用户特征的值是一些符号的名称 职业特长二元型云0未霎罢善盏票萑濡譬1萎票誓霸和1。 性别一“2 表示该特征不出现,表示出现 。数值型用整数或实数值表示 所在地区年龄(1) 序数型可能的值之间具有有意义的序或秩评定 收入其中,工(n。)表示用户“:评价过的商品中具有属性值a。的商品,j(r)表示用户U。
19、评分为r的商品,I。表示用户M。评价过的商品集。N(X)表示X的元素个数。若用户评价过的商品中没有属性在实际中,用户特征的属性是混合类型的,可能包含表1列举的所有特征类型。我们可以将所有类型的用户特征一起处理。用户“。和U,之间的相异性为:0O;1nm01;0a毗1O;1一趴O1;O口00;1口乱11;1万方数据2336 Computer EngineeringScience计算机工程与科学2017,39(12)d(ui,uj)一攀善a强其中,厂表示用户特征,z表示用户特征个数。用户特征厂是数值型的,d:乞一J L,一L,l(max工。,一rain“r),其中h取遍特征,的所有非缺失值。用户特
20、征厂是标称型或二元型用户特征:如果用户特征值L,一正,则d:r?。一0;否则d。(D。一1。用户特征厂是序数型用户特征:计算排位凡,和Z。,一(,J。, 1)(77z, 1),其中r。,表示在用户特征厂中,状态对应的排位;,表示,的有序状态数,并将Z“作为数值型对待。如果工或z。,缺失(即用户“,或用户“,没有特征,的度量值),或者L,一aT“,一0,并且厂是非对称的二元型用户特征,aX一0;否则a量=1。JSim,(U,“,)表示用户特征相似度。y aVdVSire r(U,U,)一1一上尘_一y a门篙“2”,完成用户特征相似性计算,得到用户特征相似性矩阵,用户特征相似度矩阵是一个mm的方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 商品 属性 用户 特征 协同 过滤 推荐 算法 高长元
限制150内