买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种hadoop实现的ItemCF推荐方法_山东商务职业学院_201610147811.3 

申请/专利权人:山东商务职业学院

申请日:2016-03-09

公开(公告)日:2017-09-19

公开(公告)号:CN107180063A

主分类号:G06F17/30(2006.01)I

分类号:G06F17/30(2006.01)I

优先权:

专利状态码:失效-发明专利申请公布后的视为撤回

法律状态:2020.03.06#发明专利申请公布后的视为撤回;2017.10.20#实质审查的生效;2017.09.19#公开

摘要:一种hadoop实现的itemCF推荐方法,包括Hadoop集群平台、用户对商品的评分日志、项目平均评分向量、同现矩阵、平均差评分向量、推荐因子向量,其特征在于:所述的项目平均评分向量由商品的评分日志获得,通过将所有用户对某个商品的评分取得评分平均值,然后扫描用户的评分日志,将用户的评分和项目的平均评分做减法构成用户平均差评分向量,将新生成的用户平均差评分向量与同现矩阵做乘法构成推荐因子向量,将推荐因子向量与平均评分向量相加成为最终推荐值推荐给用户。

主权项:一种hadoop实现的itemCF推荐方法,包括Hadoop集群平台、用户对商品的评分日志、项目平均评分向量、同现矩阵、平均差评分向量、推荐因子向量,其特征在于:所述的项目平均评分向量由商品的评分日志获得,通过将所有用户对某个商品的评分取得评分平均值,然后扫描用户的评分日志,将用户的评分和项目的平均评分做减法构成用户平均差评分向量,将新生成的用户平均差评分向量与同现矩阵做乘法构成推荐因子向量,将推荐因子向量与平均评分向量相加成为最终推荐值推荐给用户。

全文数据:一种hadoop实现的ItemGF推荐方法技术领域[0001]本发明涉及一种数据处理方法,尤其涉及一种计算机大数据处理方法。背景技术[0002]随着电子商务的快速发展,电子商务网站以其便捷、实惠的特点征服了越来越多的用户,人们越来越倾向于网上购物。同时,商家所提供的商品种类和数量都急剧增长。海量的商品信息同时呈现使得用户感觉无所适从,很难从中找到自己真正想要的商品,信息的使用效率反而降低,因此,如何根据每个用户的偏好信息从电子商务网站海量信息中寻找满足特定用户的需求的商品推荐给用户,已经成为当前一个亟待解决的问题。发明内容[0003]Hadoop系统是一个分布式存储和计算平台,能够对海量数据进行可靠、高效的处理,其核心架构分为两部分:Hadoop分布式文系统,简称HDFS:Hadoop分布式计算架构MapReduce,用于大数据的计算分析处理。Mahout是Hadoop家族的一员,支持Hadoop的MapReduce实现。并提供一些可扩展的机器学习领域的经典算法,ItemCF是基于项目的协同过滤推荐算法,通过用户对不同item的评分来评测item之间的相似性,基于item之间的相似性做出推荐。Mahout中实现分布式的ItemCF主要分三步:构建用户向量、构造同现矩阵、产生推荐结果。[0004]传统的对基于项目的协同过滤算法实现比较简单,这样做使得推荐的结果不够准确,造成不准确的原因有两点:1.相似度的计算只考虑项目被共同评价的次数,不再依赖推荐评分;2.在最后计算对用户的预测偏好值时只是简单的将所有的值加在一起,而没有对和用户评分较高的项目相似的项目奖励推荐值,也没有对与用户评分较低的项目相似的项目惩罚推荐值。[0005]针对Mahout中基于项目协同过滤推荐算法不够准确的问题,本发明提出了基于平均分向量的推荐方法。计算预测评分使用所有用户对每一个项目的平均评分,构建所有项目的平均分向量,即其中i是第ii=l,2,...,n项的平均评分。[0006]重新将预测评分的计算方式更改为下面的计算方式:其中,j表示的是同现矩阵的行号。[0007]步骤一、搭建Hadoop集群平台,每台计算机安装操作系统和Hadoop软件。[0008]步骤二、数据预处理,根据要求对项目评分日志进行清洗,删除与任务不相关的数据并合并某些记录,对用户请求页面时发生错误的记录进行适当的处理。[0009]步骤三:计算项目的平均分向量,使用MapReduce将所有用户对某个商品的评分求均值,输入数据为用户的评分日志。[0010]步骤四:构建用户向量,扫描所有的用户评分日志,将用户的评分与项目的平均评分向量作减运算,输入数据为用户的评分日志,输出数据为用户向量。[0011]步骤五:构建同现矩阵,将上一步骤产生的用户向量,转换成同现矩阵,该同现矩阵中的值表示两个项目被相同用户喜欢的次数。[0012]步骤六:矩阵乘法,将用户向量及同现矩阵作矩阵乘法计算用户对商品的偏好值,使用map函数链的方式,将同现矩阵列包装的map函数及用户评分分解map函数的输出作为矩阵部分积输入。[0013]步骤七:产生推荐:推荐值计算出来后并对推荐值排序。[0014]本发明的显著效果在于通过提出一种新的基于平均分向量的方法,可以很好的解决Hadoop在基于项目的协同过滤推荐方法中推荐的结果不够准确的问题。附图说明[0015]图1为本发明的结构图。具体实施方式[0016]根据图1所示,本发明的方法具体为步骤一、搭建Hadoop集群平台,每台计算机安装操作系统和Hadoop软件,根据Hadoop的要求,保持所有所有机器上Hadoop的部署目录结构及用户名的账号相同。配置SSH无密钥访问方式。在Hadoop中,主节点是以SSH的方式来管理各个从节点上的守护进程,因此需要配置SSH使用无密码公钥认证的方式。在Hadoop集群的每台机器上安装JDK环境,并配置系统的java环境,然后通过Hadoopconfig目录下的hadoop-env.sh中设置Hadoop需要的java环境变量,通过将JAVA_H0ME的值来设置java环境变量。配置1^1〇0口运行参数,主要在30代-3;^.叉1111,1111^-3;^.叉1111和11^代1-3;[七6.叉1111三个文件中配置参数。[0017]步骤二、数据预处理,根据要求对项目评分日志进行清洗,删除与任务不相关的数据并合并某些记录,对用户请求页面时发生错误的记录进行适当的处理。[0018]步骤三:计算项目的平均评分向量,使用MapReduce将所有用户对某个商品的评分求均值,输入数据为用户的评分日志。格式为:用户ID商品ID评分值。输出数据为项目的平均评分,其格式为:商品ID评分值。[0019]步骤四:构建用户向量,扫描所有的用户评分日志,将用户的评分与项目的平均评分向量作减运算,输入数据为用户的评分日志,输出数据为用户向量。用户向量的格式:用户ID[商品IDl:评分差值,商品ID2:评分差值,...,商品IDn:评分差值]。[0020]步骤五:构建同现矩阵,将上一步骤产生的用户向量,转换成同现矩阵,该同现矩阵中的值表示两个项目被相同用户喜欢的次数。[0021]步骤六:矩阵乘法,将用户向量及同现矩阵作矩阵乘法计算用户对商品的偏好值,使用map函数链的方式,将同现矩阵列包装的map函数及用户评分分解map函数的输出作为矩阵部分积输入。[0022]步骤七:产生推荐:推荐值计算出来后并对推荐值排序。

权利要求:I.一种hadoop实现的itemCF推荐方法,包括Hadoop集群平台、用户对商品的评分日志、项目平均评分向量、同现矩阵、平均差评分向量、推荐因子向量,其特征在于:所述的项目平均评分向量由商品的评分日志获得,通过将所有用户对某个商品的评分取得评分平均值,然后扫描用户的评分日志,将用户的评分和项目的平均评分做减法构成用户平均差评分向量,将新生成的用户平均差评分向量与同现矩阵做乘法构成推荐因子向量,将推荐因子向量与平均评分向量相加成为最终推荐值推荐给用户。

百度查询: 山东商务职业学院 一种hadoop实现的ItemCF推荐方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。