买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于用户浏览行为的用户属性值计算方法和计算装置_阿里巴巴集团控股有限公司_201610104707.6 

申请/专利权人:阿里巴巴集团控股有限公司

申请日:2016-02-25

公开(公告)日:2020-07-03

公开(公告)号:CN107122367B

主分类号:G06F16/9535(20190101)

分类号:G06F16/9535(20190101);G06F16/954(20190101)

优先权:

专利状态码:有效-授权

法律状态:2020.07.03#授权;2017.09.29#实质审查的生效;2017.09.01#公开

摘要:本申请的具体实施例提供了一种基于用户浏览行为的用户属性值计算方法和计算装置,其中,用户属性值计算方法包括:从用户信息数据库中调取用户日常访问的历史网页;根据页面属性值数据库获取所述历史网页对应的页面属性值;根据所述页面属性值获得对应用户的用户属性值。用户属性值计算装置包括:调度设备,用于从用户信息数据库中调取用户日常访问的历史网页;获取设备,用于根据页面属性值数据库获取所述历史网页对应的页面属性值;获得设备,用于根据所述页面属性值获得对应用户的用户属性值。本申请不需要用户申请即可以充分了解用户的属性信息,便于有针对性地进行服务推送或信息提供。

主权项:1.一种基于用户浏览行为的用户属性值计算方法,其特征在于,该用户属性值计算方法包括:从用户信息数据库中调取用户日常访问的历史网页;根据页面属性值数据库获取所述历史网页对应的页面属性值;以及根据所述页面属性值获得对应用户的用户属性值;其中,所述页面属性值数据库的具体生成步骤包括:收集与目标属性相关的站点网页;处理所述站点网页从而获得对应所述站点网页的词表;以网页为单位从所述词表随机选取预定比例的词,计算随机选取的每个词的属性值;根据所述属性值获得每个所述站点网页对应的页面属性值;以及根据所述站点网页对应的页面属性值生成页面属性值数据库;其中,随机选取的词的所述属性值Pdi的计算公式为: 其中,|dij|为词表中第di个词在随机选取的第j个站点网页cj中出现的次数,i≤s,s为词表中词的数量;yj为第j个站点网页的标签,标签为+1表示正属性,标签为-1表示负属性;z为随机选取的站点网页的数量,z≤m,j≤z,m为站点网页的数量。

全文数据:基于用户浏览行为的用户属性值计算方法和计算装置技术领域[0001]本申请涉及计算机领域,尤其涉及一种获取用户属性值的方法,具体来说就是一种基于用户浏览行为的用户属性值计算方法和计算装置。背景技术[0002]随着互联网的发展,特别是近年来互联网与金融的有机结合,如何利用互联网中积累的大数据信息有效服务于金融行业成为一个亟待解决的技术问题。在大数据时代,用户访问的绝大部分日志信息都会被记录下来,包括用户的登录信息、浏览行为信息、鼠标移动信息、击键行为信息以及用户属性信息等等。由于不同的网页站点往往具有不同的主题,譬如有些网页站点主要关注金融领域,有些网页站点主要关注科技领域,还有些网页站点主要关注政治领域。因此,根据用户日常浏览的网页,可以分析出用户的多种行为。[0003]具体到互联网金融领域,金融领域的网页站点一般可以包括投资理财相关的页面和借贷相关的页面,通常来说,一个有投资需求的用户更多地会去访问投资理财方面的页面,关注投资收益率和风险等方面的信息;而一个具有借贷需求的用户更多地会去访问借款方面的页面,关注借款利率和借款期限等方面信息。因而,根据用户的日常浏览的有关金融方面的网页,可以得知用户的资金需求。[0004]了解用户的资金需求属性值,无论是在用户的营销方面,还是在资金的融资配置方面都具有很大的用处。因此,本领域技术人员亟待研发出一种基于用户浏览行为获得用户资金需求的方法,以便金融服务商利用互联网中的大数据信息有效服务于互联网金融行业,促进互联网金融行业的发展。发明内容[0005]有鉴于此,本申请要解决的技术问题就是提供一种基于用户浏览行为的用户属性值计算方法和计算装置,解决了现有技术中无法根据用户浏览网页的行为获得用户属性值的问题。[0006]为了解决上述问题,本申请的具体实施方式提供一种基于用户浏览行为的用户属性值计算方法,包括:从用户信息数据库中调取用户日常访问的历史网页;根据页面属性值数据库获取所述历史网页对应的页面属性值;根据所述页面属性值获得对应用户的用户属性值。[0007]本申请的另一具体实施方式还提供一种基于用户浏览行为的用户属性值计算装置,包括:调度设备,用于从用户信息数据库中调取用户日常访问的历史网页;获取设备,用于根据页面属性值数据库获取所述历史网页对应的页面属性值;获得设备,用于根据所述页面属性值获得对应用户的用户属性值。[0008]根据本申请的上述具体实施方式,可以得知基于用户浏览行为的用户属性值计算方法和计算装置至少具有以下有效效果或特点:主要是通过对用户日常访问网站的日志进行分析,对访问页面进行大数据信息挖掘,设计统计模型判别出用户的属性值,不需要用户进行申请操作即可以充分了解用户的需求,便于有针对性地向用户推送信息或提供服务,进而促使国民经济的快速发展。[0009]当然实施本申请的任一产品或者方法必不一定需要同时达到以上所述的所有优点。[0010]应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本申请所欲主张的范围。附图说明[0011]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。[0012]图1为本申请具体实施方式提供的一种基于用户浏览行为的用户属性值计算方法的流程图;[0013]图2为本申请具体实施方式提供的一种基于用户浏览行为的页面属性值数据库的生成流程图;[0014]图3为本申请具体实施方式提供的一种基于用户浏览行为的用户属性值计算方法的综合流程图;[0015]图4为本申请具体实施方式提供的一种基于用户浏览行为的用户属性值计算装置的框图;[0016]图5为本申请具体实施方式提供的一种基于用户浏览行为的网页属性值的求解单元的框图;[0017]图6为本申请具体实施方式提供的一种基于用户浏览行为的用户属性值计算装置的总体框图。具体实施方式[0018]为使本申请实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本申请所揭示内容的精神,任何所属技术领域技术人员在了解本申请内容的实施例后,当可由本申请内容所教示的技术,加以改变及修饰,其并不脱离本申请内容的精神与范围。[0019]本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。另外,在附图及实施方式中所使用相同或类似标号的元件构件是用来代表相同或类似部分。[0020]关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本申请,其仅为了区别以相同技术用语描述的元件或操作。[0021]关于本文中所使用的方向用语,例如:上、下、左、右、前或后等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本创作。[0022]关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。[0023]关于本文中所使用的“及或”,包括所述事物的任一或全部组合。[0024]关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以微变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言,此类用语所修饰的微变化或误差的范围在部分实施例中可为20%,在部分实施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员应当了解,前述提及的数值可依实际需求而调整,并不以此为限。[0025]某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。[0026]图1为本申请具体实施方式提供的一种基于用户浏览行为的用户属性值计算方法的流程图,本申请通过对用户日常访问网站的日志进行分析,对访问网页进行数据挖掘,获得用户对需求例如投资需求或者借贷需求),不需要用户进行申请操作即可以充分了解用户的需求,便于有针对性地向用户推送信息或提供服务。[0027]该附图具体实施方式包括:[0028]步骤101:从用户信息数据库中调取用户日常访问的历史网页。本申请的具体实施例中,收集各个业务场景中用户浏览的网页,假如把用户A访问的网页记为UA=Iul,u2,…,un},其中ui表示用户A访问的每一个网页的URL,η表示在预定历史阶段中用户A访问的网页的数量,预定历史阶段可以为过去一个月、半年、一年、三年等,历史网页包括用户日常访问的多种网页,包括新闻类网页、科技类网页、理财借贷类网页、政治娱乐类网页等。用户信息数据库可以为某一大型网站记录的用户浏览信息,也可以为多家网站联合记录的用户浏览信息,存储在一个多家共享的数据库中,供多家服务系统调用,本申请不以此为限。[0029]步骤102:滤除历史网页中与目标属性无关的网页。本申请的具体实施例中,为了节省后续处理开销,可以根据业务需求或目标属性指定后续待分析的网页,譬如过滤掉历史网页中不属于指定站点的网页,即保留与理财借贷相关的站点(网站)的网页,譬如陆金所、人人贷和你我贷等相关的投资理财和借贷相关的站点网页。指定的待分析网页的URL列表为?=出32,"_,伽},行表示第1个指定的1^,其中111表示指定的1]1^的数量。[0030]本申请的具体实施例中,步骤102进一步包括:[0031]步骤1021:收集与目标属性相关的站点网页。假如本申请的目标属性为了获取用户的资金需要信息,那么与理财借贷相关的站点包括:陆金所、人人贷、你我贷等与投资理财和借贷融资相关的站点。[0032]步骤1022:根据URL滤除历史网页中不属于所述站点网页的网页。由于每个网页都具有唯一的URL,根据URL可以轻易将不属于这些指定站点的历史网页过滤掉,从而增加了用户的用户属性值的精准性。[0033]步骤103:根据页面属性值数据库获取所述历史网页对应的页面属性值。历史网页对应的页面属性值属于页面属性值数据库内的数据,页面属性值数据库的具体生成方法下方中将详细阐述,页面属性值表示该页面的倾向性,例如与理财借贷相关的网页,如果用-1表示借贷,+1表示理财,那么页面属性值介于-1和+1之间,页面属性值越偏向于-1,表示该页面的内容越与借贷相关,页面属性值越偏向于+1,表示该页面的内容越与理财相关。[0034]步骤104:根据所述页面属性值获得对应用户的用户属性值。用户属性值表示用户的目标倾向性,假如利用区间[-1,+1]表示用户的用户属性值,如果用-1表示用户有借贷需求,+1表示用户有理财需求,那么用户属性值越偏向于-1,表示该用户的借贷需求越强烈,用户属性值越偏向于+1,表示该用户的投资需求越强烈,本申请不以此为限。[0035]本申请的具体实施例中,PA即为用户A对用户属性值判别结果,其中-15PAH1,PA越偏向1表示用户A越有投资理财的用户属性值,PA越偏向-1表示用户A越有借贷方面的用户属性值。[0036]本申请的具体实施例中,根据所述页面属性值获得对应用户的用户属性值,具体包括:[0037]步骤1041:获取用户访问每个历史网页的访问时间。在记录用户访问历史网页的同时,记录用户访问每个历史网页的访问时间。[0038]步骤1042:根据所述访问时间给对应的所述页面属性值分配权值。通常情况下,访问时间距离现在的时间越久,给该被访问的历史页面分配的权值越小,主要考虑到用户在不同时期有不同的目标属性,通常距离当前最近的活动最能体现用户的目标属性。[0039]步骤1043:根据所述页面属性值和所述权值获得对应用户的用户属性值。为了精确获得当前时刻用户的用户属性值,本申请考虑到在不同时间段,用户属性值也不同,譬如用户在去年的时候可能有投资理财的需求,而在今年却又有借贷融资的需求,距离现在越久远的访问记录访问的网页对目前判别用户属性值的作用越小,相反距离现在越近的访问记录对于了解用户属性值提供的可行度越大,因此需要根据时间对用户访问的网页的属性值进行衰减,一般情况下使用指数衰减。本申请的具体实施例中,定义decayti为衰减函数,^〇71:;〇=61口-51:;〇,51:;〇大于0,51:;〇表示时间1:;[距离当前时刻的时间,1:;[表示用户A访问历史网页的时间,0decayti1。[0040]本申请的具体实施例中,所述用户属性值PA的具体计算公式可以为:[0041][0042]其中,PA为用户A的当前用户属性值,-IPAH1;^^7^为衰减函数,decayti=exp_5ti,5ti大于0,5ti表示用户A访问历史网页的时间ti距离当前时刻的时间,ti表示用户A访问历史网页的时间,0decaytiI;HA表示用户A访问的历史网页;HA,ti表示用户A在ti时刻访问的历史网页;PHA,ti表示用户A在ti时刻访问的历史网页的页面属性值;下标HA,tiEHA表示用户A在ti时刻访问的历史网页属于用户A访问的历史网页。[0043]步骤105:根据所述用户属性值信息向对应用户推送特定信息。获得用户的用户属性值信息后,可以针对性地向用户推送相应的服务信息或服务咨询信息,或者通过第三方途径向用户推送特定信息,例如,通过移动通信网络向用户的移动终端推送特定信息。[0044]图2为本申请具体实施方式提供的一种基于用户浏览行为的页面属性值数据库的生成流程图,如图2所示,收集与目标属性相关的站点网页(用户日常访问的历史网页属于站点网页的一部分),根据所有用户对每个站点网页的访问汇总频次,决定每个站点网页的处理频率,根据处理频率对网页进行处理,然后依次进行归一化、分词、滤词处理后,选取全部站点网页的词,或者随机选取部分站点网页的词组成字典词表,并计算字典词表中每个词的属性值,最后利用字典词表中的词求解每个站点网页的页面属性值。[0045]该附图具体实施方式包括:[0046]步骤100:收集与目标属性相关的站点网页。假如本申请规定的目标属性是为了获取用户的资金需要信息,那么与目标属性相关的站点网页就是与金融业务相关的网页,例如,与理财借贷相关的站点包括:陆金所、人人贷、你我贷等与投资理财和借贷融资相关的站点。本申请的其它具体实施例中,可以前期收集过程中不指定与目标属性相关的站点网页,后期处理过程中可以根据网页的URL,滤除不属于指定站点(与理财借贷相关的站点)的站点网页,从而节省了后续处理开销。[0047]步骤200:处理所述站点网页从而获得对应所述站点网页的词表。[0048]本申请的具体实施例中,步骤200具体可以包括:[0049]步骤2001:获得所述站点网页的访问热度,以便根据所述访问热度获取所述站点网页的信息。统计每个用户在站点网页fi上的访问频次vi,从而对每个用户访问的站点网页进行向量化,例如,可以把用户A访问各个站点网页的访问频次表示为VA={VA1,VΑ2,···,νΑπι},如果用户没有访问过某个站点网页,那么对应的访问次数设置为0;得到每个用户对不同站点网页fi的访问频次,可以得到每个站点网页的访问汇总频次,则站点网页fi的汇总后的访问汇总频次Vfi可以表示为:[0050][0051]其中,VAi表示其中一个用户访问各个站点网页的频次;AealIuser表示所有访问规定站点的用户;那么,本申请具体实施例中可以将待分析的站点网页的访问汇总频次向量化为:VF={Vfl,Vf2,···,Vfm},从而获得站点网页的访问热度。[0052]步骤2002:获取所述站点网页的信息。本申请的具体实施方式中,可以利用网页爬虫技术获取站点网页的信息,首先根据所述访问汇总频次访问热度确定每个站点网页的爬虫频率,对待分析的站点网页进行爬虫,考虑到爬虫需要消耗大量的系统资源,可以根据不同站点网页的访问热度设计不同的爬虫策略,例如可以根据向量化后的站点网页F的访问汇总频次确定某个站点网页的访问热度,访问汇总频次较高的站点网页可以重点爬取,提高相应的爬虫频率,从而可以应对站点对网页的更新,而对于一些访问热度相对较低的站点网页,可以稍微降低爬虫频率;确定爬虫频率后,可以设计爬虫程序爬取不同访问热度的站点网页。根据爬虫频率对所有网页进行爬虫获得对应每个站点网页的信息。本申请具体实施例中,可以把爬取后的信息记为C={cl,C2,···,™},其中ci即为对站点网页fi进行爬虫后得到的信息。[0053]步骤2003:对所述信息进行归一化处理获得标准信息。归一化处理包括:把所有的大写字母转化为小写字母;把繁体字转化成简体字;把半角符号的字符转化成全角符号的字符;使用同义词处理算法替换掉短文本中的同义词,完成对信息C的归一化处理。[0054]步骤2004:对所述标准信息分词处理从而获得对应所述站点网页的词表。即把标准信息转化成多个词。本申请的具体实施例中,还可以基于停用词表滤除词表中的停用词。在进行自然语言处理中,一般情况下会把一些无语义的或者与业务无关的字或词组以及标点符号放在一张表中,在后续分析中对于在该表中的词语不进行分析,一般把这个表称为停用词表。本申请具体实施例中,把停用词表中的停用词记为S={si,s2,…,st},其中,si表示第i个停用词,t表示停用词的数量。[0055]步骤300:以网页为单位从所述词表随机选取预定比例的词,以便计算随机选取的词的属性值。本申请具体实施例中,为了提高用户属性值计算的精确性,可以选取所有站点网页对应的词(即词表组成字典词表,为了节省处理资源,也可以以网页为单位随机从词表选取预定比例的词组成字典词表,假定选取的站点网页的数量为Z。另外,在此步骤之后,需要对选取的站点网页进行标注,即把每一个站点网页标注为Y={+1,-1}两类,如果本申请的目标属性为了获得用户的资金需求信息,那么+1、-1分别表示用户对资金有投资和借贷的需求,选取的站点网页可以表示为WY={Wci,yi11iz,yieY,i为正整数},WCi表示选取的站点网页进行分词后的结果,yi表示给选取的站点网页ci打的标签+1或者_1。本申请具体实施例中,假定选取的站点网页中共有s个不同的词,第i个不同的词使用di表不,所有的词构建成了一个字典词表D,字典词表D可以表不为D={dl,d2,…,ds}。[0056]步骤400:计算随机选取的每个词的属性值。如果选取所有站点网页对应的词(BP词表组成字典词表,即计算所述词表中每个词的属性值此时字典词表与词表相同),如果以网页为单位随机从词表选取预定比例的词组成字典词表,即选取部分站点网页对应的词组成字典词表,即计算字典词表中每个词的属性值此时字典词表为词表的子集)。本申请具体实施例中,对选取的站点网页标注后,可以统计出字典词表D中第i个词di在随机选取第j个站点网页cj中出现的次数,记为|dijI,计算每个词的属性值,字典词表D中第i个词di的属性值计算为:[0057][0058]其中,|dijI为字典词表中第di个词在随机选取的第j个站点网页cj中出现的次数,is,s为字典词表中词的数量;yj为第j个站点网页的标签,标签为+1表示有投资需求,标签为-1表示有借贷需求;z为随机选取的站点网页的数量,z为所有进行爬虫处理的站点网页的数量。[0059]步骤500:根据所述属性值获得每个所述站点网页的页面属性值。本申请具体实施例中,可以得到每一个站点网页包括随机选取的站点网页以及未被选取的站点网页,即所有被爬虫处理的站点网页)的页面属性值,每个站点网页ci的页面属性值PCi的计算公式为:[0060][0061]其中,Pdi为出现在字典词表中且出现在站点网页ci中的词的属性值;D表示字典词表;下标dieWcinD用于限定词di既出现在站点网页ci中又属于字典词表中的词;ΣdieWcinDpdi表示累积站点网页ci中所有词的属性值;IciI表示站点网页ci中词的数量。[0062]步骤600:根据所述站点网页对应的页面属性值生成页面属性值数据库。将所有站点网页对应的页面属性值存储在一个数据库中,用于计算用户属性值。[0063]图3为本申请具体实施方式提供的一种基于用户浏览行为的用户属性值计算方法的综合流程图,如图3所示,对指定站点的所有站点网页的访问热度进行统计,根据访问热度对所有站点网页进行爬虫、归一化、分词、过滤,获得对应每个站点网页的网页词表;选取部分或者全部站点网页的词组成字典词表,并求出字典词表中的每个词的属性值;再利用字典词表中的每个词的属性值求取指定站点的每个站点网页对应的页面属性值。对于某一个具体用户A,收集该用户A的历史访问记录,统计出用户A访问的指定站点的站点网页,根据用户A访问的指定站点的站点网页的页面属性值,以及用户A访问站点网页的访问时刻,获得用户A当前时刻的用户属性值。[0064]举例来说,指定两个与理财借贷相关的站点,其中一个与理财相关的站点X,具有三个网页乂14243;另一个与借贷相关的站点¥,具有两个网页¥1、¥2。那么网页乂142、乂3标注为+1,表示浏览用户对资金有投资需求;网页Yl、Y2标注为-1,表示浏览用户对资金有借贷需求。指定的待分析URL列表为?=^142434445},其中414243依次对应乂1、父2、X3,f4、f5依次对应Υ1、Υ2。假定共有三个用户A、B、C访问了站点Χ、Υ,假定用户A访问各个网页的频次表示为VA={1,1,1,1,0},用户B访问各个网页的频次表示为VA={1,0,1,1,1},用户C访问各个网页的频次表示为VA={0,0,1,0,1},那么每个网页访问汇总频次V$={2,1,3,2,2},显示网页乂3的访问频次最大,即网页乂3的访问热度最高,因此在制定爬虫策略时,需要对网页Χ3进行重点爬虫,相反,对网页Χ2可以稍微降低爬虫频率。对网页爬虫后的文本信息记为C={cl,c2,c3,c4,c5},文本信息记为C进行归一化、分词、滤词后,得到对应于网页1、乂2、乂3、¥1、¥2的词,可以记为¥^={¥。|1幻、|^|},其中¥1」表示第1个网页中的第j个词,IciI表示第i个网页最后获得的词的数量,假定IclI、Ic2I、Ic3I、Ic4、|c5|分别为15、10、20、30、5,如果选取所有网页的词组成字典词表D,那么字典词表中的词少于等于80个主要考虑到同一页面分词后可能包含相同的词,并且不同网页分词后也可能包含相同的词,所以字典词表中词的数量可能会少于网页中词的数量之和),如果仅选取网页XUYl,那么字典词表中的词少于等于45个。为了便于说明,假定网页分词后形成的词各不相同,且不同网页分词后形成的词也各不相同,选取所有网页的词组成字典词表D={dl,d2,…,d80},计算字典词表D中每个词的属性值Pdi,字典词表D中第i个词di的属性值计算为:[0065][0066]其中,|dijI为字典词表中第di个词在第j个网页cj中出现的次数,is,s为字典词表中词的数量;yj为第j个网页的标签,标签为+1表示有投资需求,标签为-1表示有借贷需求。[0067]根据每个词的属性值Pdi可以得到每个网页的网页属性值PCi,即每个网页内所有词的属性值求和后,除以该网页ci中词的数量,每个网页ci的网页属性值PCi的计算公式为:[0068][0069]其中,Pdi为出现在字典词表中且出现在网页ci中的词的属性值;D表示字典词表;下标diewciPlD用于限定词di既出现在网页ci中又属于字典词表中的词;2diewcinDpdi表示累积网页ci中所有词的属性值;|ciI表示网页ci中词的数量。[0070]如果需要求用户A当前时刻的用户属性值PA,需要用到用户A访问的每个网页的网页属性值和用户A访问每个网页的访问时间,前面已经给出用户A访问各个网页的频次表示为VA={I,I,I,I,O},即用户A没有访问网页Y2,由于用户A访问网页XI、X2、X3、Y1时刻距离当前时刻的时间也可以获得,那么用户A的用户属性值PA的具体计算公式为:[0071][0072]其中,PA为用户A在当前时刻的用户属性值,-1PAHl;decayti为衰减函数,decayti=exp_5ti,5ti大于0,5ti表示ti时刻距离当前时刻的时间,时间单位可以为小时、天、星期、月、或年等,ti表示用户A访问网页的时刻,0decaytiI;HA表示用户A访问的网页;HA,ti表示用户A在ti时刻访问的网页;PHA,ti表示用户A在ti时刻访问网页的网页属性值;下标HA,tiEHA表示用户A在ti时刻访问的网页属于用户A访问的网页。同理可以求出用户B、C的用户属性值PB和PC。[0073]假定网页ci的网页属性值Pci={0.8,0.7,0.5,-0.6,-0.9},用户A访问各个网页的衰减函数的值分别为decayti={0.4,0.5,0.8,0.2,0},那么用户A的用户属性值,可以得知用户A有较为强烈的投资需求,可以向用户A少慰讎与理财ffi关的需求信息洞理,用户Bi方问各个网页的频欠表示为VA={1,0,1,1,1},假定用户B访问各个网页的衰减函数的值分别为也呀廿={0.4,0,0.8,0.2,0.9},那么同理可以得知用户B的用户属性值P⑶爻可以得知用户蔽微的借贷需求,可以向用户妙漫推送与借贷相关的需求信息;用户C访问各个网页的频次表示为VA={0,0,1,0,1},假定用户C访问各个网页的衰减函数的值分别为decayti={0,0,0.2,0,0.9},那么用户C的用户属性值可以得知用户C有强烈的借贷需求,可以向用户C大量推送与借贷相关的需求信息。[0074]图4为本申请具体实施方式提供的一种基于用户浏览行为的用户属性值计算装置的框图,如图4所示,通过对用户日常访问网站的日志进行分析,对访问网页进行文本数据挖掘,获得用户对资金的需求投资需求或者借贷需求),不需要用户申请即可以充分了解用户对资金的需求投资需求或者借贷需求),便于投资方进行精准营销和资金投放,同时也便于融资方更有针对性地进行理财产品推广及资金吸纳。[0075]该附图所示的具体实施方式中,该用户属性值计算装置包括调度设备10、过滤设备20、获取设备30、获得设备40、信息推送设备50,其中,调度设备10用于从用户信息数据库中调取用户日常访问的历史网页;过滤设备20用于滤除历史网页中与目标属性无关的网页,以便计算经过滤除处理的历史网页的页面属性值;获取设备30用于根据页面属性值数据库获取所述历史网页对应的页面属性值;获得设备40用于根据所述页面属性值获得对应用户的用户属性值;信息推送设备50用于根据所述用户属性值向对应用户推送特定信息。其中,用户信息数据库可以为某一大型网站记录的用户浏览信息,也可以为多家网站联合记录的用户浏览信息,存储在一个多家共享的数据库中,供多家服务系统调用,本申请不以此为限。[0076]再次参见图4,所述获得设备40具体包括获取单元401、权值分配单元402、计算单元403,其中,获取单元401用于获取用户访问每个历史网页的访问时间;权值分配单元402用于根据所述访问时间给对应的所述页面属性值分配权值;计算单元403用于根据所述页面属性值和所述权值获得对应用户的用户属性值。[0077]图5为本申请具体实施方式提供的一种基于用户浏览行为的网页属性值的求解单元的框图,如图5所示,根据所有用户对每个站点网页的访问汇总频次,决定每个站点网页的爬虫频率,根据爬虫频率对站点网页进行爬虫,然后依次进行归一化、分词、滤词处理后,选取全部站点网页的词,或者随机选取部分站点网页的词组成字典词表,并计算字典词表中每个词的属性值,利用字典词表中的词求解每个网页的网页属性值,最后根据所述站点网页对应的页面属性值生成组成页面属性值数据库。[0078]该附图所示的具体实施方式中,页面属性值数据库的生成单元1,具体包括收集模块11、处理模块12、词选取模块13、计算模块14、获取模块15、生成模块16,其中,收集模块11用于收集与目标属性相关的站点网页;处理模块12用于处理所述站点网页从而获得对应所述站点网页的词表;词选取模块13用于以网页为单位从所述词表随机选取预定比例的词,以便计算随机选取的词的属性值;计算模块14用于计算所述词表中每个词的属性值;获取模块15用于根据所述属性值获得每个所述站点网页的页面属性值;生成模块16用于根据所述站点网页对应的页面属性值生成页面属性值数据库。[0079]本申请一个具体实施方式中,所述处理模块12进一步包括获得子模块121、获取子模块122、归一化子模块123、分词子模块124,其中,获得子模块121用于获得所述站点网页的访问热度,以便根据所述访问热度获取所述站点网页的信息;获取子模块122用于获取所述站点网页的信息;归一化子模块123用于对所述信息进行归一化处理获得标准信息;分词子模块124用于对所述标准信息分词处理从而获得对应所述站点网页的词表。[0080]图6为本申请具体实施方式提供的一种基于用户浏览行为的用户属性值计算装置的总体框图,如图6所示,收集模块11用于收集与目标属性相关的站点网页;处理模块12对站点网页进行爬虫、归一化、分词、过滤处理,从而获得对应所述站点网页的词表,即每个站点网页上可能有多个同样的词,但由于进行了归一化处理,不存在近义词、同义词,过滤处理主要指利用停用词表过滤掉词表中无语义或者与业务无关的字、词及标点符号;词选取模块13以网页为单位从所述词表随机选取预定比例的词,以网页为单位就是指随机选取站点网页,那么被选取的站点网页中的词都识为被选取;计算模块14计算所述词表中每个词的属性值,如果选取全部的站点网页,此时的词表包括了所有站点网页中的词,如果以网页为单位选取部分站点网页,此时的词表仅包括被选取的站点网页中的词,这样可以节省数据处理量,在大数据处理中,全部站点网页的数量非常巨大,随机选取部分站点网页,基本上就能涵盖住所有站点网页中出现的词;获取模块15根据站点网页中每个词的属性值获得该站点网页的页面属性值。举例来说,对于某一个具体用户A,收集模块11用于收集与目标属性相关的站点网页,处理模块12处理站点网页从而获得对应所述站点网页的词表,计算模块14计算所述词表中每个词的属性值;获取模块15根据所述属性值获得用户访问过的每个所述站点网页的页面属性值,获得用户A当前时刻的用户属性值。[0081]本申请具体实施方式提供一种基于用户浏览行为的用户属性值计算方法和计算装置,利用大数据处理技术计算出与目标属性相关站点的所有网页的网页属性值,利用云技术将所有用户的历史浏览信息收集到一个数据库中,根据每个用户的历史浏览网页及浏览网页的时间,可以得到对应用户的用户属性值,根据用户属性值可以针对性地进行信息推送或服务提供等操作,从而促进网络大数据时代的发展,进而促使国民经济的快速发展。[0082]上述的本申请实施例可在各种硬件、软件编码或两者组合中进行实施。例如,本申请的实施例也可为在数据信号处理器DigitalSignalProcessor,DSP中执行的执行上述程序的程序代码。本申请也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列FieldProgrammableGateArray,FPGA执行的多种功能。可根据本申请配置上述处理器执行特定任务,其通过执行定义了本申请揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而,根据本申请执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本申请的精神与范围。[0083]以上所述仅为本申请示意性的具体实施方式,在不脱离本申请的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本申请保护的范围。

权利要求:1.一种基于用户浏览行为的用户属性值计算方法,其特征在于,该用户属性值计算方法包括:从用户信息数据库中调取用户日常访问的历史网页;根据页面属性值数据库获取所述历史网页对应的页面属性值;以及根据所述页面属性值获得对应用户的用户属性值。2.如权利要求1所述的基于用户浏览行为的用户属性值计算方法,其特征在于,根据页面属性值数据库获取所述历史网页对应的页面属性值的步骤之前,该用户属性值计算方法还包括:滤除历史网页中与目标属性无关的网页,以便计算经过滤除处理的历史网页的页面属性值。3.如权利要求2所述的基于用户浏览行为的用户属性值计算方法,其特征在于,滤除历史网页中与目标属性无关的网页,具体包括:收集与目标属性相关的站点网页;以及根据URL滤除历史网页中不属于所述站点网页的网页。4.如权利要求1所述的基于用户浏览行为的用户属性值计算方法,其特征在于,根据所述页面属性值获得对应用户的用户属性值的步骤之后,该用户属性值计算方法还包括:根据所述用户属性值向对应用户推送特定信息。5.如权利要求1所述的基于用户浏览行为的用户属性值计算方法,其特征在于,根据所述页面属性值获得对应用户的用户属性值,具体包括:获取用户访问每个历史网页的访问时间;根据所述访问时间给对应的所述页面属性值分配权值;以及根据所述页面属性值和所述权值获得对应用户的用户属性值。6.如权利要求1所述的基于用户浏览行为的用户属性值计算方法,其特征在于,所述页面属性值数据库的具体生成步骤包括:收集与目标属性相关的站点网页;处理所述站点网页从而获得对应所述站点网页的词表;计算所述词表中每个词的属性值;根据所述属性值获得每个所述站点网页对应的页面属性值;以及根据所述站点网页对应的页面属性值生成页面属性值数据库。7.如权利要求6所述的基于用户浏览行为的用户属性值计算方法,其特征在于,处理所述站点网页,具体包括:获取所述站点网页的信息;对所述信息进行归一化处理获得标准信息;以及对所述标准信息分词处理从而获得对应所述站点网页的词表。8.如权利要求7所述的基于用户浏览行为的用户属性值计算方法,其特征在于,获取所述站点网页的信息的步骤之前,处理所述站点网页的步骤还包括:获得所述站点网页的访问热度,以便根据所述访问热度获取所述站点网页的信息。9.如权利要求6所述的基于用户浏览行为的用户属性值计算方法,其特征在于,计算所述词表中每个词的属性值的步骤之前,所述页面属性值数据库的具体生成步骤还包括:以网页为单位从所述词表随机选取预定比例的词,以便计算随机选取的词的属性值。10.如权利要求9所述的基于用户浏览行为的用户属性值计算方法,其特征在于,随机选取的词的所述属性值Pdi的计算公式为:,Σ--J^Ix-^Pydi=J-1-dijIXIvjI其中,IdijI为词表中第di个词在随机选取的第j个站点网页cj中出现的次数,is,s为词表中词的数量;yj为第j个站点网页的标签,标签为+1表示正属性,标签为-1表示负属性;z为随机选取的站点网页的数量,z为站点网页的数量。11.如权利要求6所述的基于用户浏览行为的用户属性值计算方法,其特征在于,站点网页对应的所述页面属性值PCi的计算公式为:一Σ",刮户㈣=--T^-IczI其中,Pdi为出现在词表中且同时出现在站点网页ci中的词的属性值;D表示词表;下标1:[£胃3;〇门0用于限定词1;[既出现在站点网页3;[中,又出现在词表中的词;2^〇?。加叩di表示累积站点网页ci中所有词的属性值;IciI表示对应站点网页ci中词的数量。12.—种基于用户浏览行为的用户属性值计算装置,其特征在于,该用户属性值计算装置包括:调度设备,用于从用户信息数据库中调取用户日常访问的历史网页;获取设备,用于根据页面属性值数据库获取所述历史网页对应的页面属性值;以及获得设备,用于根据所述页面属性值获得对应用户的用户属性值。13.如权利要求12所述的基于用户浏览行为的用户属性值计算装置,其特征在于,该用户属性值计算装置包括:过滤设备,用于滤除历史网页中与目标属性无关的网页,以便计算经过滤除处理的历史网页的页面属性值。14.如权利要求13所述的基于用户浏览行为的用户属性值计算装置,其特征在于,所述过滤设备具体包括:收集单元,用于收集与目标属性相关的站点网页;以及滤除单元,用于根据URL滤除历史网页中不属于所述站点网页的网页。15.如权利要求12所述的基于用户浏览行为的用户属性值计算装置,其特征在于,该用户属性值计算装置包括:信息推送设备,用于根据所述用户属性值向对应用户推送特定信息。16.如权利要求12所述的基于用户浏览行为的用户属性值计算装置,其特征在于,所述获取设备具体包括:获取单元,用于获取用户访问每个历史网页的访问时间;权值分配单元,用于根据所述访问时间给对应的所述页面属性值分配权值;以及计算单元,用于根据所述页面属性值和所述权值获得对应用户的用户属性值。17.如权利要求16所述的基于用户浏览行为的用户属性值计算装置,其特征在于,所述页面属性值数据库的生成单元,具体包括:收集模块,用于收集与目标属性相关的站点网页;处理模块,用于处理所述站点网页从而获得对应所述站点网页的词表;计算模块,用于计算所述词表中每个词的属性值;获取模块,用于根据所述属性值获得每个所述站点网页的页面属性值;以及生成模块,用于根据所述站点网页对应的页面属性值生成页面属性值数据库。18.如权利要求17所述的基于用户浏览行为的用户属性值计算装置,其特征在于,所述处理模块进一步包括:获取子模块,用于获取所述站点网页的信息;归一化子模块,用于对所述信息进行归一化处理获得标准信息;以及分词子模块,用于对所述标准信息分词处理从而获得对应所述站点网页的词表。19.如权利要求18所述的基于用户浏览行为的用户属性值计算装置,其特征在于,所述处理模块还包括:获得子模块,用于获得所述站点网页的访问热度,以便根据所述访问热度获取所述站点网页的信息。20.如权利要求17所述的基于用户浏览行为的用户属性值计算装置,其特征在于,所述求解单元还包括:词选取模块,用于以网页为单位从所述词表随机选取预定比例的词,以便计算随机选取的词的属性值。

百度查询: 阿里巴巴集团控股有限公司 基于用户浏览行为的用户属性值计算方法和计算装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。