买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于活动相似性的跨平台用户同一身份识别的方法_西北工业大学_202111389814.5 

申请/专利权人:西北工业大学

申请日:2021-11-22

公开(公告)日:2024-04-12

公开(公告)号:CN114118250B

主分类号:G06F18/22

分类号:G06F18/22;G06F18/25;G06F16/2458;G06N20/00;G06Q50/00

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2022.03.18#实质审查的生效;2022.03.01#公开

摘要:本发明公开了一种基于活动相似性的跨平台用户同一身份识别的方法,首先,结合活动轨迹中的时间和语义信息,中提取出用户的活动模式,其次,计算用户活动模式之间的相似度分数,为了区分不同兴趣点类型的重要性,我们利用逆文档频率的概念分配了不同的兴趣点类型不同的权重,再次,与自然语言中的嵌入词类似,引入兴趣点嵌入层,为每个兴趣点生成嵌入表示,然后,根据用户的活动模式与兴趣点嵌入生成用户的活动模式的矢量表示,最后,根据生成的用户活动模式的表示,计算用户活动相似性,最相似的用户具有同一自然人身份;本发明将用户在语义空间的相似度计算出来,将用户的活动习惯嵌入到低维空间,对于任何用户,可以高效找到与其最匹配的用户。

主权项:1.一种基于活动相似性的跨平台用户同一身份识别的方法,其特征在于,首先,结合活动轨迹中的时间和语义信息,提取出用户的活动模式,其次,计算用户活动模式之间的相似度分数,为了区分不同兴趣点类型的重要性,我们利用逆文档频率的概念分配了不同的兴趣点类型不同的权重,再次,与自然语言中的嵌入词类似,引入兴趣点嵌入层,为每个兴趣点生成嵌入表示,然后,根据用户的活动模式与兴趣点嵌入生成用户的活动模式的矢量表示,最后,根据生成的用户活动模式的表示,计算用户活动相似性,最相似的用户具有同一自然人身份;具体包括以下步骤:1提取用户的活动模式将用户的兴趣点轨迹表示为Tu={p1,p2,...,pt},其中pt是用户在某个时间点t访问的地址的兴趣点类型,u表示用户,考虑到用户的活动模式具有很强的周期性和可预测性,分析用户每天的活动非常有必要,将用户的兴趣点轨迹划分为以天为长度的子轨迹Tsubu,为了更好地分析用户每天的活动习惯,将一天划分为m个时间分区,分别统计用户在各个时间分区内的频繁访问的兴趣点其中表示用户ui在第j时间段访问了兴趣点pt,访问次数是nt次,定义用户每天的活动模式表示为2分析计算用户活动模式的相似度分数引入了一个新的指标来测量原始空间中用户之间活动模式的相似性,相似性分数的直觉是,相似的用户往往在类似时间出现在类似类型的地方,计算特定期间兴趣点的共发生时间,对于用户在A平台和B平台的两个用户,有和用户的时间活动相似度定义如下: 其中表示用户uA在第j个时间段的频繁兴趣点统计,因此,根据计算用户之间的语义相似性来实现用户链接结果,对于用户uA,在B平台中计算最相似的用户ui′,具有最大的时间活动相似性分数最大值并且将uA和ui′连接在一起,共享最相似的活动模式;计算得到TF-IDF值作为每个兴趣点的权重,改进的时间活动相似度分数S#uA,uB,它的共现函数定义如下: 3轨迹兴趣点的表示学习尽管得到了用户每天的时间活动记录L来表示用户的活动模式的统计,但是这个统计特征仍然不足以用来分析,首先,它不能区分不同兴趣点之间的区别,其次,计算用户的活动模式相似度,这种计算方式是基于特征的,不能用来进一步链接用户身份,因此提出了一个基于表示学习的方法,来学习用户活动模式的嵌入表示,用户的活动相似度可以轻松地通过经典的距离函数来计算;用户的兴趣点在轨迹中的分布跟自然语言中的词频分布十分相似,由此,自然语言处理中的词嵌入方法可以被用来解决兴趣点的嵌入问题,受到word2vec模型的启发,设计了POI2vec模型用来学习兴趣点的低维嵌入;具体来说,与词袋模型相似,目标兴趣点pt的概率可以通过它的上下文兴趣点预测,即通过最大化概率函数计算,条件概率由归一化指数函数定义: 其中V是数据集中所有兴趣点的集合,其中d是低维空间的维度是兴趣点pt的表示,vContext是上下文兴趣点Contextpt的加和向量,最后,POI2vec的训练目标就是最大化所有概率的指数的平均值: 4用户活动模式的表示学习基于上面步骤得到的兴趣点嵌入,进一步得到用户的时间活动嵌入,在用户的活动模式L中,统计了用户在一天中的每个时间分区中的访问最频繁的k个top-k兴趣点,在用户活动模式L和上一步得到的兴趣点嵌入的基础上,将用户的活动模式的嵌入向量表示为其中m是时间分区的数量,dim是兴趣点嵌入的维度,如果用户在时间段内有POI记录,则此期间之间的嵌入表示为频繁POI嵌入,并根据每个POI的发生次数和tf-dif重量,将用户在该时间段内的嵌入向量表示如下: 其中concat表示向量的级联操作,pjl是用户在jth时间分区内第1频繁的兴趣点,访问频次为njl,与时间活动相似性分数的定义类似,将TF-IDF权重计计入用户活动模式的表示中;如果用户在某个时间分区内没有兴趣点的记录,提出了三种策略来替换缺少的值:1以零向量替换缺失值:2以在其他时间分区中最频繁的兴趣点替换:3以在所有其他时间的兴趣点的加权平均值替换;5用户身份链接经过以上的步骤,得到每个用户的时间活动的嵌入表示,余弦相似度经常被用来计算两个向量之间的相似度,定义两个用户的活动习惯之间的相似度计算如下: 其中v1andv2是两名用户的活动习惯的表示,因此,指定某一平台的一名用户,在数据集中的另一个平台上,找到与其具有最相似的活动习惯的用户,并将这两个用户链接,即具有同一用户身份。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于活动相似性的跨平台用户同一身份识别的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。