买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种跨社交平台的用户身份同一性识别的方法_西北工业大学_202111387539.3 

申请/专利权人:西北工业大学

申请日:2021-11-22

公开(公告)日:2024-04-12

公开(公告)号:CN113988217B

主分类号:G06F18/22

分类号:G06F18/22;G06V10/74;G06Q50/00;G06Q10/04;G06F16/9536;G06F16/9537;G06F16/906

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2022.02.18#实质审查的生效;2022.01.28#公开

摘要:本发明公开了一种跨社交平台的用户身份同一性识别的方法,通过4个模块的处理,考虑了稀疏数据带来的消极影响,提取了用户行动模式,并且在基于轨迹计算相似度时提出了一个地点具备全局流行度和局部流行度,这对两个用户之间的相似计算有不同的权重。经过真实的数据集的验证,本发明的方法具有很好的准确率,同时只要是基于轨迹相似计算的场景,都可应用,具有良好的扩展性。

主权项:1.一种跨社交平台的用户身份同一性识别的方法,其特征在于,包括以下步骤:1数据预处理从第一个社交平台上获取第一用户账户的活动轨迹序列,获取第二个社交平台上第二用户账户的活动轨迹序列,在上述的轨迹序列中包含很多轨迹点,每一个轨迹点由时间,经度,纬度组成,为了全面分析每个用户,收集一段时间内一个用户的活动轨迹,比如三个月,直接处理这样的数据是复杂和稀疏的,所以在数据预处理阶段,做如下处理:对于经度和纬度,根据精度的需求,将地理区域按照网格间隔例如,0.01划分为网格的二维矩阵形式,其中每个小区域就可以用一个网格grid_id表示,对于每一个用户将其经过的轨迹点按照下面的公式转换落入到二维网格矩阵的小区域中; grid_id=lat_index-1*n+lng_index其中,假设整个地理区域的纬度范围是[lng_d,lng_u],经度范围是[lat_d,lat_u],在给定一个用户的轨迹点tra=t,lat,lng后,通过公式转换得到落入的网格编号,接下来,针对时间,将一天24h按照时间间隔,如,15min,30min进行划分,最后取每一个时间段内最频繁出现的轨迹点落入的grid_id作为当前时间段的活动点,至此,将第一用户账户和第二用户账户的轨迹序列表示为一个一维向量;2轨迹相似度衡量基于两个账户的轨迹序列判断用户是否属于同一身份,轨迹序列又是通过很多轨迹点组成,所以衡量轨迹点之间的距离就极其重要,为此设定一个距离下限阈值θ1和距离上限阈值θ2,当给定两个不同的轨迹点trai,traj,通过下面的公式定义他们之间的距离为: 其中d·是任意一种距离计算公式,比如欧式距离计算公式或者曼哈顿距离计算公式,如果两个轨迹点之间的距离大于距离上限阈值,则认为这两点的距离很远,此时将其计算距离置为无穷远,加大差异;如果计算得到的距离小于距离下限阈值,则认为这两点的距离很近,为了缩小差异增大相似,此时将距离置为0;如果计算得到的距离介于上下距离阈值之间,不做任何处理;3轨迹嵌入经过1处理后,将第一平台的第一用户账户可以表示为一个一维向量,这里记为ui=[grid_id1,...,grid_idi,...,grid_idm],同理将第二平台的第二用户账户记为uj=[grid_id1,...grid_idi,..,grid_idn],首先,定义这一用户对的联合概率为: 其中,θtime是时间划分间隔阈值;4相似验证判断在将原始用户轨迹序列表示为嵌入向量后,选择用余弦距离计算嵌入向量的相似度,同时设定一个过滤阈值,当计算得到的相似度大于该阈值,认为这两个用户账户很大概率属于同一身份,否则表示没有找到匹配的用户。

全文数据:

权利要求:

百度查询: 西北工业大学 一种跨社交平台的用户身份同一性识别的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。