买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于多级用户兴趣的个性化新闻推荐模型方法_北京大学_202311767601.0 

申请/专利权人:北京大学

申请日:2023-12-21

公开(公告)日:2024-04-12

公开(公告)号:CN117874334A

主分类号:G06F16/9535

分类号:G06F16/9535;G06F16/36;G06F40/295;G06F18/213;G06F18/214;G06F18/22;G06F18/25;G06N3/042;G06N3/045;G06N3/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.30#实质审查的生效;2024.04.12#公开

摘要:本发明公布了一种基于多级用户兴趣的个性化新闻推荐模型方法,包括:对用户与新闻基本信息进行提取与编码,得到用户历史点击新闻的特征表示和候选新闻的特征表示;新闻级别建模,对长期与潜在用户兴趣进行挖掘和编码;设计实体级别建模模块,对细粒度用户兴趣进行提取与编码;将两个级别的兴趣融合成一个兴趣向量,并通过跟用户的候选新闻进行匹配,根据训练数据样本训练即可得到个性化新闻推荐模型。本发明方法能更为准确地提取用户的长期的和细粒度的兴趣,从而有效地提升个性化新闻推荐的准确率。

主权项:1.一种基于多级用户兴趣的个性化新闻推荐模型方法,其特征是,包括如下步骤:步骤一:对用户信息与新闻信息进行提取与编码,得到用户历史点击新闻的特征表示和候选新闻的特征表示;步骤二:新闻级别建模:通过类别引导的兴趣-新闻匹配CGIN提升用户感兴趣的未点击新闻的匹配分数,对长期与潜在用户兴趣进行挖掘和编码;包括:21基于自注意力机制设计新闻级用户建模模块,将历史点击新闻的特征表示作为新闻级用户建模模块的输入,输出多个表示用户兴趣的新闻级兴趣向量;22对训练数据集中的所有用户,获得新闻级兴趣和训练标签;使用候选新闻的特征表示计算得到匹配分数;23设计目标并定义新闻级用户建模模块的损失函数,获取监督标签;增强对感兴趣的候选新闻的匹配分数;231使用大语言模型为历史点击新闻选择k个最适合的类别名词,为候选新闻选择k个最适合的类别名词;通过判断两种类别名词之间是否有交集,若有交集则标签值设为1,否则为0,由此得到监督标签;232使用候选新闻的特征表示计算得到CGIN-Matching匹配分数;233定义CGIN-Matching基于类别的匹配损失,表示如下: 其中,为基于类别的匹配损失;在监督标签等于1时取值为1,即第k个候选新闻是用户ui的第j个新闻级兴趣向量的正样本;表示训练集的数据;M是每个用户的历史点击新闻的个数;K是每个用户的候选新闻的个数;si′jk表示训练集中的用户u_i的第j个历史点击新闻和第k个候选新闻的匹配分数;si′jl表示训练集中的用户u_i的第j个历史点击新闻和第l个候选新闻的匹配分数;步骤三:设计实体级别建模模块,对细粒度用户兴趣进行提取与编码;包括:31利用大语言模型提取本地新闻实体图中的实体;划分为R个实体组,每个实体组代表一个实体级别的兴趣;32建立本地新闻实体图LNEG,将历史点击新闻转化为实体图中的图节点;将具有相同兴趣的节点分到同一个实体组中,且每个实体组内的所有实体节点相互连接;再通过实体级注意力编码处理实体特征,从而得到实体级别的兴趣;33实体级别的注意力建模采用两层的自注意力网络模型;通过获取每个实体的嵌入,得到整体的实体嵌入;将实体嵌入输入到实体级别建模模型中,得到实体特征;使用局部注意力机制捕捉实体的局部关系;将第一层自注意力设置为实体级别的局部注意力,第二层自注意力设置为全局注意力;全局注意力定义为: 其中,Q、K和V分别是查询、键和值嵌入;d为向量的长度;T代表转置;局部注意力定义为: 定义实体特征的索引I为:I=[1,1,…,R,R];通过将实体特征进行池化得到第r组的实体级别兴趣以及实体级别兴趣矩阵;步骤四:将两个级别的兴趣融合成一个兴趣向量,并通过跟用户的候选新闻进行匹配,根据训练数据样本训练得到个性化新闻推荐模型;包括:41进行兴趣融合,得到多级融合兴趣;具体是沿着第0维连接两级兴趣,并在兴趣的第0维进行池化,得到多级融合兴趣,表示为:E′=[En;Ee] 其中,W是权重矩阵,b是偏置向量;En是新闻级别兴趣,Ee是实体级别兴趣,R是实体组个数,M是用户的历史点击新闻的个数;Ei′和Ej′分别表示E′的第i、j条向量,E′是一个二维矩阵;42在训练阶段,应用噪声对比估计NCE损失函数训练模型,获得用户的融合后的兴趣向量;对于训练数据集中的所有用户,获得融合后的兴趣向量;43利用兴趣向量和候选新闻嵌入计算匹配分数,共同预测1个正面新闻的点击分数和K-1个负面新闻的点击分数;点击分数即匹配分数;44共同预测一个候选正样本新闻的匹配分数和K-1个候选负样本新闻的匹配分数[si2,si3,…,siK];应用噪声对比估计NCE损失函数训练模型,表示为: 其中,是主匹配损失函数;是用户ui的候选新闻中的正样本的匹配分数;是训练集;sij是用户ui的候选新闻中的第j个负样本的匹配分数;45最终损失函数表示为: 其中,α是一个超参数;步骤五:在测试阶段,获得测试数据集中所有用户的MFI向量;计算匹配分数,并选择分数最高的新闻进行推荐;由此实现基于多级用户兴趣的个性化新闻推荐。

全文数据:

权利要求:

百度查询: 北京大学 一种基于多级用户兴趣的个性化新闻推荐模型方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。