买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种文章等级识别方法、装置、服务器及存储介质_腾讯科技(深圳)有限公司_202011139293.3 

申请/专利权人:腾讯科技(深圳)有限公司

申请日:2020-10-22

公开(公告)日:2024-04-16

公开(公告)号:CN114385892B

主分类号:G06F16/9532

分类号:G06F16/9532;G06F16/35;G06F40/284;G06F40/211;G06N3/0464;G06N3/0442;G06N3/045;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2022.10.28#实质审查的生效;2022.04.22#公开

摘要:本发明公开了一种文章等级识别方法、装置、服务器及存储介质,涉及深度学习技术,该方法包括:获取待识别文章;确定发布所述待识别文章的发布账号,获取所述发布账号对应的元数据信息;所述元数据信息包括所述发布账号的账号信息;由文章等级识别模型的特征提取网络根据所述待识别文章和所述元数据信息,得到所述待识别文章的排版特征、写作特征以及元数据特征;融合所述待识别文章的排版特征、写作特征以及元数据特征,得到文章识别特征;由所述文章等级识别模型的多层感知网络根据所述文章识别特征,预测所述待识别文章的质量等级。本发明提高了对于优质文章的识别效率和定位准确性,并缩短了优质文章被启用进入推荐池分发的时延。

主权项:1.一种文章等级识别方法,其特征在于,所述方法包括:获取待识别文章;确定发布所述待识别文章的发布账号,获取所述发布账号对应的元数据信息;所述元数据信息包括所述发布账号的账号信息;根据文字以及图片在所述待识别文章中的排列位置,从所述待识别文章中分别获取文字序列和图片序列;所述文字序列中的文字存在主标题、小标题、段落文本的区分,所述图片序列中的图片与所述文字序列中的文字存在相对位置关系;将所述文字序列中的文字和所述图片序列中的图片交替输入至文章等级识别模型中文章结构子网络的长短期记忆网络,提取所述待识别文章的全局特征;以及将所述文字序列的文字和所述图片序列的图片交替输入至所述文章结构子网络的卷积神经网络,提取所述待识别文章的局部特征;融合所述待识别文章的全局特征和局部特征,得到所述待识别文章的排版特征;将所述待识别文章输入所述文章等级识别模型的文本子网络,根据所述待识别文章中的文本信息,得到所述待识别文章对应的长文本;由所述文本子网络的第一神经网络层基于自注意力机制提取所述长文本中各词语的词语特征;由所述文本子网络的第二神经网络层基于自注意力机制,根据所述长文本中各词语的词语特征得到所述长文本中各句子的句子特征;由所述文本子网络的第三神经网络层基于自注意力机制,根据所述长文本中各句子的句子特征得到所述长文本的文本特征;将所述长文本的文本特征作为所述待识别文章的写作特征;通过所述文章等级识别模型的元数据子网络对所述元数据信息进行网络嵌入处理,得到元数据特征;融合所述待识别文章的排版特征、写作特征以及元数据特征,得到文章识别特征;由所述文章等级识别模型的多层感知网络根据所述文章识别特征,预测所述待识别文章的质量等级。

全文数据:

权利要求:

百度查询: 腾讯科技(深圳)有限公司 一种文章等级识别方法、装置、服务器及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。