买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于知识图谱的新闻热度预测方法_四川封面传媒科技有限责任公司_202210661303.2 

申请/专利权人:四川封面传媒科技有限责任公司

申请日:2022-06-13

公开(公告)日:2024-04-26

公开(公告)号:CN114880588B

主分类号:G06F16/9536

分类号:G06F16/9536;G06F16/9537;G06F16/36;G06N5/022;G06F18/22;G06F16/901;G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.04.26#授权;2022.08.26#实质审查的生效;2022.08.09#公开

摘要:本发明涉及新闻媒体技术领域,公开了一种基于知识图谱的新闻热度预测方法,旨在解决现有的新闻热度预测存在预测结果滞后的问题,方案主要包括:首先对现有新闻事件的新闻数据进行信息抽取,并根据抽取得到主题词、主要实体词以及事件三元组构建事件图谱;然后根据业务规则以及预设的事件匹配算法构建知识图谱检索引擎;在需要对待预测新闻文本进行热度预测时,对待预测新闻文本进行信息抽取,知识图谱检索引擎根据抽取得到的主题词、主要实体词以及事件三元组在事件图谱中匹配新闻事件;最后根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。本发明实现了对新闻热度的提前预测,特别适用于媒体行业。

主权项:1.基于知识图谱的新闻热度预测方法,其特征在于,包括以下步骤:步骤1、获取新闻数据,确定各新闻数据所属的新闻事件以及各新闻事件对应的热度值,对属于同一新闻事件的新闻数据进行归类后,对新闻数据进行预处理;步骤2、针对每个新闻事件,根据其对应的所有新闻数据进行信息抽取,获得各新闻事件对应的第一事件三元组,所述第一事件三元组包含第一主题词和第一主要实体词;所述根据其对应的所有新闻数据进行信息抽取,具体包括:使用LDA模型对新闻数据进行主题词抽取,获得新闻事件对应的多个主题词,选取排名靠前且在新闻数据中出现的多个主题词作为第一主题词;对新闻事件下的所有新闻数据进行分句处理后,基于领域词典和深度学习进行实体识别抽取,获得新闻事件对应的多个实体词,基于RoBERTa-CRF模型进行句子级别的实体关系联合抽取,获得新闻事件对应的多个事件三元组;基于TF-IDF计算抽取的各实体词在新闻数据中的实体得分,将该实体得分进行归一化处理后,选取实体得分之和占预设比例的实体词作为对应新闻事件的第一主要实体词;将包含第一主题词以及第一主要实体词的事件三元组作为新闻事件的第一事件三元组;步骤3、根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度,将所述相似度大于阈值的新闻事件进行融合,并确定融合后的新闻事件的热度值;根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度,具体包括:获取各新闻事件对应的发布时间,选取一定时间范围内的新闻事件,并计算选取的各新闻事件对应的第一事件三元组的相似度,具体包括:基于Jaccard相似系数计算各第一事件三元组中主要实体词的实体相似度,基于RoBERTa对各第一事件三元组中的主题词向量化后,计算各第一事件三元组中主题词的余弦相似度,对所述实体相似度和余弦相似度进行加权求和后得到各新闻事件的相似度;步骤4、将所有新闻事件及其对应的第一事件三元组保存至图数据库,并基于应用场景、业务规则和预设匹配得分算法构建知识图谱检索引擎;步骤5、获取待预测新闻文本,对待预测新闻文本进行信息抽取,获得待预测新闻文本对应的结构化数据,所述结构化数据至少包括第二主题词、第二主要实体词以及第二事件三元组;步骤6、将所述结构化数据输入至知识图谱检索引擎,所述知识图谱检索引擎根据输入的结构化数据在图数据库中进行匹配,得到匹配得分靠前的多个新闻事件;所述知识图谱检索引擎根据输入的结构化数据在图数据库中进行匹配,具体包括:基于Word2vec将所述第二事件三元组与各第一事件三元组进行向量化后,计算所述第二事件三元组与各第一事件三元组的三元组相似度;基于Jaccard相似系数计算所述第二主要实体词与各第一事件三元组中的第一主要实体词的实体词类型相似度;基于规则映射计算所述第二主要实体词与各第一事件三元组中的第一主要实体词的实体词数量相似度;基于Word2vec将所述第二主题词与各第一事件三元组中的第一主题词进行向量化后,计算所述第二主题词与各第一事件三元组中的第一主题词的主题词相似度;将所述三元组相似度、实体词类型相似度、实体词数量相似度和主题词相似度的平均值作为所述待预测新闻文本与图数据库中各新闻事件的匹配得分;步骤7、根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。

全文数据:

权利要求:

百度查询: 四川封面传媒科技有限责任公司 基于知识图谱的新闻热度预测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。