买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于新闻报道的突发事件线索提取方法_乐山师范学院_201910983942.9 

申请/专利权人:乐山师范学院

申请日:2019-10-16

公开(公告)日:2022-09-16

公开(公告)号:CN110737819B

主分类号:G06F16/953

分类号:G06F16/953;G06F40/30;G06F16/33

优先权:

专利状态码:有效-授权

法律状态:2022.09.16#授权;2020.02.25#实质审查的生效;2020.01.31#公开

摘要:本发明提供了一种基于新闻报道的突发事件线索提取方法,对新闻文本进行预处理;对预处理结果进行事件抽取;得到事件分布式表示,计算得到事件相似度以构建事件语义知识;构建事件主题模型,得到事件主题分布及文档主题分布;取主题概率最高的事件作为主题事件集合;以每个主题事件为结点,事件发生的先后关系为弧,构建事件的时序关系图;利用改进的拓扑排序算法输出最终的事件线索。本发明通过以上设计能够准确完整地获取突发事件线索,解决了现有技术中事件线索语义表达不强以及线索获取准确率低的问题。本发明方法灵活,具有很强的应用推广价值。

主权项:1.一种基于新闻报道的突发事件线索提取方法,其特征在于,包括如下步骤:S1、获取新闻数据集,并利用自然语言处理方法对所述新闻数据集中每篇新闻进行预处理;S2、以语句为单位,根据所述预处理结果对事件进行抽取;S3、根据事件抽取结果得到事件的分布式向量表示,并构建事件语义知识;S4、以事件对为词条,利用所述事件语义知识和波利亚罐子模型构建事件主题模型;S5、根据所述事件主题模型,取主题概率最高的topK个事件作为主题事件集合;S6、根据所述主题事件集合和事件的先后顺序构建事件时序关系图;S7、根据所述事件时序关系图利用改进的拓扑排序算法计算得到突发事件线索,从而完成对突发事件线索的提取;所述步骤S7包括如下步骤:S701、根据所述事件时序关系图利用改进的拓扑排序算法输出事件结点序列;S702、判断所述时序关系图中是否有未输出的事件结点,若有,则时序关系图的剩余子图中有环存在,并进入步骤S703,否则,进入步骤S704;S703、删除所述剩余子图中的所有弧,并依次扫描已输出事件结点序列中的结点事件到剩余子图中每个未输出结点事件的弧,按时序关系的强度选择弧并输出每一个未输出结点事件,记录当前弧;S704、由输出的事件结点序列以及所述记录的当前弧构成突发事件线索,从而完成对突发事件线索的提取;所述步骤S701包括如下步骤:S7011、根据所述事件时序关系图构建优先队列,并将时序关系图中的入度为零的结点事件作入队操作;S7012、依次对所述优先队列中入度为零的结点事件作出队操作,输出该事件并删除以该输出事件为尾的弧;S7013、判断是否有新的入度为零的结点事件,若是,则将该结点事件作入队操作,并记录当前删除的弧,并返回步骤S7012,否则,进入步骤S702。

全文数据:

权利要求:

百度查询: 乐山师范学院 一种基于新闻报道的突发事件线索提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。