买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向实时新闻内容的流式话题演化跟踪方法_东南大学_201810195967.8 

申请/专利权人:东南大学

申请日:2018-03-09

公开(公告)日:2021-05-11

公开(公告)号:CN108509517B

主分类号:G06F16/35(20190101)

分类号:G06F16/35(20190101);G06F16/36(20190101);G06F16/9535(20190101);G06F40/295(20200101);G06F40/30(20200101)

优先权:

专利状态码:有效-授权

法律状态:2021.05.11#授权;2018.10.09#实质审查的生效;2018.09.07#公开

摘要:本发明公开了一种面向实时新闻内容的流式话题演化跟踪方法,首先把实时采集的新闻内容,按时间段进行分批,对每一批新闻内容采用LDA方法挖掘初步话题结果;接着,在这一批新闻内容内部进行命名实体识别,并计算话题与实体间关联,以此更新实体库中的实体链接关系;然后,通过话题内部词项聚类,得到话题‑话题内类簇对应关系,并将话题结果存入话题库;最后,计算话题及其内部类簇的热度信息,并根据热度信息对LDA话题挖掘参数进行动态更新,供下一批新闻内容的话题演化跟踪使用。本发明可挖掘实时新闻内容中的话题特征以及话题内词项的类簇特征,充分利用话题间以及话题内不同类簇间的差异性,对LDA话题挖掘参数进行动态更新。

主权项:1.一种面向实时新闻内容的流式话题演化跟踪方法,其特征在于,包括如下步骤:步骤1,初步话题挖掘:对于从互联网实时采集到的新闻内容,先按时间段对其进行分批,然后逐批采用LDA方法初步挖掘出K个话题,K为正整数;步骤2,话题与实体关联:引入命名实体对LDA话题进行表征,通过实体将多个时间段聚类的话题相串联;步骤3,话题内词项聚类:结合命名实体,利用词项在文档中的共现性特征,实现了话题内词项聚类;步骤4,话题及其内部类簇热度信息提取:引入话题热度作为话题强度的量纲,并采用数据集内所有文档对该话题的贡献度来衡量话题热度;影响文档对话题贡献度的因素为文档的话题集中度和文档到达时间;话题内类簇的热度信息提取考虑两个因素:话题热度和话题内类簇词频之和与话题词频之和的比值;步骤5,话题演化跟踪:通过当前话题及其内部类簇的热度信息对下一时间片段LDA话题挖掘模型中求解话题在单词上概率分布的超参数进行调节,实现了话题的有效跟踪。

全文数据:一种面向实时新闻内容的流式话题演化跟踪方法技术领域[0001]本发明涉及一种面向实时新闻内容的流式话题演化跟踪方法,该方法能够借助话题挖掘参数的动态更新,对从互联网实时采集的新闻内容进行逐时间段的、流式的话题挖掘及演化跟踪,属于互联网和自然语言处理技术领域。背景技术[0002]近年来,随着信息技术的蓬勃发展,互联网已成为人们获取信息、了解新闻资讯最便捷的渠道。然而,在互联网新闻信息资源极大丰富的同时,也带来了“信息过载”的巨大挑战,即海量新闻内容的不断涌现而使用户难以从中获取对自己有用的部分,进而影响到新闻内容的有效使用率。个性化推荐技术通过对用户兴趣进行建模,能够为用户提供个性化的推荐服务,是解决上述问题的有效途径。基于话题的个性化推荐方法是一种重要的个性化推荐技术实现方法,相比于传统基于内容的个性化推荐方法和协同过滤个性化推荐方法,基于话题的个性化推荐方法能够在话题维度对用户兴趣进行刻画,更加准确地反映用户在新闻话题方面的偏好。但是,新闻话题会随着时间的推移而不断变化,如何把握话题的变化规律,反映话题的演化趋势,是基于话题的个性化推荐算法亟待解决的难题。[0003]LDALatentDirichletAllocation和OLDAOnlineLDA是目前在文本话题挖掘领域应用比较广泛的两种方法,后者在前者的基础上针对话题持续演化性进行了改进。但是,传统LDA方法无法衡量前后话题挖掘结果之间关联,而OLDA方法在刻画前后话题挖掘结果之间的关联时,无法充分利用话题间以及话题在时间段间的差异性,因而在合理性和准确度方面均有所欠缺。为此,本发明提出一种面向实时新闻内容的流式话题演化跟踪方法,简称dELDAddCRPandEntitybasedLDA方法,该方法米用ddCRPdistancedependentChineseRestaurantProcess方法对传统LDA方法进行改进和创新。发明内容[0004]发明目的:针对现有技术中存在的问题与不足,本发明提出一种面向实时新闻内容的流式话题演化跟踪方法,简称dELDA方法。该方法不仅可以挖掘实时新闻内容中的话题特征以及话题内词项的类簇特征,而且可以充分利用话题间以及话题内不同类簇间的差异性,对LDA话题挖掘参数进行动态更新,从而能够从内容和强度两个维度充分反映话题及其内部类簇的演化趋势。[0005]技术方案:一种面向实时新闻内容的流式话题演化跟踪方法简称dELDA方法),对应于一个面向实时新闻内容的逐时间段的、流式的话题挖掘及演化跟踪过程。该方法不仅可以挖掘实时新闻内容中的话题特征以及话题内词项的类簇特征,而且可以充分利用话题间以及话题内不同类簇间的差异性,对LDA话题挖掘参数进行动态更新,从而能够从内容和强度两个维度充分反映话题及其内部类簇的演化趋势。其具体步骤如下:[0006]步骤1,初步话题挖掘。对于从互联网实时采集到的新闻内容,先按时间段对其进行分批,然后逐批采用LDA方法初步挖掘出KK为正整数个话题。针对第tt为正整数批次采集的新闻内容Dt,首先确定这一批次dELDA方法中超参数的取值6如果t为O即为起始时间段),则初始化为预设值1,TPZ31}={215,433,134}〇[0050]步骤5话题演化跟踪。基于强度越高的话题话题内类簇越会保持其内容延续性的思想,本发明提出基于当前t时间段的话题挖掘结果中各话题及其内部类簇的热度信息对下一时间段t+Ι的话题挖掘参数声进行如图2、图3所示的动态更新,实现了话题的有效跟踪。具体的参数更新过程依据公式8、公式9、公式10计算。[0051]上述实施示例表明,本发明提出的一种面向实时新闻内容的流式话题演化跟踪方法,不仅可以挖掘流式新闻内容中的话题特征,还能进一步挖掘话题内词项的类簇特征,同时充分利用话题间以及话题内不同类簇间的差异性对话题挖掘参数进行动态更新,支持从内容和强度两个维度反映话题及其内部类簇的演化趋势。应用该方法不仅可以方便地对新闻热点话题进行实时监控,还可以应用于基于话题的隐语义个性化推荐方式,帮助用户从海量的互联网信息资源中获取自己感兴趣的信息,缓解“信息过载”问题。

权利要求:1.一种面向实时新闻内容的流式话题演化跟踪方法,其特征在于,包括如下步骤:步骤1,初步话题挖掘:对于从互联网实时采集到的新闻内容,先按时间段对其进行分批,然后逐批采用LDA方法初步挖掘出K个话题,K为正整数;步骤2,话题与实体关联:引入命名实体对LDA话题进行表征,通过实体将多个时间段聚类的话题相串联;步骤3,话题内词项聚类:结合命名实体,利用词项在文档中的共现性特征,实现了话题内词项聚类;步骤4,话题及其内部类簇热度信息提取:引入话题热度作为话题强度的量纲,并采用数据集内所有文档对该话题的贡献度来衡量话题热度;影响文档对话题贡献度的因素为文档的话题集中度和文档到达时间;话题内类簇的热度信息提取考虑两个因素:话题热度和话题内类簇词频之和与话题词频之和的比值;步骤5,话题演化跟踪:通过当前话题及其内部类簇的热度信息对下一时间片段LDA话题挖掘模型中求解话题在单词上概率分布的超参数#进行调节,实现了话题的有效跟踪。2.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法,其特征在于,所述步骤1中,针对第t批次采集的新闻内容Dt,首先确定这一批次dELDA方法中超参数;的取值如果t为O,则初始化为预设值,其中;若〇1,则初始化为t-Ι时间段动态更新后的^;接着,以模型超参数对新闻内容Dt进行LDA话题挖掘,生成话题集名,并且得到Dt中每个文档属于话题1的概率。3.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法,其特征在于,所述步骤2包括如下内容:步骤2-1,新闻命名实体识别;首先利用预先定义好的特征模板从文本中提取特征,通过和词典进行匹配,得到训练好的命名实体识别模型;然后在进行新闻命名实体识别时,使用相同的特征模板进行特征提取,并根据训练所得到命名实体识别模型进行命名实体的识别;步骤2-2,实体-话题关联度计算;实体-话题关联度的计算方式主要考虑两个因素:文档在该话题上的分布概率和文档中实体词项的重要性;其中,文档m在话题k上的分布概率由LDA话题挖掘结果给出,而文档中实体词项的重要性由词频-逆向文件频率TF-IDF值衡量,文档m中命名实体i与话题k间关联度|1k的计算公式如公式⑴所示:其中,tfi表示实体i的词频TF值,idfi表示实体i的逆向文件频率IDF值。步骤2-3,实体链接关系更新;通过步骤2-2得到当前文档中实体-话题间关联度后,若实体库中已存在该实体,只需以累加方式更新相应的实体-话题关联度;否则,需先插入该实体-话题关系,再更新相应的实体-话题关联。4.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法,其特征在于,步骤3中,话题内词项聚类采用层次聚类方式实现,具体又分为2个步骤:步骤3-1,基于距离依赖的中餐馆就餐过程ddCRP算法的话题相关实体词项聚类;基于ddCRP算法的基本思想,将每个实体词项看做一个customer,将由实体词项构成的类簇看做table,先考虑实体词项之间的关联,再将关联在一起的实体词项看做是一个类簇;假设α为标量参数,f为衰减函数,S为所有实体间的关联度计算矩阵,实体词项在类簇上服从G0分布;则基于ddCRP的话题相关实体词项聚类算法的完整概率生成过程可描述为:1对于每个实体i,ie[1,N],依据其与其他实体间的语义关联度,获得其customer分配结果^〜110^3,€[,;〇;⑵根据所有实体的customer分配结果,获得实体i的类簇分配结果Z1;⑶对于每一个类簇k,ke{1,...},其包含的实体词项,〜G0;⑷对于每一个实体i,ie[I,N],将其分配到最终类簇。步骤3-2,基于K-Means算法的话题内词项聚类;该步骤利用步骤3-1得到的实体词项聚类结果,利用非实体词项与实体词项以及非实体词项间共现关系进行话题内词项的最终聚类。5.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法,其特征在于,步骤4中,文档的话题集中度可以采用信息熵的方式衡量,文档m信息熵的计算如公式2所示:公式2中,表示文档m在话题k上的分布概率,K表示话题数,文档m中话题的集中度计算如公式⑶所示:文档的到达时间距离当前时间越久,其对当前话题的贡献度越小,呈现衰减态势,文档对当前话题的贡献度具体计算如公式⑷所示:公式⑷中仏表示文档m的到达时间,t为当前时间,λ为衰减因子;综合考虑文档中话题的集中度和文档到达时间两个因素,文档m的话题贡献度计算如公式5所示:Wm=WEm^ffTm⑸文档集中话题k及其内部类簇热度信息提取如公式6、公式⑺所示:在公式6和公式⑺中其中表示话题k的词向量,TPZ表示各话题的热度值向量,#表示所有文档对话题的贡献度向量,Qm,k表示一个k行m列的二维矩阵,且表示第k个话题的第i个话题类簇的热度值,表示第k个话题的热度值,表示第k个话题的第i个话题内类簇的词频之和,表示第k个话题中词频之和。6.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法,其特征在于,步骤5中,参数的调节方式如公式8、(9、(10所示:其中,Bt-1为一个n*k的二维矩阵,表示t-1时刻各话题在各词语上的概率分布,表示t-Ι时刻第k个话题在第η个词语上的概率分布,K_TP⑼表示根据话题内类簇热度信息给出的η*η的二维词项权重矩阵,k_tPl表示第i个词项所属的所有话题内类簇热度值之和。

百度查询: 东南大学 一种面向实时新闻内容的流式话题演化跟踪方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。