【发明授权】一种面向实时新闻内容的流式话题演化跟踪方法_东南大学_201810195967.8

导航：龙图腾网> 最新专利技术> 一种面向实时新闻内容的流式话题演化跟踪方法_东南大学_201810195967.8

申请/专利权人：东南大学

申请日：2018-03-09

公开（公告）日：2021-05-11

公开（公告）号：CN108509517B

主分类号：G06F16/35(20190101)

分类号：G06F16/35(20190101);G06F16/36(20190101);G06F16/9535(20190101);G06F40/295(20200101);G06F40/30(20200101)

优先权：

专利状态码：有效-授权

法律状态：2021.05.11#授权;2018.10.09#实质审查的生效;2018.09.07#公开

摘要：本发明公开了一种面向实时新闻内容的流式话题演化跟踪方法，首先把实时采集的新闻内容，按时间段进行分批，对每一批新闻内容采用LDA方法挖掘初步话题结果；接着，在这一批新闻内容内部进行命名实体识别，并计算话题与实体间关联，以此更新实体库中的实体链接关系；然后，通过话题内部词项聚类，得到话题‑话题内类簇对应关系，并将话题结果存入话题库；最后，计算话题及其内部类簇的热度信息，并根据热度信息对LDA话题挖掘参数进行动态更新，供下一批新闻内容的话题演化跟踪使用。本发明可挖掘实时新闻内容中的话题特征以及话题内词项的类簇特征，充分利用话题间以及话题内不同类簇间的差异性，对LDA话题挖掘参数进行动态更新。

主权项：1.一种面向实时新闻内容的流式话题演化跟踪方法，其特征在于，包括如下步骤：步骤1，初步话题挖掘：对于从互联网实时采集到的新闻内容，先按时间段对其进行分批，然后逐批采用LDA方法初步挖掘出K个话题，K为正整数；步骤2，话题与实体关联：引入命名实体对LDA话题进行表征，通过实体将多个时间段聚类的话题相串联；步骤3，话题内词项聚类：结合命名实体，利用词项在文档中的共现性特征，实现了话题内词项聚类；步骤4，话题及其内部类簇热度信息提取：引入话题热度作为话题强度的量纲，并采用数据集内所有文档对该话题的贡献度来衡量话题热度；影响文档对话题贡献度的因素为文档的话题集中度和文档到达时间；话题内类簇的热度信息提取考虑两个因素：话题热度和话题内类簇词频之和与话题词频之和的比值；步骤5，话题演化跟踪：通过当前话题及其内部类簇的热度信息对下一时间片段LDA话题挖掘模型中求解话题在单词上概率分布的超参数进行调节，实现了话题的有效跟踪。

全文数据：一种面向实时新闻内容的流式话题演化跟踪方法技术领域[0001]本发明涉及一种面向实时新闻内容的流式话题演化跟踪方法，该方法能够借助话题挖掘参数的动态更新，对从互联网实时采集的新闻内容进行逐时间段的、流式的话题挖掘及演化跟踪，属于互联网和自然语言处理技术领域。背景技术[0002]近年来，随着信息技术的蓬勃发展，互联网已成为人们获取信息、了解新闻资讯最便捷的渠道。然而，在互联网新闻信息资源极大丰富的同时，也带来了“信息过载”的巨大挑战，即海量新闻内容的不断涌现而使用户难以从中获取对自己有用的部分，进而影响到新闻内容的有效使用率。个性化推荐技术通过对用户兴趣进行建模，能够为用户提供个性化的推荐服务，是解决上述问题的有效途径。基于话题的个性化推荐方法是一种重要的个性化推荐技术实现方法，相比于传统基于内容的个性化推荐方法和协同过滤个性化推荐方法，基于话题的个性化推荐方法能够在话题维度对用户兴趣进行刻画，更加准确地反映用户在新闻话题方面的偏好。但是，新闻话题会随着时间的推移而不断变化，如何把握话题的变化规律，反映话题的演化趋势，是基于话题的个性化推荐算法亟待解决的难题。[0003]LDALatentDirichletAllocation和OLDAOnlineLDA是目前在文本话题挖掘领域应用比较广泛的两种方法，后者在前者的基础上针对话题持续演化性进行了改进。但是，传统LDA方法无法衡量前后话题挖掘结果之间关联，而OLDA方法在刻画前后话题挖掘结果之间的关联时，无法充分利用话题间以及话题在时间段间的差异性，因而在合理性和准确度方面均有所欠缺。为此，本发明提出一种面向实时新闻内容的流式话题演化跟踪方法，简称dELDAddCRPandEntitybasedLDA方法，该方法米用ddCRPdistancedependentChineseRestaurantProcess方法对传统LDA方法进行改进和创新。发明内容[0004]发明目的：针对现有技术中存在的问题与不足，本发明提出一种面向实时新闻内容的流式话题演化跟踪方法，简称dELDA方法。该方法不仅可以挖掘实时新闻内容中的话题特征以及话题内词项的类簇特征，而且可以充分利用话题间以及话题内不同类簇间的差异性，对LDA话题挖掘参数进行动态更新，从而能够从内容和强度两个维度充分反映话题及其内部类簇的演化趋势。[0005]技术方案:一种面向实时新闻内容的流式话题演化跟踪方法简称dELDA方法），对应于一个面向实时新闻内容的逐时间段的、流式的话题挖掘及演化跟踪过程。该方法不仅可以挖掘实时新闻内容中的话题特征以及话题内词项的类簇特征，而且可以充分利用话题间以及话题内不同类簇间的差异性，对LDA话题挖掘参数进行动态更新，从而能够从内容和强度两个维度充分反映话题及其内部类簇的演化趋势。其具体步骤如下：[0006]步骤1，初步话题挖掘。对于从互联网实时采集到的新闻内容，先按时间段对其进行分批，然后逐批采用LDA方法初步挖掘出KK为正整数个话题。针对第tt为正整数批次采集的新闻内容Dt,首先确定这一批次dELDA方法中超参数的取值6如果t为O即为起始时间段），则初始化为预设值1，TPZ31}={215,433，134}〇[0050]步骤5话题演化跟踪。基于强度越高的话题话题内类簇越会保持其内容延续性的思想，本发明提出基于当前t时间段的话题挖掘结果中各话题及其内部类簇的热度信息对下一时间段t+Ι的话题挖掘参数声进行如图2、图3所示的动态更新，实现了话题的有效跟踪。具体的参数更新过程依据公式8、公式9、公式10计算。[0051]上述实施示例表明，本发明提出的一种面向实时新闻内容的流式话题演化跟踪方法，不仅可以挖掘流式新闻内容中的话题特征，还能进一步挖掘话题内词项的类簇特征，同时充分利用话题间以及话题内不同类簇间的差异性对话题挖掘参数进行动态更新，支持从内容和强度两个维度反映话题及其内部类簇的演化趋势。应用该方法不仅可以方便地对新闻热点话题进行实时监控，还可以应用于基于话题的隐语义个性化推荐方式，帮助用户从海量的互联网信息资源中获取自己感兴趣的信息，缓解“信息过载”问题。

权利要求：1.一种面向实时新闻内容的流式话题演化跟踪方法，其特征在于，包括如下步骤：步骤1，初步话题挖掘:对于从互联网实时采集到的新闻内容，先按时间段对其进行分批，然后逐批采用LDA方法初步挖掘出K个话题，K为正整数；步骤2，话题与实体关联：引入命名实体对LDA话题进行表征，通过实体将多个时间段聚类的话题相串联；步骤3,话题内词项聚类:结合命名实体，利用词项在文档中的共现性特征，实现了话题内词项聚类；步骤4,话题及其内部类簇热度信息提取：引入话题热度作为话题强度的量纲，并采用数据集内所有文档对该话题的贡献度来衡量话题热度;影响文档对话题贡献度的因素为文档的话题集中度和文档到达时间；话题内类簇的热度信息提取考虑两个因素:话题热度和话题内类簇词频之和与话题词频之和的比值；步骤5,话题演化跟踪:通过当前话题及其内部类簇的热度信息对下一时间片段LDA话题挖掘模型中求解话题在单词上概率分布的超参数#进行调节，实现了话题的有效跟踪。2.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法，其特征在于，所述步骤1中，针对第t批次采集的新闻内容Dt,首先确定这一批次dELDA方法中超参数；的取值如果t为O，则初始化为预设值，其中;若〇1，则初始化为t-Ι时间段动态更新后的^;接着，以模型超参数对新闻内容Dt进行LDA话题挖掘，生成话题集名，并且得到Dt中每个文档属于话题1的概率。3.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法，其特征在于，所述步骤2包括如下内容：步骤2-1，新闻命名实体识别；首先利用预先定义好的特征模板从文本中提取特征，通过和词典进行匹配，得到训练好的命名实体识别模型;然后在进行新闻命名实体识别时，使用相同的特征模板进行特征提取，并根据训练所得到命名实体识别模型进行命名实体的识别；步骤2-2，实体-话题关联度计算;实体-话题关联度的计算方式主要考虑两个因素：文档在该话题上的分布概率和文档中实体词项的重要性;其中，文档m在话题k上的分布概率由LDA话题挖掘结果给出，而文档中实体词项的重要性由词频-逆向文件频率TF-IDF值衡量，文档m中命名实体i与话题k间关联度|1k的计算公式如公式⑴所示：其中，tfi表示实体i的词频TF值，idfi表示实体i的逆向文件频率IDF值。步骤2-3,实体链接关系更新;通过步骤2-2得到当前文档中实体-话题间关联度后，若实体库中已存在该实体，只需以累加方式更新相应的实体-话题关联度;否则，需先插入该实体-话题关系，再更新相应的实体-话题关联。4.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法，其特征在于，步骤3中，话题内词项聚类采用层次聚类方式实现，具体又分为2个步骤：步骤3-1，基于距离依赖的中餐馆就餐过程ddCRP算法的话题相关实体词项聚类;基于ddCRP算法的基本思想，将每个实体词项看做一个customer，将由实体词项构成的类簇看做table，先考虑实体词项之间的关联，再将关联在一起的实体词项看做是一个类簇;假设α为标量参数，f为衰减函数，S为所有实体间的关联度计算矩阵，实体词项在类簇上服从G0分布;则基于ddCRP的话题相关实体词项聚类算法的完整概率生成过程可描述为：1对于每个实体i，ie[1，N]，依据其与其他实体间的语义关联度，获得其customer分配结果^〜110^3，€[，；〇;⑵根据所有实体的customer分配结果，获得实体i的类簇分配结果Z1;⑶对于每一个类簇k，ke{1，...}，其包含的实体词项，〜G0;⑷对于每一个实体i，ie[I，N]，将其分配到最终类簇。步骤3-2,基于K-Means算法的话题内词项聚类;该步骤利用步骤3-1得到的实体词项聚类结果，利用非实体词项与实体词项以及非实体词项间共现关系进行话题内词项的最终聚类。5.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法，其特征在于，步骤4中，文档的话题集中度可以采用信息熵的方式衡量，文档m信息熵的计算如公式2所示：公式2中，表示文档m在话题k上的分布概率，K表示话题数，文档m中话题的集中度计算如公式⑶所示：文档的到达时间距离当前时间越久，其对当前话题的贡献度越小，呈现衰减态势，文档对当前话题的贡献度具体计算如公式⑷所示：公式⑷中仏表示文档m的到达时间，t为当前时间，λ为衰减因子;综合考虑文档中话题的集中度和文档到达时间两个因素，文档m的话题贡献度计算如公式5所示：Wm=WEm^ffTm⑸文档集中话题k及其内部类簇热度信息提取如公式6、公式⑺所示：在公式6和公式⑺中其中表示话题k的词向量，TPZ表示各话题的热度值向量，#表示所有文档对话题的贡献度向量，Qm,k表示一个k行m列的二维矩阵，且表示第k个话题的第i个话题类簇的热度值，表示第k个话题的热度值，表示第k个话题的第i个话题内类簇的词频之和，表示第k个话题中词频之和。6.如权利要求1所述的面向实时新闻内容的流式话题演化跟踪方法，其特征在于，步骤5中，参数的调节方式如公式8、（9、（10所示：其中，Bt-1为一个n*k的二维矩阵，表示t-1时刻各话题在各词语上的概率分布，表示t-Ι时刻第k个话题在第η个词语上的概率分布，K_TP⑼表示根据话题内类簇热度信息给出的η*η的二维词项权重矩阵，k_tPl表示第i个词项所属的所有话题内类簇热度值之和。

百度查询：东南大学一种面向实时新闻内容的流式话题演化跟踪方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种炮孔自动填塞机_新疆天河爆破工程有限公司_202410337157.7

下一篇：CPR辅助按压器_重庆心搏康医疗科技有限公司_202311753834.5

相关技术

一种炮孔自动填塞机_新疆天河爆破工程有限公司_202410337157.7

CPR辅助按压器_重庆心搏康医疗科技有限公司_202311753834.5

重组人白介素2（I）的应用_山东泉港药业有限公司_202410417266.X

锂电池管理单元及管理方法_深圳市车电网络有限公司_202410101072.9

一种可移动车载伸缩无人机起降机场_齐鲁理工学院_202410345681.9

POCT血细胞分析仪_深圳市帝迈生物技术有限公司_202410426762.1

一种脑膜炎球菌发酵培养基及其制备方法和应用_成大生物(本溪)有限公司_202410343870.2

一种差分解耦双螺线气敏间隙传感元件及其制备方法_中南大学_202410106028.7

无机人造石脱模剂及其制备方法和无机人造石的制备方法_深圳市润丰新材料科技有限公司_202410151462.7

一种转向管柱固定工装_芜湖普威技研有限公司_202311573386.0

一种探测烟雾粒度及浓度的方法_烟台创为新能源科技股份有限公司_202410159903.8

一种中心静脉压手动测量装置_中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所)_202410152192.1

流相关技术

扼流器和制造这种扼流器的方法_弗罗纽斯国际有限公司_202380013794.2

商机引擎实时流处理方法_南京优玛软件科技有限公司_202310396300.5

一种注塑流道_世大光电(东莞)有限公司_202322547944.8

电解槽流场装置_阳光氢能科技有限公司_202322400836.8

串联模块化变流装置_日立能源有限公司_201811503931.8

一种微流控芯片_湖北微流控科技有限公司_202311123474.0

离心式微流控芯片_杭州殷欣病理诊断中心有限公司_201810188633.8

一种旋流分离装置_武汉工程大学_201811284720.X

一种土石流防治网_安徽润波水务科技有限公司_202322385513.6

一种定向流CVI流场结构及碳碳复合材料生产工艺_青岛晶易新材料科技股份有限公司_202410167727.2

式相关技术

窝式组件及窝式组件的制造方法_费德罗-莫格尔汽车配件有限责任公司_202080007235.7

一种可控冲击式自密式蝶阀_河南泉舜流体控制科技有限公司_202310216066.3

振荡式线性马达_宁波高立电子科技有限公司_202410066264.0

浇筑式插接头_江苏巴斯威节能科技有限公司_202323051768.5

便携式风扇_深圳市好奇探索科技有限公司_202322614207.5

装配式围墙_中国二十二冶集团有限公司_202322647993.9

集成式高压风机_深圳伟为动力技术有限公司_202322792239.4

隔热式炉架_李晓亮_202410119335.9

直读式密度管_湖南宏特试验检测有限公司_201910613956.1

引导式气管插管_江苏威茂医疗科技有限公司_202110933812.1

内容相关技术

多平台网络内容的人工智能治理网络内容方法_华南师范大学_202410026596.6

自动化智能内容生成_微软技术许可有限责任公司_202180091208.7

内容质量评分方法及相关装置_深圳希施玛数据科技有限公司_202410413080.7

对内容样本进行聚类的方法和装置_腾讯科技(深圳)有限公司_202010824726.2

基于内容理解的遥感影像统筹推荐方法_北京数慧时空信息技术有限公司_202210992027.8

生成小说内容的方法、装置、设备和存储介质_北京字跳网络技术有限公司_202410218729.X

基于数据内容的用户行为风险分析_上海凯馨信息科技有限公司_202410220983.3

用于预览显示内容的方法及相关产品_楚天龙股份有限公司_202410175167.5

内容分类方法、装置、电子设备及存储介质_腾讯科技(深圳)有限公司_202110687914.X

用于下混合音频内容的响度调整_杜比实验室特许公司_202410171725.0

龙图腾网&IPTOP

【发明授权】一种面向实时新闻内容的流式话题演化跟踪方法_东南大学_201810195967.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务