首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于话题描述的文本聚类清洗和合并方法_北京中科闻歌科技股份有限公司;新华融合媒体科技发展(北京)有限公司_202310347961.9 

申请/专利权人:北京中科闻歌科技股份有限公司;新华融合媒体科技发展(北京)有限公司

申请日:2023-04-03

公开(公告)日:2024-05-14

公开(公告)号:CN116361470B

主分类号:G06F16/35

分类号:G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2024.05.14#授权;2023.07.18#实质审查的生效;2023.06.30#公开

摘要:本发明提供了一种基于话题描述的文本聚类清洗和合并方法,首先对文本进行聚类,得到多个聚类结果,每个聚类结果相当于一个话题,然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的描述,能够使得聚类结果更加准确。

主权项:1.一种基于话题描述的文本聚类清洗和合并方法,其特征在于,所述方法包括如下步骤:S100,获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;S200,基于获取的特征向量,利用设定聚类算法对待聚类文本进行聚类,得到多个话题;S300,获取当前话题中的任一话题中的任一文本以及任一话题的关键词、特征向量和话题描述特征向量;S400,基于文本和话题之间的关键词相同的数量、文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度对当前话题进行第p次清洗处理,得到处理后的np个话题;其中,np个话题中的任一话题a满足如下条件:gpa,q≥D1p,SFpaq≥D2p并且STpaq≥D3p;其中,gpa,q为话题a和话题a中的第q个文本Taq之间的关键词相同的数量,SFpaq为话题a的特征向量和Taq的特征向量之间的相似度,STpaq为话题a的话题描述特征向量和Taq的话题描述特征向量之间的相似度;D1p为第p次清洗处理对应的第一设定阈值,D2p为第p次清洗处理对应的第二设定阈值,D3p为第p次清洗处理对应的第三设定阈值;a的取值为1到np,p的取值为1到C0,C0为预设次数;q的取值为1到fa,fa为话题a中的文本数量;S500,设置p=p+1,如果p≤C0,执行S300;否则,得到清洗处理后的H个话题,执行S600;S600,基于H个话题获取按照文本数量递减的方式进行排序得到的话题列表S,并获取S中的任一话题u对应的关键词、特征向量、话题描述和话题描述特征向量,u的取值为1到H;S700,基于话题之间的关键词相同的数量、话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理,得到目标话题列表;S800,输出目标话题列表中的所有话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本;S400具体包括:S410,对于第p次清洗处理对应的当前话题中的话题i中的第j个文本Tij,分别获取gpi,j、SFpij和STpij,如果gpi,j≥D1p,并且SFpij≥D2p以及STpij≥D3p,则将Tij保留在话题i中,执行S440;否则,执行S420;其中,gpi,j为第p次清洗处理时Tij和话题i之间的关键词相同的数量,SFpij为第p次清洗处理时Tij的特征向量和话题i的话题特征向量之间的相似度,STpij为第p次清洗处理时Tij的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前话题的数量;j的取值为1到fi,fi为话题i中的文本数量;S420,获取gpij,s、SFpsij和STpsij,如果gpij,s≥D1p,并且SFpsij≥D2p以及STpsij≥D3p,则将Tij加入到话题s中并从原话题中删除,执行S440;否则,执行S430;其中,话题s为当前话题中除话题i之外的k-1个话题中的第s个话题,gpij,s为第p次清洗处理时Tij和话题s之间的关键词相同的数量,SFpsij为第p次清洗处理时Tij的特征向量和话题s的话题特征向量之间的相似度,STpsij为第p次清洗处理时Tij的话题描述特征向量和话题s的话题描述特征向量之间的相似度,s的取值为1到k-1;S430,设置s=s+1,如果s≤k-1,执行S420,否则,为Tij创建一个新话题,并将Tij加入到对应的新话题中并从原话题中删除,设置k=k+1,并执行S440;S440,设置j=j+1,如果j≤fi,执行S410;否则,设置i=i+1,如果i≤k,执行S410,否则,执行S500;S700具体包括:S710,获取gu,v、S1uv和S2uv,如果gu,v≥D4,并且S1uv≥D5,以及S2uv≥D6,则将话题u和话题v进行合并,执行S730;否则,执行S720;其中,话题v为当前合并话题列表中的第v个话题,gu,v为话题u与话题v之间的关键词相同的数量,S1uv为话题u的话题特征向量和话题v的话题特征向量之间的相似度,S2uv为话题u的话题描述特征向量和话题v的话题描述特征向量之间的相似度,v的取值为1到n,n为当前合并话题列表中的话题数量;D4为第四设定阈值,D5为第五设定阈值,D6为第六设定阈值;合并话题列表中的初始值为Null;S720,设置v=v+1,如果v≤n,执行S710,否则,将话题u作为新话题加入到当前合并话题列表中并设置n=n+1;执行S730;S730,设置u=u+1,如果u≤H,执行S710,否则,执行S740;S740,获取当前话题列表中的任一个话题中的文本数量,如果该话题中的文本数量少于设定数量阈值,则将该话题从当前话题列表中删除;得到目标话题列表,并执行S800。

全文数据:

权利要求:

百度查询: 北京中科闻歌科技股份有限公司;新华融合媒体科技发展(北京)有限公司 一种基于话题描述的文本聚类清洗和合并方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。