【发明授权】一种基于话题描述的文本聚类清洗和合并方法_北京中科闻歌科技股份有限公司;新华融合媒体科技发展(北京)有限公司_202310347961.9

申请/专利权人：北京中科闻歌科技股份有限公司;新华融合媒体科技发展(北京)有限公司

申请日：2023-04-03

公开（公告）日：2024-05-14

公开（公告）号：CN116361470B

主分类号：G06F16/35

分类号：G06F16/35

优先权：

专利状态码：有效-授权

法律状态：2024.05.14#授权;2023.07.18#实质审查的生效;2023.06.30#公开

摘要：本发明提供了一种基于话题描述的文本聚类清洗和合并方法，首先对文本进行聚类，得到多个聚类结果，每个聚类结果相当于一个话题，然后基于话题向量与话题中文本向量的文本相似度大小、话题描述与每个文本生成的话题描述的文本相似度大小、文本与话题的关键词相同的个数三个指标，对聚类结果进行清洗和合并，最后得到聚类结果和每个话题的描述，能够使得聚类结果更加准确。

主权项：1.一种基于话题描述的文本聚类清洗和合并方法，其特征在于，所述方法包括如下步骤：S100，获取待聚类文本中的每个文本的特征向量和关键词，每个文本包括h个关键词；S200，基于获取的特征向量，利用设定聚类算法对待聚类文本进行聚类，得到多个话题；S300，获取当前话题中的任一话题中的任一文本以及任一话题的关键词、特征向量和话题描述特征向量；S400，基于文本和话题之间的关键词相同的数量、文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度对当前话题进行第p次清洗处理，得到处理后的np个话题；其中，np个话题中的任一话题a满足如下条件：gpa，q≥D1p，SFpaq≥D2p并且STpaq≥D3p；其中，gpa，q为话题a和话题a中的第q个文本Taq之间的关键词相同的数量，SFpaq为话题a的特征向量和Taq的特征向量之间的相似度，STpaq为话题a的话题描述特征向量和Taq的话题描述特征向量之间的相似度；D1p为第p次清洗处理对应的第一设定阈值，D2p为第p次清洗处理对应的第二设定阈值，D3p为第p次清洗处理对应的第三设定阈值；a的取值为1到np，p的取值为1到C0，C0为预设次数；q的取值为1到fa，fa为话题a中的文本数量；S500，设置p＝p+1，如果p≤C0，执行S300；否则，得到清洗处理后的H个话题，执行S600；S600，基于H个话题获取按照文本数量递减的方式进行排序得到的话题列表S，并获取S中的任一话题u对应的关键词、特征向量、话题描述和话题描述特征向量，u的取值为1到H；S700，基于话题之间的关键词相同的数量、话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理，得到目标话题列表；S800，输出目标话题列表中的所有话题的话题描述和对应的文本，其中，每个话题对应的文本为按照文本发布时间进行排序后的文本；S400具体包括：S410，对于第p次清洗处理对应的当前话题中的话题i中的第j个文本Tij，分别获取gpi，j、SFpij和STpij，如果gpi，j≥D1p，并且SFpij≥D2p以及STpij≥D3p，则将Tij保留在话题i中，执行S440；否则，执行S420；其中，gpi，j为第p次清洗处理时Tij和话题i之间的关键词相同的数量，SFpij为第p次清洗处理时Tij的特征向量和话题i的话题特征向量之间的相似度，STpij为第p次清洗处理时Tij的话题描述特征向量和话题i的话题描述特征向量之间的相似度；i的取值为1到k，k为当前话题的数量；j的取值为1到fi，fi为话题i中的文本数量；S420，获取gpij，s、SFpsij和STpsij，如果gpij，s≥D1p，并且SFpsij≥D2p以及STpsij≥D3p，则将Tij加入到话题s中并从原话题中删除，执行S440；否则，执行S430；其中，话题s为当前话题中除话题i之外的k-1个话题中的第s个话题，gpij，s为第p次清洗处理时Tij和话题s之间的关键词相同的数量，SFpsij为第p次清洗处理时Tij的特征向量和话题s的话题特征向量之间的相似度，STpsij为第p次清洗处理时Tij的话题描述特征向量和话题s的话题描述特征向量之间的相似度，s的取值为1到k-1；S430，设置s＝s+1，如果s≤k-1，执行S420，否则，为Tij创建一个新话题，并将Tij加入到对应的新话题中并从原话题中删除，设置k＝k+1，并执行S440；S440，设置j＝j+1，如果j≤fi，执行S410；否则，设置i＝i+1，如果i≤k，执行S410，否则，执行S500；S700具体包括：S710，获取gu，v、S1uv和S2uv，如果gu，v≥D4，并且S1uv≥D5，以及S2uv≥D6，则将话题u和话题v进行合并，执行S730；否则，执行S720；其中，话题v为当前合并话题列表中的第v个话题，gu，v为话题u与话题v之间的关键词相同的数量，S1uv为话题u的话题特征向量和话题v的话题特征向量之间的相似度，S2uv为话题u的话题描述特征向量和话题v的话题描述特征向量之间的相似度，v的取值为1到n，n为当前合并话题列表中的话题数量；D4为第四设定阈值，D5为第五设定阈值，D6为第六设定阈值；合并话题列表中的初始值为Null；S720，设置v＝v+1，如果v≤n，执行S710，否则，将话题u作为新话题加入到当前合并话题列表中并设置n＝n+1；执行S730；S730，设置u＝u+1，如果u≤H，执行S710，否则，执行S740；S740，获取当前话题列表中的任一个话题中的文本数量，如果该话题中的文本数量少于设定数量阈值，则将该话题从当前话题列表中删除；得到目标话题列表，并执行S800。

全文数据：

权利要求：

百度查询：北京中科闻歌科技股份有限公司;新华融合媒体科技发展(北京)有限公司一种基于话题描述的文本聚类清洗和合并方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：固化性树脂组合物及其固化物_株式会社大赛璐_202280067190.1

下一篇：一种组合式骨折固定器械_苏鹏_202410429765.0

相关技术

固化性树脂组合物及其固化物_株式会社大赛璐_202280067190.1

一种组合式骨折固定器械_苏鹏_202410429765.0

一种自封式预制灌浆封堵防溢塞_中铁二局集团有限公司_202410274073.3

一种适用于浆液输送的隔膜阀_蚌埠丹普新材料科技有限公司_202410440290.5

一种超厚水晶玻璃的切割方法_浙江圣石激光科技股份有限公司_202410286565.4

一种代码安全性的智能检测方法及系统_成都派沃特科技股份有限公司_202410586189.0

一种评价输电线路钢管杆内部腐蚀行为的实验装置及方法_国网江苏省电力有限公司无锡供电分公司_202410305270.7

一种快速锻造液压机_江苏拢研机械有限公司_202410351730.X

一种五金金属板材加工用激光切割机_南通邦华机械有限公司_202410493716.3

高安全性的电池防冲减震系统_三峡电能有限公司_202410415744.3

一种基于多任务学习的CMIES日前调度方案智能生成方法_中国矿业大学_202410324192.5

用于高压活塞泵的连杆和活塞以及用于泵送燃料的高压活塞泵_瓦锡兰芬兰有限公司_202180103342.4

文本相关技术

文本识别模型训练方法和装置、文本识别方法和装置_北京沃东天骏信息技术有限公司_202211521567.4

语音文本转换方法及装置_中译语通科技股份有限公司_202311369694.1

一种基于代码文本内容的代码保护方法及编译器文本锁_麒麟软件有限公司_202410308936.4

字号检测方法、文本处理方法及装置_抖音视界有限公司_202211567759.9

一种文本匹配方法及装置_上海销氪信息科技有限公司_202110856494.3

一种对话文本的分类及装置_中国移动通信有限公司研究院_202211562098.0

基于LLM的文本翻译方法、装置及程序产品_不鸣科技(杭州)有限公司_202410263623.1

文本对话方法、装置、电子设备及存储介质_中国平安人寿保险股份有限公司_202011563001.9

一种在线人工文本标记系统及方法_孙炜_202010469009.2

用于识别语音和文本的设备和方法_三星电子株式会社_201911106621.7

清洗相关技术

可更换清洗头的根管清洗按压装置_天津维瓦登泰生物科技有限公司_202322789186.0

一种真空清洗装置及基片清洗方法_中国电子科技集团公司第四十八研究所_202410114538.9

滚轮载具、清洗槽和清洗装置_通威太阳能(成都)有限公司_202322906974.3

pH计清洗装置_深圳能源资源综合开发有限公司_202322866926.6

喷淋清洗装置_苏州晶洲装备科技有限公司_202322684169.0

酒瓶清洗刷_承德避暑山庄企业集团股份有限公司_202322481094.6

盾构管片清洗设备_中铁二十局集团有限公司_202410274290.2

建筑模板清洗设备_江苏万立铝模科技有限公司_202410564223.4

取样针清洗系统_江苏三联生物工程股份有限公司_202410528280.7

试管清洗方法_江门市崖门新财富环保工业有限公司_202011502130.7

聚相关技术

一种聚肌苷酸-聚胞苷酸复合物的脂质纳米佐剂及其制备方法与应用_天津中逸安健生物科技有限公司_202410214864.7

一种聚羧酸减水剂复配系统_科之杰新材料集团有限公司_202410324140.8

制备聚氧化烯聚酯多元醇的方法_科思创德国股份有限公司_202280067410.0

新型聚氨醋颗粒分散乳化器_浙江大邦聚氨酯有限公司_202322333522.0

聚能盘锅架和燃气灶具_杭州老板电器股份有限公司_202323116225.7

二聚的肽-磷脂缀合物的优化方法_博莱科瑞士股份有限公司_201980077130.6

一种大口径聚能装药隔板_南京理工大学_202322898539.0

一种聚心防火节能热水壶_杨樾莹_202322724043.1

一种聚谷氨酸提纯装置_江苏远山生物技术有限公司_202322740824.X

一种制备聚多巴胺纳米纤维的方法_中国人民解放军陆军军医大学第二附属医院_202410381099.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】一种基于话题描述的文本聚类清洗和合并方法_北京中科闻歌科技股份有限公司;新华融合媒体科技发展(北京)有限公司_202310347961.9

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务