【发明授权】基于最小正规化信息距离的判别式文本聚类方法及系统_中国科学技术大学_201911079897.0

申请/专利权人：中国科学技术大学

申请日：2019-11-06

公开（公告）日：2023-03-31

公开（公告）号：CN110955773B

主分类号：G06F16/35

分类号：G06F16/35

优先权：

专利状态码：有效-授权

法律状态：2023.03.31#授权;2020.05.01#实质审查的生效;2020.04.03#公开

摘要：本发明公开了一种基于最小正规化信息距离的判别式文本聚类方法及系统，该方法包括：对文本数据集进行向量化处理，该文本数据集包括多个文本，各个文本包括多个关键字；针对向量化处理的该文本数据集，初始化模型参数集；通过最小正规化信息距离以梯度下降法计算并更新该参数集；设置终止条件输出最终的参数集；利用最终的参数集设计判别式文本聚类算法实现文本聚类。本发明提供的该基于最小正规化信息距离的判别式文本聚类方法及系统，针对现有判别式聚类算法存在的模型选择问题，提出使用正规化信息测度作为目标函数的方法，使算法具有自动模型选择能力，从而提高了算法在人为选择的初始模型阶不合理的情况下获得较好的聚类结果的能力。

主权项：1.一种基于最小正规化信息距离的判别式文本聚类方法，其特征在于，包括：对文本数据集进行向量化处理，所述文本数据集包括多个文本，各个所述文本包括多个关键字，所述对文本数据集进行向量化处理包括：对所述文本数据集进行程序化处理，得到所述文本数据集中的每个关键字和各个所述关键字对应的程序化处理值的关系，记为key，value；对各个所述关键字按字典顺序排序并建立索引；将所述文本数据集中的每个文本的程序化处理值按其关键字对应的索引顺序排列成向量，作为所述文本的特征向量，综合各个所述文本的特征向量，记为：xi＝[value1，value2，...，valueM]，其中，i表示文本序号，M为所述文本数据集中相应索引下的所述关键字的总数；将所述向量化后的所述文本数据集{x1，...，xi，...，xN}进行降维处理，其中，N是所述文本数据集中文本的数量，xi表示第i个文本的所述特征向量；针对向量化处理的所述文本数据集，初始化模型参数集，所述初始化模型参数集包括：在所述向量化处理的所述文本数据集上执行聚类数为K的k均值算法，得到K个聚类{C1，C2，...，CK}，将属于Ck的数据标注其类别为k，1≤k≤K，获得带标签的数据集；针对所述带标签的数据集，执行多分类逻辑回归方法，获得初始化模型参数集所述初始化模型参数集对应一条件模型为：其中，x*T＝[xT，1]∈RD+1，表示参数的转置，x*T表示向量x*的转置，RD+1中D表示数据维度，R是实数集合，RD+1表示D+1维的实数空间，即表示w*的空间维度；通过最小正规化信息距离以梯度下降法计算并更新所述参数集，所述通过最小正规化信息距离以梯度下降法计算并更新所述参数集包括：基于初始参数集中的参数通过所述条件模型计算所述带标签的数据集中的聚类标签的经验分布：其中，1≤k≤K；初始化F的值，记录F2＝F；计算目标函数F的值及目标函数F关于参数的梯度，更新所述参数集；设置终止条件输出最终的所述参数集；利用所述最终的所述参数集设计判别式文本聚类算法实现文本聚类。

全文数据：

权利要求：

百度查询：中国科学技术大学基于最小正规化信息距离的判别式文本聚类方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：电子设备_深圳市嘉晋实业有限公司_202322601396.2

下一篇：一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

相关技术

电子设备_深圳市嘉晋实业有限公司_202322601396.2

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

一种环保型水处理设备_南京云涧环境科技有限公司_202322651322.X

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

龙图腾网&IPTOP

【发明授权】基于最小正规化信息距离的判别式文本聚类方法及系统_中国科学技术大学_201911079897.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务