买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于最小正规化信息距离的判别式文本聚类方法及系统_中国科学技术大学_201911079897.0 

申请/专利权人:中国科学技术大学

申请日:2019-11-06

公开(公告)日:2023-03-31

公开(公告)号:CN110955773B

主分类号:G06F16/35

分类号:G06F16/35

优先权:

专利状态码:有效-授权

法律状态:2023.03.31#授权;2020.05.01#实质审查的生效;2020.04.03#公开

摘要:本发明公开了一种基于最小正规化信息距离的判别式文本聚类方法及系统,该方法包括:对文本数据集进行向量化处理,该文本数据集包括多个文本,各个文本包括多个关键字;针对向量化处理的该文本数据集,初始化模型参数集;通过最小正规化信息距离以梯度下降法计算并更新该参数集;设置终止条件输出最终的参数集;利用最终的参数集设计判别式文本聚类算法实现文本聚类。本发明提供的该基于最小正规化信息距离的判别式文本聚类方法及系统,针对现有判别式聚类算法存在的模型选择问题,提出使用正规化信息测度作为目标函数的方法,使算法具有自动模型选择能力,从而提高了算法在人为选择的初始模型阶不合理的情况下获得较好的聚类结果的能力。

主权项:1.一种基于最小正规化信息距离的判别式文本聚类方法,其特征在于,包括:对文本数据集进行向量化处理,所述文本数据集包括多个文本,各个所述文本包括多个关键字,所述对文本数据集进行向量化处理包括:对所述文本数据集进行程序化处理,得到所述文本数据集中的每个关键字和各个所述关键字对应的程序化处理值的关系,记为key,value;对各个所述关键字按字典顺序排序并建立索引;将所述文本数据集中的每个文本的程序化处理值按其关键字对应的索引顺序排列成向量,作为所述文本的特征向量,综合各个所述文本的特征向量,记为:xi=[value1,value2,...,valueM],其中,i表示文本序号,M为所述文本数据集中相应索引下的所述关键字的总数;将所述向量化后的所述文本数据集{x1,...,xi,...,xN}进行降维处理,其中,N是所述文本数据集中文本的数量,xi表示第i个文本的所述特征向量;针对向量化处理的所述文本数据集,初始化模型参数集,所述初始化模型参数集包括:在所述向量化处理的所述文本数据集上执行聚类数为K的k均值算法,得到K个聚类{C1,C2,...,CK},将属于Ck的数据标注其类别为k,1≤k≤K,获得带标签的数据集;针对所述带标签的数据集,执行多分类逻辑回归方法,获得初始化模型参数集所述初始化模型参数集对应一条件模型为: 其中,x*T=[xT,1]∈RD+1,表示参数的转置,x*T表示向量x*的转置,RD+1中D表示数据维度,R是实数集合,RD+1表示D+1维的实数空间,即表示w*的空间维度;通过最小正规化信息距离以梯度下降法计算并更新所述参数集,所述通过最小正规化信息距离以梯度下降法计算并更新所述参数集包括:基于初始参数集中的参数通过所述条件模型计算所述带标签的数据集中的聚类标签的经验分布:其中,1≤k≤K;初始化F的值,记录F2=F;计算目标函数F的值及目标函数F关于参数的梯度,更新所述参数集;设置终止条件输出最终的所述参数集;利用所述最终的所述参数集设计判别式文本聚类算法实现文本聚类。

全文数据:

权利要求:

百度查询: 中国科学技术大学 基于最小正规化信息距离的判别式文本聚类方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。