买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于谱分解的自适应文档聚类方法及系统_中科曙光南京研究院有限公司_202011103403.0 

申请/专利权人:中科曙光南京研究院有限公司

申请日:2020-10-15

公开(公告)日:2024-04-02

公开(公告)号:CN112347246B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/253;G06F40/284;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2021.03.02#实质审查的生效;2021.02.09#公开

摘要:本发明提出了一种基于谱分解的自适应文档聚类方法及实现该方法的系统,实现将相似的文档归为一类,并将不相似的文档划分成不同的类别的目的,同时本发明提出的对应方法对于文本数据量大的情况拥有较好的自适应能力。其中所述方法,首先将文本通过分词,构建词表,去除低频词,合并近义词,根据词表构建文档向量,并进一步建立文档相似矩阵;根据相似矩阵的稀疏化处理,及拉普拉斯的计算,获得特征值和特征向量,并以此作为聚类数目的划分依据,在确定聚类中心后利用循环迭代的方式,从而获得文档聚类的结果。

主权项:1.一种基于谱分解的自适应文档聚类方法,其特征在于,包括:步骤一:将待进行聚类的文档转换成文档向量,在执行分词后,采用停用词的过滤、近义词合并以及剔除低词频,进行文档向量降维,获得文档矩阵B;步骤二:根据降维后的文档向量构造稀疏矩阵;所述稀疏矩阵通过预设的阈值对相似矩阵进行稀疏化处理;步骤三:根据拉普拉斯矩阵计算,获得作为聚类数目依据的特征值和特征向量;步骤四:确定聚类数目并将获得的特征矩阵进行归一化;步骤五:通过迭代,实现文档聚类,并将聚类结果输出至用户端的可视化界面;其中,所述文档向量的建立进一步为采用TF-IDF为N个文档建立文档向量,其中对于任意文档dj的词语ti,其对应的词频tfij、逆向文件频率idfi如下: 其中,nij表示词语ti在文档dj中出现的频次,|SD|表示文档的总数N,|{j:ti∈dj}|表示包含词语ti的文档数量;令tfidfij=tfij×idfi获得文档向量构成的矩阵A=tfidfijN×M,接着对文档进行进一步降维;其中对于词语ti包含其文档数目为Ni,进一步得到一个向量Ni,…,NM并对其从大到小进行排序,设定预定义的参数x,接着直接选取前M×x个分量保留,进而达到词向量压缩的效果;其最终得到的文档矩阵记为B=bijN×M;其中文档矩阵B的每行向量均表示一个对应的文档,其中所述N表示文档数量;相似矩阵S根据已有的文档矩阵B构造,进一步为:S=SijN×N i,j=1…N其中,b1,…bN中下标的数值表示文档矩阵B对应的一行,M表示自然数,N表示自然数,σ表示决定谱聚类效果的尺度参数,即: 其中,利用迭代计算任意两个文本TF-IDF向量之间的欧式距离,并将计算获得的距离值从高到低进行排序,然后选取其中前50%的距离值,求选取其中前50%的距离值的平均值,从而获得davg;所述步骤三进一步为:该步骤根据步骤二中获得的相似矩阵S进一步建立矩阵D,所述矩阵D的对角元素为dii,即: 其中sij表示相似矩阵,进一步根据矩阵D构建拉普拉斯矩阵L,即:L=D-12SD12鉴于矩阵L的对称稀疏性,使用Lanczos并通过迭代,进一步为调用scipy.sparse.1inalg.eigsh计算矩阵前预定参数量个最大特征值并按照大小排列如下:λ1≥λ2≥…≥λn其中n表示预定义的参数量个数,所述特征值对应的特征向量进一步表示为u1,u2,…,un;所述步骤四进一步为:该步骤通过接收步骤三获取的特征值,进一步计算特征值之差序列,并获得极大值和最大值,从而确定聚类数目K的大小以及特征矩阵,其中所述聚类数目K的确定方式进一步为首先,预定义两个阈值tol1,tol2,并进一步令gi=λi-λi+1M1=maxgi 其中,gi表示特征值之差序列,λi表示第i个特征值,M1表示特征值之差序列gi的最大值,M2表示特征值之差序列gi的第一个极大值,其中特征值按照从大到小排序后获得的对应下标号为I1,I2,当M2满足M2≥tol1×M1时,M=M2、K=I2+1;否则,M=M1,K=I1+1;当M<tol2时,K=1,否则K值保持不变;其中特征矩阵F由聚类数目K个特征向量u1,u2,…uK构成,即:F=fijN×K对所述特征矩阵进行归一化处理获得矩阵Y,进一步为: 其中i=1,2,…,N,j=1,2,…,N;所述步骤五进一步为:该步骤具体将步骤四中获得的矩阵Y中每一行看成一个样本,并将每个样本向量之间的余弦相似度作为距离的度量标准;进一步划分为如下流程:步骤5.1、从所有样本中随机选定第一个用于聚类的中心;步骤5.2、将所有点到上一个聚类中心的距离进行softmax归一化操作,并将归一化后的值作为该点被选为下一个聚类中心点的概率,随后对下一个聚类中心点进行选取;步骤5.3、判断是否满足K个聚类中心,不满足时,跳转至步骤5.2;满足时,则跳转至步骤5.4;步骤5.4、利用K-means++进行聚类,获得聚类结果C1,…,CK,并利用可视化前端编程语言,将聚类结果呈现至用户可视化界面。

全文数据:

权利要求:

百度查询: 中科曙光南京研究院有限公司 一种基于谱分解的自适应文档聚类方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。