【发明授权】一种基于谱分解的自适应文档聚类方法及系统_中科曙光南京研究院有限公司_202011103403.0

申请/专利权人：中科曙光南京研究院有限公司

申请日：2020-10-15

公开（公告）日：2024-04-02

公开（公告）号：CN112347246B

主分类号：G06F16/35

分类号：G06F16/35;G06F40/253;G06F40/284;G06F40/289

优先权：

专利状态码：有效-授权

法律状态：2024.04.02#授权;2021.03.02#实质审查的生效;2021.02.09#公开

摘要：本发明提出了一种基于谱分解的自适应文档聚类方法及实现该方法的系统，实现将相似的文档归为一类，并将不相似的文档划分成不同的类别的目的，同时本发明提出的对应方法对于文本数据量大的情况拥有较好的自适应能力。其中所述方法，首先将文本通过分词，构建词表，去除低频词，合并近义词，根据词表构建文档向量，并进一步建立文档相似矩阵；根据相似矩阵的稀疏化处理，及拉普拉斯的计算，获得特征值和特征向量，并以此作为聚类数目的划分依据，在确定聚类中心后利用循环迭代的方式，从而获得文档聚类的结果。

主权项：1.一种基于谱分解的自适应文档聚类方法，其特征在于，包括：步骤一：将待进行聚类的文档转换成文档向量，在执行分词后，采用停用词的过滤、近义词合并以及剔除低词频，进行文档向量降维，获得文档矩阵B；步骤二：根据降维后的文档向量构造稀疏矩阵；所述稀疏矩阵通过预设的阈值对相似矩阵进行稀疏化处理；步骤三：根据拉普拉斯矩阵计算，获得作为聚类数目依据的特征值和特征向量；步骤四：确定聚类数目并将获得的特征矩阵进行归一化；步骤五：通过迭代，实现文档聚类，并将聚类结果输出至用户端的可视化界面；其中，所述文档向量的建立进一步为采用TF-IDF为N个文档建立文档向量，其中对于任意文档dj的词语ti，其对应的词频tfij、逆向文件频率idfi如下：其中，nij表示词语ti在文档dj中出现的频次，|SD|表示文档的总数N，|{j：ti∈dj}|表示包含词语ti的文档数量；令tfidfij＝tfij×idfi获得文档向量构成的矩阵A＝tfidfijN×M，接着对文档进行进一步降维；其中对于词语ti包含其文档数目为Ni，进一步得到一个向量Ni，…，NM并对其从大到小进行排序，设定预定义的参数x，接着直接选取前M×x个分量保留，进而达到词向量压缩的效果；其最终得到的文档矩阵记为B＝bijN×M；其中文档矩阵B的每行向量均表示一个对应的文档，其中所述N表示文档数量；相似矩阵S根据已有的文档矩阵B构造，进一步为：S＝SijN×N i，j＝1…N其中，b1，…bN中下标的数值表示文档矩阵B对应的一行，M表示自然数，N表示自然数，σ表示决定谱聚类效果的尺度参数，即：其中，利用迭代计算任意两个文本TF-IDF向量之间的欧式距离，并将计算获得的距离值从高到低进行排序，然后选取其中前50％的距离值，求选取其中前50％的距离值的平均值，从而获得davg；所述步骤三进一步为：该步骤根据步骤二中获得的相似矩阵S进一步建立矩阵D，所述矩阵D的对角元素为dii，即：其中sij表示相似矩阵，进一步根据矩阵D构建拉普拉斯矩阵L，即：L＝D-12SD12鉴于矩阵L的对称稀疏性，使用Lanczos并通过迭代，进一步为调用scipy.sparse.1inalg.eigsh计算矩阵前预定参数量个最大特征值并按照大小排列如下：λ1≥λ2≥…≥λn其中n表示预定义的参数量个数，所述特征值对应的特征向量进一步表示为u1，u2，…，un；所述步骤四进一步为：该步骤通过接收步骤三获取的特征值，进一步计算特征值之差序列，并获得极大值和最大值，从而确定聚类数目K的大小以及特征矩阵，其中所述聚类数目K的确定方式进一步为首先，预定义两个阈值tol1，tol2，并进一步令gi＝λi-λi+1M1＝maxgi 其中，gi表示特征值之差序列，λi表示第i个特征值，M1表示特征值之差序列gi的最大值，M2表示特征值之差序列gi的第一个极大值，其中特征值按照从大到小排序后获得的对应下标号为I1，I2，当M2满足M2≥tol1×M1时，M＝M2、K＝I2+1；否则，M＝M1，K＝I1+1；当M＜tol2时，K＝1，否则K值保持不变；其中特征矩阵F由聚类数目K个特征向量u1，u2，…uK构成，即：F＝fijN×K对所述特征矩阵进行归一化处理获得矩阵Y，进一步为：其中i＝1，2，…，N，j＝1，2，…，N；所述步骤五进一步为：该步骤具体将步骤四中获得的矩阵Y中每一行看成一个样本，并将每个样本向量之间的余弦相似度作为距离的度量标准；进一步划分为如下流程：步骤5.1、从所有样本中随机选定第一个用于聚类的中心；步骤5.2、将所有点到上一个聚类中心的距离进行softmax归一化操作，并将归一化后的值作为该点被选为下一个聚类中心点的概率，随后对下一个聚类中心点进行选取；步骤5.3、判断是否满足K个聚类中心，不满足时，跳转至步骤5.2；满足时，则跳转至步骤5.4；步骤5.4、利用K-means++进行聚类，获得聚类结果C1，…，CK，并利用可视化前端编程语言，将聚类结果呈现至用户可视化界面。

全文数据：

权利要求：

百度查询：中科曙光南京研究院有限公司一种基于谱分解的自适应文档聚类方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种旋转式防撞护栏和混凝土护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419697.3

下一篇：CNC加工用快速换线治具_东莞华清光学科技有限公司_202322418777.7

相关技术

一种旋转式防撞护栏和混凝土护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419697.3

CNC加工用快速换线治具_东莞华清光学科技有限公司_202322418777.7

一种玉米种植用病虫害防治装置_黄金双_202322446508.1

一种LED线性地埋灯_上海科铃纳光电科技有限公司_202322244017.9

一种接触器触头机构_杭州玛实迪电器科技有限公司_202322179096.X

一种液压锁密闭性测试装置_靖江市长源液压机械有限公司_202322518953.4

电池壳清洗用旋转框架安装槽的限位结构_无锡金杨丸伊电子有限公司_202322328357.X

一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

一种环形导轨间歇循环通电装置_东莞市臻域自动化设备有限公司_202322566793.0

一种新型立式磷石膏废料破碎机_湖北旭特建材科技有限公司_202322371565.8

一种具有除臭机构的集成中央气体处理装置_龙岩忠友环境科技有限公司_202322062347.6

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

文档相关技术

文档分类方法、装置及电子设备_北京百度网讯科技有限公司_202110737169.5

一种文档打孔装置_潍坊恒诚祥精密机械科技有限公司_202420454786.3

基于图像的文档中的自动语言识别_甲骨文国际公司_202280058262.6

协作文档访问记录和管理_谷歌有限责任公司_201880066578.3

文档数据处理方法、装置和存储介质_北京百度网讯科技有限公司_202010576528.9

一种文档表格自动检测方法_哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)_202311863158.7

文档表格识别方法、装置、设备及存储介质_平安国际智慧城市科技股份有限公司_202110851182.3

一种合同文档分拣设备_潍坊恒诚祥精密机械科技有限公司_202420422922.0

一种文档信息管理箱_四川智达佳业信息技术有限公司_202320942087.9

接口文档的生成方法、装置、设备、存储介质及程序产品_中国建设银行股份有限公司_202410086847.X

聚相关技术

一种蜂群银窝聚能静音装置_朱杰益_201811522848.5

聚晶金刚石制作的胸针_河南景链新材料有限公司_202322558617.2

经填充的聚芳醚酮粉末、为此的制造方法及其用途_阿科玛法国公司_202080083614.4

一种新型聚多巴胺限域氧化沉积方法与应用_中国人民解放军陆军军医大学第二附属医院_202311078553.4

一种聚羧酸保坍剂及其制备方法_重庆建研科之杰建材有限公司_202111498836.5

一种聚双环戊二烯复合材料及其制备方法_中国石油化工股份有限公司_201910999181.6

一种常温低聚水簇的制备装置_北京石尚新材料科技有限公司_202321968746.2

生物基耐溶剂聚氨酯预聚体及其制备方法和应用_山东一诺威聚氨酯股份有限公司_202311825767.3

一种由虾壳制备低聚壳聚糖用清洗装置_沧州市农林科学院_202322615491.8

一种聚磷酸铵阻燃剂生产用氨气回收装置_浙江富锦新材料有限公司_202322318718.2

自适应相关技术

一种自适应标定系统_深圳市光鉴科技有限公司_202211283789.7

一种自适应式绕管机构_恩格尔机械(上海)有限公司_202320875638.4

一种自适应启动时间补偿装置_漳州立达信光电子科技有限公司_202322145239.5

通过使用自适应颜色空间变换处理视频信号的方法和设备_韦勒斯标准与技术协会公司_202080081442.7

一种LED电源的电流自适应调节电路_珠海市圣昌电子有限公司_202420576390.6

一种自适应缝隙调节可变弯度导叶设计方法及其装置_中国人民解放军空军工程大学_202111472323.7

一种基于快速傅里叶变换的自适应滤波方法_有研(广东)新材料技术研究院_202311611317.4

导水家用器具中自由流泵的自适应转速调整_BSH家用电器有限公司_202311356684.4

一种自适应土层承载力要求的结构平台体系_煤炭工业合肥设计研究院有限责任公司_201910092510.9

基于日志反馈的中文医学术语自适应对齐方法_广州中康数字科技有限公司_202310647595.9

龙图腾网&IPTOP

【发明授权】一种基于谱分解的自适应文档聚类方法及系统_中科曙光南京研究院有限公司_202011103403.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务