买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于Gap度量下的工业化工数据预处理的分类方法_杭州电子科技大学_202010813199.5 

申请/专利权人:杭州电子科技大学

申请日:2020-08-13

公开(公告)日:2024-02-27

公开(公告)号:CN111985550B

主分类号:G06F18/2413

分类号:G06F18/2413;G06F18/2135

优先权:

专利状态码:有效-授权

法律状态:2024.02.27#授权;2020.12.11#实质审查的生效;2020.11.24#公开

摘要:本发明公开了一种基于Gap度量下的工业化工数据预处理的分类方法。本发明的核心思想是将从工业化工系统采集到的Wine数据集构造成多维变量系统矩阵。然后通过Gap度量算法投影到黎曼球上,计算每个样本距离样本中心的Gap度量。变换后的数据矩阵再利用主成分分析PCA进行特征提取与降维,之后再运用机器学习中K近邻算法对降维后的数据进行分类。通过运用上述所提出方法进行仿真实现,具有较好的数据分类效果和分类准确率,从而验证了本发明的有效性。

主权项:1.基于Gap度量下的工业化工数据预处理的分类方法,其特征在于该方法包括以下步骤:步骤1、数据预处理:X1步,将工业系统采集到的化工葡萄酒数据集构造成多维变量系统数据矩阵Xn;X2步,设构造的样本数据矩阵Xn∈Rm×n如下 其中,行向量xij=[x1jx2j…xmj]T,i=1,2,…,m,j=1,2,…,n表示不同类别的样本数据中的,列向量属于同一个类别,但是具有不同特征的数据;对数据集矩阵Xn进行均值化处理得到; 这里,lm=[1,1,…,1]T∈Rm×1,bn是Xn的各变量样本中心向量;X3步,将数据矩阵Xn投影到黎曼球上,计算每个样本距离样本中心的Gap度量,Gap度量变换后的矩阵记为X* 其中Gap度量变换的公式如下 和表示两个实数xic,bnc在直径为1的黎曼球上的球面投影;变换后的数据矩阵为步骤2、PCA降维:Y1步,利用变换后的数据矩阵X*,计算样本相关矩阵R Y2步,求样本矩阵R的s个特征值和及其所对应的单位特征向量求解R的特征方程 得到R的m个特征值λ1≥λ2≥....≥λm求方差贡献率达到预定值的主成分个数s,s的取值使得累计方差贡献率达到规定的百分比以上;Y3步,求前s个特征值对应的单位特征向量αi=α1i,α2i,...αmiT,i=1,2,...,s9Y4步,求s个样本的主成分,以s个单位特征向量为系数进行线性变换,求出s个样本的主成分 Y5步,计算第s个主成分ys与原变量xi的相关系数ρys,xi,以及s个主成分yi对应对原变量xi的贡献率μi;其中计算公式如下: 其中σii是随机变量xi的方差,是协方差矩阵上面的对角元素; Y6步,计算n个样本的s个主成分值将样本数据代入10可以得到n个样本的主成分值,第j个样本xj=x1j,x2j,...,xmjT的第i主成分的值是 i=1,2,...,mj=1,2,...,n步骤3、KNN分类:Z1步,将进行PCA降维后的数据划分为训练样本集和测试样本集,在训练样本集中找到k-近邻,计算测试样本每一个样本xkk=1,2...,n;与训练样本之间的欧氏距离,并找到距离他最近的k个样本di,j=||xi-xj||2,i≠j13xi和xj分别表示两个样本,i,j=1,2...,n;Z2步,统计计算k个近邻中属于各类的概率 以上k表示k个近邻,ka表示k个近邻中属于α类的样本个数,α=1,2,...,c,其中c为样本中类别的个数;Z3步,计算类别,对于一个新的样本xk,根据上式计算其k个近邻并计算pα,将pα从大到小进行排序,pmaxα所属的类就是测试样本中的类;Z4步,首先对测试样本集中每个集合赋予已知的类别,然后根据KNN算法求解出预测的类别,最后统计分类准确率。

全文数据:

权利要求:

百度查询: 杭州电子科技大学 基于Gap度量下的工业化工数据预处理的分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。