买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于filter–wrapper框架的电子鼻数据特征选择方法_浙江大学_201910530391.0 

申请/专利权人:浙江大学

申请日:2019-06-19

公开(公告)日:2021-07-13

公开(公告)号:CN110378229B

主分类号:G06K9/00(20060101)

分类号:G06K9/00(20060101);G06K9/62(20060101)

优先权:

专利状态码:有效-授权

法律状态:2021.07.13#授权;2019.11.19#实质审查的生效;2019.10.25#公开

摘要:本发明公开了一种基于filter–wrapper框架的电子鼻数据特征选择方法。1、使用电子鼻采集待测样品气味数据,建立样本训练集和样本测试集;2、提取原始样本数据集的时域特征和频域特征,并将提取的特征按序号进行标记,并将特征集进行归一化处理;3、采用一种混合互信息评价方法对特征集进行初次筛选,提出大部分不相关特征及少量冗余特征,使用序列后向选择算法生成特征子集并支持向量机算法评估特征子集,最终得到最优特征子集;4、借助支持向量机分类器,构建基于选择后的最优特征子集分类模型,完成对待测样品的分类。本发明结合了filter选择算法和wrapper选择算法的优点,利用其互补特性剔除电子鼻数据中的不相关特征和冗余特征,提高了电子鼻的检测性能。

主权项:1.一种基于filter-wrapper框架的电子鼻数据特征选择方法,其特征在于,包括如下步骤:1使用电子鼻对待测样品进行检测,获得电子鼻的响应曲线,并标记所有样本标签;2将所述响应曲线去基线,提取响应曲线的时域特征和频域特征并按序号进行标记,得到特征序号集L=[l1,l2,...li,...lk],其中li为第i个特征对应的特征序号,k表示特征数;3获得时域特征和频域特征的样本数据构成特征集S,归一化处理得到特征集S0,并将特征集S0分为训练特征集S1和测试特征集S2;其中S0∈Rm×k,S1∈Ra×k,S2∈Rb×k,m表示样本数,a+b=m;4使用混合互信息评价法对训练特征集S1进行特征选择,得到特征子集S3;具体为:4.1采用互信息理论计算训练特征集S1中的第i个特征向量与样本标签之间的互信息A,计算公式具体为:A=IXi;Y其中,Xi表示训练特征集S1中的第i个特征向量,Y表示样本标签;4.2计算训练特征集S1中的第i个特征向量与所述训练特征集S1中其余特征向量的互信息的均值B,其计算公式具体为: 其中,n表示训练特征集S1中除第i个特征向量Xi的剩余特征向量数;Xj表示训练特征集S1中第j个特征向量,j≠i;4.3计算训练特征集S1中的第i个特征向量与所述训练特征集S1中其余所有特征向量的条件互信息的均值D,计算公式具体为: 4.4计算训练特征集S1中的第i个特征向量的混合互信息值MIME,并设定筛选阈值T,若特征向量Xi的混合互信息值MIME大于T,则保留特征向量Xi,若否,则从训练特征集S1中剔除特征向量Xi,计算公式具体为:MIMEXi=A-α*B-β*D其中,α、β表示权重,MIMEXi表示特征向量Xi的混合互信息值;4.5重复步骤4.1-4.4,直至训练特征集S1中所有特征向量Xi都经过选择,i=[1,2,...k],根据S1中剩余的特征向量生成训练特征子集S3;5采用后向递归消除法作为搜索方法,采用支持向量机作为学习算法,对特征子集S3进行迭代选择,得到特征子集S4;6进一步得到所述特征子集S4中的特征序号li,组成特征序号子集根据特征序号子集中的特征序号对测试特征集S2进行特征选择,生成测试特征子集S5。

全文数据:一种基于filter–wrapper框架的电子鼻数据特征选择方法技术领域本发明涉及农产品检测领域,特别涉及一种基于filter-wrapper框架的电子鼻数据特征选择方法。背景技术电子鼻对农产品的响应信号原始维度较大,高维度的数据给模式识别带来了巨大的挑战,因此常对电子鼻原始响应曲线进行特征提取。但是从电子鼻响应曲线中提取出来的特征集中存在大量的不相关信息和冗余信息,这些信息会对后续建立的分类和回归模型产生巨大的干扰。因此有必要对特征集进行降维处理,而目前应用在电子鼻领域中的降维方法分为特征提取和特征选择两大类,其中,特征选择不改变数据的原始结构,可以很直观的理解降维后的数据中包含的信息。特征选择分为过滤式和封装式,过滤式特征选择算法能够对原始特征集进行快速预筛选,但是该方法采用的评估准则与后续学习算法独立,导致该方法的后续模式识别性能相对较低。而封装式特征选择算法与后续分类器紧密相关,因其直接使用分类器的识别率评价特征性能,并将选择所得特征直接用于所构造最终的分类模型,因此,封装式特征选择相对于过滤式特征选择具有更好的分类识别性能,但是由于在选择过程中参与大量的迭代运算,因此该方法耗时较长。本发明提出一种基于filter–wrapper框架的电子鼻数据特征选择方法,该方法在减少运算量的条件下,同时剔除不相关特征和冗余特征,进而提升电子鼻的性能。发明内容本发明的目的在于提供一种基于filter–wrapper框架的电子鼻数据特征选择方法,结合filter特征选择方法和wrapper特征选择方法优点,一方面可以有效剔除原始特征集中的不相关特征,另一方面可以有效地剔除原始特征集中的冗余特征。具有减少后续分类或回归模型的计算量以及提高模型预测能力的优点,有效地提高了电子鼻系统的检测能力,并减少了计算时间。本发明的技术方案是:一种基于filter–wrapper的电子鼻数据特征选择方法,具体包括以下步骤:1.使用电子鼻对待测样品进行检测,获得电子鼻的响应曲线,并标记所有样本标签;2.将所述响应曲线去基线,提取响应曲线的时域特征和频域特征并按序号进行标记,得到特征序号集L=[l1,l2,…li,…lk],其中li为第i个特征对应的特征序号,k表示特征数;3.获得时域特征和频域特征的样本数据构成特征集S,归一化处理得到特征集S0,并将特征集S0分为训练特征集S1和测试特征集S2;其中S0∈Rm×k,S1∈Ra×k,S2∈Rb×k,m表示样本数,a+b=m;4.使用混合互信息评价法对训练特征集S1进行特征选择,得到特征子集S3;5.采用后向递归消除法作为搜索方法,采用支持向量机作为学习算法,对特征子集S3进行迭代选择,得到特征子集S4;6.进一步得到所述特征子集S4中的特征序号li,组成特征序号子集根据特征序号子集中的特征序号对测试特征集S2进行特征选择,生成测试特征子集S5。进一步的,步骤2中对所有样本数据进行去基线处理,具体公式如下:Rnew=Ri-Rbaseline其中,Ri表示第i个响应曲线值,Rbaseline表示基线,Rnew表示去基线后的响应值;所述时域特征为去基线后的响应曲线的均值、最大斜率值、最大差分值、面积值、稳定值的均值和平均微分值,所述频域特征为去基线后的响应曲线经傅里叶变换后的直流分量的幅值和一阶谐波分量的幅值,以及去基线后的响应曲线经小波变换后的低频分量的能量值和高频分量的能量值。进一步的,所述步骤3对特征集S0进行归一化处理,具体公式如下:其中,fij表示第i个特征的第j个值,fimax和fimin分别表示第i个特征的最大值和最小值,表示归一化后的第i个特征的第j个值。进一步的,所述步骤4具体为:4.1采用互信息理论计算训练特征集S1中的第i个特征向量与样本标签之间的互信息A,计算公式具体为:A=IXi;Y其中,Xi表示训练特征集S1中的第i个特征向量,Y表示样本标签;4.2计算训练特征集S1中的第i个特征向量与所述训练特征集S1中其余特征向量的互信息的均值B,其计算公式具体为:其中,n表示训练特征集S1中除第i个特征向量Xi的剩余特征向量数;Xj表示训练特征集S1中第j个特征向量,j≠i;4.3计算训练特征集S1中的第i个特征向量与所述训练特征集S1中其余所有特征向量的条件互信息的均值D,计算公式具体为:4.4计算训练特征集S1中的第i个特征向量的混合互信息值MIME,并设定筛选阈值T,若特征向量Xi的混合互信息值MIME大于T,则保留特征向量Xi,若否,则从训练特征集S1中剔除特征向量Xi,计算公式具体为:MIMEXi=A-α*B-β*D其中,α、β表示权重,MIMEXi表示特征向量Xi的混合互信息值;4.5重复步骤4.1–4.4,直至训练特征集S1中所有特征向量Xi都经过选择,i=[1,2,…k],根据S1中剩余的特征向量生成训练特征子集S3。进一步的,所述步骤5具体为:5.1将训练特征子集S3按7:3比例随机分为训练特征子集和训练特征子集5.2采用支持向量机训练基于的学习模型,并对进行预测,得到预测准确率P1;5.3采用后向特征递归消除法作为搜索方法,从中随机剔除一个特征向量,生成训练特征子集并从中剔除对应特征序号的特征向量,生成训练特征子集采用支持向量机训练基于的学习模型,并对进行预测,得到预测准确率P2;5.4对比P1与P2的大小,若P1>P2,则在S3中保留步骤5.2所述特征向量;否则,则从S3中剔除步骤5.2所述特征向量;5.5重复步骤5.1–步骤5.4,直至S3中的特征向量全部被后向递归消除法随机挑选完或S3中剩余的特征数达到预设定特征数,根据S3中剩余的特征向量生成最终训练特征子集S4。进一步的,所述步骤6具体为:将最终训练特征子集S4中所有的特征向量与所述特征集S0中特征向量进行对比,将相同的特征向量对应的特征序号组成特征序号子集并根据中的特征序号对所述测试特征集S2做特征选择,生成最终测试特征子集S5。本发明具有以下有益效果:1本发明提取电子鼻响应曲线的时域特征和频域特征,降低了原始数据集的维数,并最大限度代表响应曲线的整体特征;2本发明在filter阶段,提出的混合互信息特征选择法,不仅考虑了剔除大量不相关特征,还剔除了少量的冗余特征,大大降低了特征维数;3本发明在wrapper阶段,改进了后向特征递归消除法,减少了迭代次数;4本发明提出的基于filter–wrapper特征选择算法,不仅有效的降低了电子鼻数据的维数,还减少了计算成本。附图说明图1是电子鼻检测不同等级火腿样本传感器响应信号图,其中a为一级火腿的电子鼻响应曲线,b为二级火腿的电子鼻响应曲线,c为三级火腿的电子鼻响应曲线;图2是实施例中基于filter选择算法的特征选择方法的具体流程示意图;图3是实施例中基于wrapper选择算法的特征选择方法的具体流程示意图。具体实施方式为了便于本领域普通技术人员理解和实施本发明,下面结合附图并以不同等级金华火腿作为实验对象对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。步骤一、使用电子鼻对待测样品进行检测,获得电子鼻的响应曲线,并标记所有样本标签。本实施例中,以不同等级金华火腿作为实验对象,实验样本由金字火腿股份有限公司提供,分别为一级、二级和三级火腿样本,将火腿样本切成2×2×2mm大小,称取15g火腿作为样本,各个等级火腿150个样本,每个火腿样本放进150ml烧杯中顶空,组成待测样本。在室温下顶空30min,使该顶空装置内挥发物浓度达到稳定,使用电子鼻对这450个实验样本进行检测,设置30s预清洗时间,60s进样时间,80s清洗时间,使传感器归零获得电子鼻的响应曲线。三种不同等级火腿的电子鼻响应曲线如图1所示,a为一级火腿的电子鼻响应曲线,b为二级火腿的电子鼻响应曲线,c为三级火腿的电子鼻响应曲线。不同传感器的相应强度有很大的差别,以及同一传感器对不同等级火腿的响应强度也有差别。清洗速度为600mlmin,进样速度为300mlmin。并对所有样本数据的类别进行标记。本实施例中应用的是自制的电子鼻系统为检测仪器,由12个金属氧化物传感器,其型号与相应特性如表1所示:表1自制电子鼻各传感器的相应特征步骤二、对所有样本数据进行去基线处理,具体公式如下:Rnew=Ri-Rbaseline其中,Ri表示第i个响应曲线值,Rbaseline表示基线,Rnew表示去基线后的响应值;为了减少原始数据集的维数,需要对原始数据集进行降维处理,同时又期望降维后的特征能够保留尽可能全面的有效数据,本发明提取响应曲线的时域特征和频域特征,时域特征为响应曲线的均值、最大斜率值、最大差分值、面积值、稳定值的均值和平均微分值,频域特征包括去基线后的响应曲线经傅里叶变换后的直流分量的幅值和一阶谐波分量的幅值,及去基线后的响应曲线经小波变换后的低频分量的能量值和高频分量的能量值;将提取的时域特征和频域特征按序号进行标记,得到特征序号集L=[l1,l2,…li,…lk],其中li为第i个特征对应的特征序号。步骤三、获得时域特征和频域特征的样本数据构成特征集S,对特征集S进行归一化处理得到特征集S0,其中S0∈R450×120,样本数为450,特征数为120,具体公式如下:其中,fij表示第i个特征的第j个值,fimax和fimin分别表示第i个特征的最大值和最小值,表示归一化后的第i个特征的第j个值;每个等级实验样本的特征集按6:4分为训练特征集S1和测试特征集S2,其中S1∈R270×120,S2∈R180×120。步骤四、采用互信息特征选择方法进行filter阶段的特征选择,具体流程图如图2所示。4.1首先根据互信息理论计算特征集S1中的第i个特征向量与样本标签之间的互信息A,计算公式具体如下:A=IXi;Y其中,Xi表示训练特征集S1中的第i个特征向量,Y表示样本标签,A表示Xi与Y之间的互信息,其值越大,表示特征Xi与标签Y之间越相关;4.2计算训练特征集S1中的第i个特征向量与所述训练特征集S1中其余特征向量的互信息的均值B,其计算公式具体为:其中,n表示训练特征集S1中除第i个特征向量Xi的剩余特征向量数,Xj表示训练特征集S1中第j个特征向量,j≠i;B表示特征向量Xi与剩余特征向量的互信息的均值,其值越大,表示特征向量Xi冗余度越高;4.3已知样本类别时,计算训练特征集S1中的第i个特征向量与训练特征集S1中剩余所有特征向量的条件互信息的均值,计算公式具体为:D表示特征向量Xi与剩余所有特征向量之间的条件互信息的均值,其值越大,表示特征向量Xi与剩余所有特征向量之间的相关性越大;4.4计算训练特征集S1中的第i个特征向量的混合互信息值,并设定筛选阈值T=0,若特征向量Xi的混合互信息值MIME大于0,则保留特征向量Xi;若否,从训练特征集S1中剔除特征向量Xi;计算公式具体为:MIMEXi=A-α*B-β*D其中,A、B、D如上述所述,α、β表示权重,MIMEXi表示特征向量Xi的混合互信息值,其值越大,证明该特征越与类别相关;4.5重复上述步骤4.1–4.4,直至训练特征集S1中所有特征向量都经过选择,根据S1中剩余的特征向量生成训练特征子集S3,经过此步骤,原始特征集中的大量不相关数据和少量冗余数据被剔除。在本实施例中的filter阶段共剔除67个特征,保留了53个特征。步骤五、采用后向递归消除法作为搜索方法进行wrapper阶段的特征选择,具体流程图如图3所示。5.1将训练特征子集S3按7:3比例随机分为训练特征子集和训练特征子集5.2在wrapper阶段,本发明采用支持向量机训练基于的学习模型,并对训练特征子集进行预测,得到预测准确率P1;5.3采用后向特征递归消除法作为搜索方法,从中随机剔除一个特征向量,生成训练特征子集并从中剔除对应特征序号的特征向量,生成训练特征子集采用支持向量机训练基于的学习模型,并对进行预测,得到预测准确率P2;5.4对比P1与P2的大小,若P1>P2,则在S3中保留步骤5.2所述特征向量;否则,则从S3中剔除步骤5.2所述特征向量;5.5重复步骤5.1–5.4,直至S3中的特征向量全部被后向递归消除法随机挑选完或S3中剩余的特征数达到预设定特征数,根据S3中剩余的特征向量生成最终训练特征子集S4;经过filter阶段的特征选择,特征集S1中的大部分不相关特征和少量冗余特征被剔除,且特征集维数大大减少,减小了wrapper阶段的计算量,wrapper阶段经过多次迭代剔除了大量的冗余数据。在本实施例中的wrapper阶段剔除31个特征,最终保留了22个特征。步骤六、分别采用支持向量机、逻辑斯蒂回归和K近邻算法基于S4中特征建立预测模型,并根据S4中所剩余特征的序号对S2进行特征选择,最后基于预测模型对S2中样本数据类别进行预测,预测准确率和所使用时间如表2所示:表2预测结果从结果可以看出,只要采用本发明方法对训练样本和测试样本进行特征筛选,而后无论采用哪种学习算法建立的模型,模型预测准确率均在百分之九十以上,说明基于混合互信息法对特征进行初次筛选,然后采用支持向量机作为学习算法,后向特征递归消除法作为搜索算法对特征集进行二次筛选的特征选择方法对电子鼻数据具有良好的应用效果,说明该方法具有较高的推广应用价值。

权利要求:1.一种基于filter–wrapper框架的电子鼻数据特征选择方法,其特征在于,包括如下步骤:1使用电子鼻对待测样品进行检测,获得电子鼻的响应曲线,并标记所有样本标签;2将所述响应曲线去基线,提取响应曲线的时域特征和频域特征并按序号进行标记,得到特征序号集L=[l1,l2,…li,…lk],其中Li为第i个特征对应的特征序号,k表示特征数;3获得时域特征和频域特征的样本数据构成特征集S,归一化处理得到特征集S0,并将特征集S0分为训练特征集S1和测试特征集S2;其中S0∈Rm×k,S1∈Ra×k,S2∈Rb×k,m表示样本数,a+b=m;4使用混合互信息评价法对训练特征集S1进行特征选择,得到特征子集S3;5采用后向递归消除法作为搜索方法,采用支持向量机作为学习算法,对特征子集S3进行迭代选择,得到特征子集S4;6进一步得到所述特征子集S4中的特征序号li,组成特征序号子集根据特征序号子集中的特征序号对测试特征集S2进行特征选择,生成测试特征子集S5。2.根据权利要求1所述的基于filter–wrapper框架的电子鼻数据特征选择方法,其特征在于步骤2中所述时域特征为去基线后的响应曲线的均值、最大斜率值、最大差分值、面积值、稳定值的均值和平均微分值,所述频域特征为去基线后的响应曲线经傅里叶变换后的直流分量的幅值和一阶谐波分量的幅值,以及去基线后的响应曲线经小波变换后的低频分量的能量值和高频分量的能量值。3.根据权利要求1所述的基于filter–wrapper框架的电子鼻数据特征选择方法,其特征在于所述步骤4具体为:4.1采用互信息理论计算训练特征集S1中的第i个特征向量与样本标签之间的互信息A,计算公式具体为:A=IXi;Y其中,Xi表示训练特征集S1中的第i个特征向量,Y表示样本标签;4.2计算训练特征集S1中的第i个特征向量与所述训练特征集S1中其余特征向量的互信息的均值B,其计算公式具体为:其中,n表示训练特征集S1中除第i个特征向量Xi的剩余特征向量数;Xj表示训练特征集S1中第j个特征向量,j≠i;4.3计算训练特征集S1中的第i个特征向量与所述训练特征集S1中其余所有特征向量的条件互信息的均值D,计算公式具体为:4.4计算训练特征集S1中的第i个特征向量的混合互信息值MIME,并设定筛选阈值T,若特征向量Xi的混合互信息值MIME大于T,则保留特征向量Xi,若否,则从训练特征集S1中剔除特征向量Xi,计算公式具体为:MIMEXi=A-α*B-β*D其中,α、β表示权重,MIMEXi表示特征向量Xi的混合互信息值;4.5重复步骤4.1–4.4,直至训练特征集S1中所有特征向量Xi都经过选择,i=[1,2,…k],根据S1中剩余的特征向量生成训练特征子集S3。4.根据权利要求1所述的基于filter–wrapper框架的电子鼻数据特征选择方法,其特征在于所述步骤5具体为:5.1将训练特征子集S3按比例随机分为训练特征子集和训练特征子集5.2采用支持向量机训练基于的学习模型,并对进行预测,得到预测准确率P1;5.3采用后向特征递归消除法作为搜索方法,从中随机剔除一个特征向量,生成训练特征子集并从中剔除对应特征序号的特征向量,生成训练特征子集采用支持向量机训练基于的学习模型,并对进行预测,得到预测准确率P2;5.4对比P1与P2的大小,若P1>P2,则在S3中保留步骤5.2所述特征向量;否则,则从S3中剔除步骤5.2所述特征向量;5.5重复步骤5.1–5.4,直至S3中的特征向量全部被后向递归消除法随机挑选完或S3中剩余的特征数达到预设定特征数,根据S3中剩余的特征向量生成最终训练特征子集S4。5.根据权利要求1所述的基于filter–wrapper框架的电子鼻数据特征选择方法,其特征在于步骤6具体为:将最终训练特征子集S4中所有的特征向量与所述特征集S0中特征向量进行对比,将相同的特征向量对应的特征序号组成特征序号子集并根据中的特征序号对所述测试特征集S2做特征选择,生成最终测试特征子集S5。

百度查询: 浙江大学 一种基于filter–wrapper框架的电子鼻数据特征选择方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。