【发明授权】一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法_北京工商大学;中国检验检疫科学研究院_202111195188.6

申请/专利权人：北京工商大学;中国检验检疫科学研究院

申请日：2021-10-13

公开（公告）日：2024-03-26

公开（公告）号：CN113933334B

主分类号：G01N24/08

分类号：G01N24/08;G06N20/00

优先权：

专利状态码：有效-授权

法律状态：2024.03.26#授权;2022.02.01#实质审查的生效;2022.01.14#公开

摘要：本发明公布了一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法，包括：采集真假蜂蜜样品并生成洋槐蜜数据；对洋槐蜜数据进行真假标注得到洋槐蜜数据集；通过特征选择得到低维洋槐蜜数据集；构建蜂蜜真假鉴别模型RF‑XGBoost；对模型进行参数优化和模型验证；利用训练好的模型对待测蜂蜜进行真伪鉴别。本发明方法可有效精准地鉴别洋槐蜜的真伪，避免人工查看谱图进行真伪鉴别的误差，有效提高了洋槐蜜真伪鉴别的准确率、均方根误差和AUC值，降低了数据特征维数、模型训练时间、模型复杂度和过拟合的风险，是一种鉴别洋槐蜜真伪的有效方法。

主权项：1.一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法，其特征是，包括：采集真假蜂蜜样品并生成洋槐蜜数据；对洋槐蜜数据进行真假标注得到洋槐蜜数据集；通过谱图特征选择得到低维洋槐蜜数据集；构建蜂蜜真假鉴别模型RF-XGBoost；对模型进行参数优化和模型验证；利用模型对待测蜂蜜进行真伪鉴别；具体包括以下步骤：A：采集和制备蜂蜜样品，包括真蜂蜜样品和假蜂蜜样品，并生成洋槐蜜数据；通过核磁共振技术，对蜂蜜样品进行NOESY1D检测，得到检测蜂蜜样品的一维氢信号谱图，进而对谱图进行数字化转换，得到多个反映洋槐蜜样品谱图特征的真假洋槐蜜数据记录；B：对洋槐蜜数据记录进行真假标注，得到洋槐蜜数据集；对步骤A中得到的洋槐蜜数据中的每一条记录添加真假标签属性，用于表示洋槐蜜为真蜂蜜或掺假蜂蜜；每一条记录按照一定规则再添加一个样本名称属性；将得到的洋槐蜜数据集记为D；洋槐蜜数据集D包括反映洋槐蜜样品谱图的多个特征；C：选择谱图特征；从洋槐蜜数据集D反映谱图特征的多个特征中选择重要性程度大的前p个特征为最终特征集合，根据最终特征集合得到低维的洋槐蜜数据集，记为D′，用于模型的构建和训练；具体是采用随机森林算法得到洋槐蜜数据集D中每个特征的重要性大小，并对特征重要性程度大小进行排序；然后选取前p个特征为最终特征集合；包括如下步骤：C1：构建包含多棵决策树的随机森林；随机森林中的每一棵决策树均为二叉树，即为一个分类器；决策树中的每个节点表示洋槐蜜数据集的一个子集；节点纯度最高的特征作为最优特征；C2：特征重要性评估：计算每个特征Cj的重要性评分VIMj，即计算第j个特征Cj在随机森林所有决策树中节点分裂纯度的平均改变量；计算洋槐蜜数据集D中每个特征在随机森林中的每棵决策树上的贡献；取平均值，得到每个特征的贡献程度即重要性程度，采用基尼Gini指数表示；Gini指数值越小表示集合中被选中的元素被分错的概率越小，也就是集合的纯度越高；通过式4计算得到Gini指数的值：式中，GIm为决策树中节点m的Gini值；pmk代表节点m中样本属于第k类的概率估计值，K代表样本集的类别个数；类别分为真蜂蜜和假蜂蜜两个类别，即K＝2，此时节点m的Gini指数为式5:GIm＝2pm1-pm5其中，pm为洋槐蜜样本在节点m属于任意一类的概率估计值；设决策树分枝时，根据特征F是否取某一可能的值f，将洋槐蜜数据集合D分割成D1和D2两部分，即：D1＝{x,y∈D|Fx＝f},D2＝D-D1；其中x为洋槐蜜样本，y为样本x对应的标签值；则在特征F在取值f的条件下，集合D的基尼指数定义为式6：其中，和由式5计算，|D|表示集合D中样本的个数；特征Cj在节点m中的重要性即决策树中的节点m分枝前后的Gini指数变化量，由式7计算得到：其中，GIL和GIR分别表示分枝之后两个新节点的Gini指数；如果特征Cj在第l棵决策树中出现M次，则Cj在第l棵树的重要性表示为：若随机森林共有n棵决策树，特征Cj在随机森林中的重要性表示为：将所有求得的重要性评分进行归一化处理，得到重要性评分VIMj： C3：特征选取；包括：使用洋槐蜜数据集D中176个特征的重要性评分，根据重要性进行降序排序之后得到特征序列λλ1,λ2,…,λp,…,λ176，假定阈值为γ，当前p个特征的重要性之和大于等于γ，即时，选择λ1,λ2,…,λp为最终的特征集合，得到p+2维的洋槐蜜数据集D′；D：构建并训练洋槐蜜真伪鉴别模型，得到训练好的洋槐蜜真伪鉴别模型；D1：基于洋槐蜜数据集D′，利用scikit-learn机器学习库的XGBClassifier方法构建洋槐蜜真伪鉴别模型，记为RF-XGBoost；基于树集成模型XGBoost，对于每一个洋槐蜜样本xi，根据式11累加多棵树的预测值来计算该样本最终的预测值表示为：式中，K是决策树的总数量；为样本xi的预测值；fkxi为决策树k对洋槐蜜样本xi的预测值；F是假设空间，表示为式12：F＝{fx＝ωqx}q:R→T,ω∈RT12式中，qx表示将洋槐蜜样本x映射到决策树对应的叶子节点中，T是决策树中叶子节点的个数，ωqx是叶子节点对洋槐蜜样本x的预测值；使用目标函数求解每个叶子节点的最优预测值，使得目标函数最小的ω值即为每个叶子节点对洋槐蜜样本的最优预测值；目标函数Obj由损失函数和正则化项两部分组成，表示为式13：其中,为损失函数，即训练误差，Ωfk为正则化项，用于控制模型的复杂度；其中的正则化项表示为式14：式中，T为叶子节点个数；γ用于控制叶子节点个数；λ为通过控制叶子节点的分数，用于防止过拟合；D2：训练洋槐蜜真伪鉴别模型RF-XGBoost；将洋槐蜜数据集D′划分为训练数据集和测试数据集；使用训练数据集对RF-XGBoost进行模型训练，采用GridSearchCV模型调参方法对XGBClassifier方法中的参数进行优化，参数包括：决策树个数、决策树的深度、训练样本子采样比例、训练样本的特征采样比例、惩罚项系数、学习率，得到训练好的洋槐蜜真伪鉴别模型；E、对待鉴别的洋槐蜜样品进行NOESY1D检测，得到待测样品的一维氢信号谱图；并对谱图进行数字化转换，得到反映样品谱图特征的洋槐蜜数据；利用训练好的洋槐蜜真伪鉴别模型进行洋槐蜜真伪鉴别。

全文数据：

权利要求：

百度查询：北京工商大学;中国检验检疫科学研究院一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

下一篇：电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

相关技术

一种LED灯珠生产用烘箱_深圳市立彩光电科技有限公司_202322576244.1

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

一种散热户外路灯灯头_中山市澳斯朗电控科技有限公司_202322819842.7

一种对氟甲苯制备用精馏设备_湖北联昌新材料有限公司_202322580010.4

一种人参肽粉研磨设备_上海中盈经济发展(集团)有限公司_202322368406.2

4G/5G+北斗+Lora机车远程控制装置_宁夏宁东铁路有限公司_202322827126.3

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种梳式烟夹的胶头自动组装设备_广州阿尔法精密机械有限公司_202322475952.6

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

洋槐蜜相关技术

一种筛选脱皮蜜法加工机器_云南农业大学_202410219613.8

一株能够促进蜜环菌生长的绿芽孢杆菌YSL-1-5及其应用_云南大学_202211338393.8

一种蒸汽蜜锅_南京中医药大学_201810477697.X

一种蜜炙党参饮片的制备方法_江西众泰堂中药饮片有限公司_202310303939.4

一种中药蜜丸包装塑壳封蜡机_江西省芙蓉堂药业股份有限公司_202410212939.8

一种智能制造炼蜜过程质量的实时监测装备与方法_北京中医药大学_202110559534.8

基于蜜獾算法的多极值光伏发电最大功率点跟踪方法_天津大学_202410100642.2

一种改进型菠萝蜜苗木嫁接钳_西双版纳恒绿农业科技有限责任公司_202321093241.6

一种菠萝蜜种植表面自动化盖膜结构_西双版纳恒绿农业科技有限责任公司_202320992949.9

蜜炙桑叶炮制工艺优化方法_安徽中医药大学第一附属医院(安徽省中医院)_202311869761.6

算法相关技术

基于鸽群优化算法的氢燃料电池汽车能量管理方法及系统_佛山仙湖实验室_202310261979.7

一种基于PID算法对钢带垂直控制的系统和方法_济南佰思特自动化技术有限公司_202210031132.5

一种基于Embedded YOLO算法的行人检测方法_江苏科技大学_202011335894.1

一种基于大模型的无人集群编队控制算法智能生成方法_西北工业大学_202410121313.6

基于生成对抗网络的人偶模特生成算法_哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)_202311484349.2

一种基于多目标粒子群算法的武器-目标分配解决方法_中国人民解放军火箭军工程大学_201910710202.8

基于粒子群算法改进的小波阈值函数去噪方法_沈阳工业大学_202011069256.X

基于改进教与学优化算法的动画协同制作方法_昆明理工大学_202410154523.5

一种基于回归树算法的信用评分方法、设备及介质_天元大数据信用管理有限公司_202110842828.1

一种口腔癌颈部淋巴转移诊断算法的构建方法及系统_中山大学附属口腔医院_202011558269.3

机器学习相关技术

一种基于机器学习的计算方法和计算单元_阿里巴巴集团控股有限公司_201910816995.1

基于机器学习的施工安全隐患识别方法_三峡大学_202111289133.1

用于工业机器人减速机故障学习方法_重庆工业职业技术学院_202310128261.0

一种结合预分类与机器学习的叶绿素a浓度反演方法_广东省科学院广州地理研究所_202011403257.3

用于机器学习过程的高效模拟矩阵乘法的系统和方法_马克西姆综合产品公司_201910949449.5

交互式扩展机器学习生成的规则和推荐_SAP欧洲公司_202211533412.2

机器学习模型超参数推断方法及装置、介质、电子设备_中国平安人寿保险股份有限公司_201811024563.9

轨道交通车站分类动力学的机器学习辅助混合方法_四川轻化工大学_202410158478.0

一种基于机器学习的钣金图像增强方法及系统_山东海天七彩建材有限公司_202410077184.5

一种基于机器学习的海洋声速剖面分类方法及装置_广东海洋大学_202210411167.1

龙图腾网&IPTOP

【发明授权】一种基于特征选择和机器学习算法的洋槐蜜真伪鉴别方法_北京工商大学;中国检验检疫科学研究院_202111195188.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务