买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于多目标粒子群优化半监督随机森林的MSWI过程二噁英排放浓度软测量方法_北京工业大学_202310001902.6 

申请/专利权人:北京工业大学

申请日:2023-01-03

公开(公告)日:2023-07-04

公开(公告)号:CN116384041A

主分类号:G06F30/20

分类号:G06F30/20;G06N3/006

优先权:

专利状态码:在审-实质审查的生效

法律状态:2023.07.21#实质审查的生效;2023.07.04#公开

摘要:本发明提出了基于多目标粒子群优化半监督随机森林的MSWI过程二噁英排放浓度软测量方法。离线检测二噁英DXN的高时间和经济成本导致用于构建其软测量检测模型的有标记样本极为稀缺。首先,进行面向混合优化的半监督算法超参数和伪标记样本选择编码设计;接着,初始化并解码粒子后进行面向模型泛化性能和伪标记样本数量双目标的适应度评估,其过程包括基于有标记样本构建RF模型、获取伪标记样本、选择伪标记样本、基于混合样本构建RF模型和评估适应度与最优存档;然后,判断寻优终止条件,若不满足则更新PSO参数,否则基于Pareto解集获取最优解;最后,基于优选混合样本集构建RF模型。通过基准和实际工业过程数据集验证了方法的有效性。

主权项:1.基于多目标粒子群优化半监督随机森林的MSWI过程二噁英排放浓度软测量方法,其特征在于:DXN浓度检测模型的最终性能通过最小化均方根误差RMSE进行评估,其描述如下, 其中,和分别是DXN数据集中第i个样本的DXN浓度预测值和真值,NDXN表示DXN数据集的样本个数;预测值通过同时包含伪标记和有标记数据训练得到的半监督模型fSS·得到, 其中,xlabeled,ylabeled为有标记数据,xunlabeled为无标记数据,为无标记数据xunlabeled的伪标签,即xunlabeled的预测值,Mun为选择的无标记样本数量,为衡量伪标记样本有效性的指标值,有显然,RMSEDXN能通过Mun和进行优化,具体过程在第3节中详细阐述;伪标记样本通过伪标记获取模型flabel·得到, 其中,xlabeled,ylabeled为有标记数据,θmodel表示为建模参数集,模型fSS·和flabel·的具体训练过程下面将详细阐述;建模策略与算法实现采用多目标PSO算法优化半监督RF建模过程并同时选择最优数量的伪标记样本以获取DXN排放浓度;将模型性能指标和伪标记样本个数作为优化目标,该问题抽象为: 其中,z=zRF,zmix,zpsam为决策变量,用于指导模型参数优化和伪标记样本选择;Γmodz表示由筛选后的伪标记样本与原始训练集混合后构建的模型性能指标,Γnumz表示筛选后伪标记样本的数量;Ω是可行搜索域,表示决策变量可到达的空间范围;Γz:Ω→S是目标优化函数,S是目标空间;构建的模型中不同模块的功能为:1面向混合优化的参数编码设计模块:分别进行半监督算法超参数和伪标记样本选择的编码设计;2初始化与面向混合参数解码模块:基于参数编码设计,分别进行基于有标记样本构建RF模型参数解码、基于混合样本集构建RF模型参数解码以及伪标记样本选择解码;3面向多目标的适应度评估模块:进行面向伪标记样本数量和模型泛化性能的双目标适应度评估,其过程包括基于有标记样本构建RF模型、获取伪标记样本、选择伪标记样本、基于混合样本集构建RF模型和评估适应度与最优存档;4寻优终止判断与更新模块:寻优终止条件,若不满足则更新PSO参数,否则执行下一模块;5基于Pareto解集的最优解获取模块:基于设定评判准则获取最优超参数和伪标记样本;6基于优选混合样本集构建RF模型模块:获得最终DXN软测量模型;各个符号含义如下:表1符号含义 3.1面向混合优化的参数编码设计利用多目标PSO算法进行模型参数优化和伪标记样本选择,将模型性能指标和伪标记样本个数作为优化目标;第p个粒子表示如下: 其中,Ppop为结合优化目标所设定粒子数量,设置其为20-30;为参数决策变量,维数为6,用于伪标记样本生成过程中模型超参数的优化;为样本选择决策变量,用于候选伪标记样本的优化选择,维度为待选伪标记样本的个数;粒子zp的维度为np;显然,中的超参数写为: 其中,为基于有标记样本构建RF模型的参数,维数为3,为基于混合样本集构建RF模型的参数维数为3;与和与分别表示基于原始有标记样本和混合样本构建RF模型的特征数量、最小样本个数与决策树数量; 中的元素均为离散变量,具体表示为: 其中,为待选伪标记样本数量,即,伪标记样本的编码记为决策向量包含的个决策变量是与待选伪标记样本相对应的;在优化过程中,通过解码对伪标记样本进行选择,每个决策变量都在0,1中取值,即3.2初始化与面向混合优化的参数解码根据优化目标设定粒子数量Ppop,设定为20;粒子群迭代次数Iiter,文设定为20;档案数量repnum,为粒子数量的整数倍,设定为200;惯性权重w,固定为0.8;学习因子c,固定为2;选择阈值θselect,为0.5;生成由Ppop个粒子组成的种群在可行域中随机初始化粒子zp的位置,同时将其初始速度设置为0;此时,需进行面向混合优化的参数解码,粒子解码可为3部分,描述如下;针对基于有标记样本构建RF模型的参数解码部分,可表示为: 其中,表示第iiter次迭代中粒子的赋值函数;以为例说明,经后得到取值为和的任意值;针对基于混合样本集构建RF模型的参数解码部分,可表示为: 针对伪标记样本选择解码部分,可表示为: 其中,fpdec·表示伪标记样本选择的解码函数,其功能为当其输入取值小于θselect时为0即不选择该样本,大于θselect时为1即选择该样本;3.3面向多目标的适应度评估3.3.1基于有标记样本构建RF模型第p个粒子基于解码参数和通过原始有标记样本集构建RF模型具体过程如下;首先,将原始标记样本集表示为下式: 其中,Nlabeled和M分别表示样本个数和输入变量维数;相应地,从输入特征的视角,第nlabeled个样本表示为下式: 接着,采用结合bootstrap和RSM的方法对Dlabeled进行共计次的样本和特征随机抽样,第次产生子集的过程如下式: 其中,fRSM·表示用于特征随机采样的子空间函数;表示子训练集所选择的特征个数,在训练子集所在的空间中将每个区域划分为两个子区域R1和R2,并在每个子区域上构建DT;遍历全部样本和特征,寻找最优变量编号和切分点取值的过程为求解如下优化问题: 其中,和表示在R1和R2区域的某个测量值;和表示R1和R2区域中全部测量值的平均值;θForest表示叶节点包含的样本数量阈值,选择数据集样本个数的110作为阈值;通过求解上式,优选得到的用于划分区域和确定相应的输出值,如下: 对两个子区域重复上述步骤,直到叶节点中的样本数小于设定的阈值即基于原始有标记样本构建RF模型的最小样本个数;进而,将输入空间划分为RR个区域,将第个训练子集的DT模型记为下式: 其中,表示Rr区域内所包含样本个数;表示区域内第个训练子集的第i个真值,I·为指示函数,即当存在时I·=1,否则I·=0;在Dlabeled上重复上述过程次,得到的RF模型可表示如下: 3.3.2获取伪标记样本基于已构建RF模型获得无标记样本集Xunlabeled的伪标签,如下: 相应的,获得的伪标记样本记为3.3.3伪标记样本选择伪标记样本的选择方法:若第p个粒子的中解码后的第个决策变量大于等于选择阈值θselect,设定为0.5;则选择候选伪标记样本集中第个样本加入伪标记样本子集;若其小于阈值θselect,则不选择;采用相同方式对粒子的每一维与阈值进行比较可得到该粒子所选择的伪标记样本子集公式表达如下: 将粒子的样本选择决策变量的维度设置为最大值,以对应每个伪标记样本,如下: 其中,3.3.4基于混合样本集构建RF模型获得每个粒子对应的伪标记样本子集后,可得到第p个粒子的混合数据集表达如下: 如3.3.1节所示,基于构建RF模型其相应超参数为和分别表示特征数量、最小样本个数与决策树数量;3.3.5适应度评估与最优存档计算所获得的伪标记样本子集的数量和基于其的混合样本集的性能指标,并将其作为粒子的适应度,如下: 其中,为伪标记样本集的样本数量,即适应度Γnumzp;Γmodzp为测试集Dtest在上的泛化性能指标;3.4寻优终止判断与更新在PSO算法中,利用群体中个体与最优个体以及个体之间的信息交互,引导整个群体中的粒子在保留个体多样性信息的同时朝最优个体收敛,通过不断地更新逐渐找到最优解;因此,粒子的更新机制通过种群历史最优粒子和个体历史最优粒子的有机结合得到;3.4.1更新粒子群个体最优和全局最优假设决策空间中粒子群的规模为Ppop,当前迭代次数为iiter,则全部粒子的适应度可表示为和依据下式获取第p个粒子适应度的综合评估指标: 其中,为第iiter次迭代时第p个粒子的模型泛化性能指标,表示基于有标记样本构建模型的测试集性能指标,第iiter次迭代时第p个粒子的样本数量;相应的个体最优获取准则为: 其中,如果第iiter次迭代时第p个粒子适应度的综合评估指标小于第iiter-1次迭代时第p个粒子适应度的综合评估指标时,更新第p个粒子的个体最优,否则则不更新;全局最优获取准则为: 其中,pbestkiiter为第iiter次迭代时第p个粒子的个体最优位置,gbestiiter为第iiter次迭代时的全局最优位置,pbestk表示该代种群中的最优粒子,考虑运行总代数为Iiter,全部个体最优集合为3.4.2更新粒子群速度和位置第p个粒子在下一次迭代后,速度和位置更新公式为: 其中,是分布于[0,1]区间的随机数,以增加算法的随机性;c为在[0,2]区间的加速度常数,用来控制学习步长,本文设定为2;ω为惯性权重,调节上次速度对当前速度影响程度,设定为0.8;为第p个粒子的第np维的参照样例;3.4.3更新档案档案Rep用于保存种群迭代过程所搜到的最优解,即适应度值最佳的粒子;虽然本文所求解优化问题在理论上仅存在一个最优解,但考虑到算法随机性保存一定数量的次优解,即:将种群最优解存入档案Rep的同时,结合最优解与档案最大数量repnum选择次优解,准则如下: 其中,gbest和gbest′表示全局最优解和次优解,档案中可存在0~repnum-1个次优解;ε是选择次优解的限制条件,即要求在Γfitgbest的ε邻域内,本文设定ε∈0,10;3.5基于Pareto解集的最优解选取依据以上步骤,种群不断进行迭代搜索直至迭代次数大于设定值Iiter,该取值为20;依据下式计算档案Rep中粒子适应度的综合评估指标: 其中,表示档案中第iRep个粒子的综合评估指标,表示档案Rep中的非支配解;对最优解进行解码后获得最优伪标记样本子集,并记为3.6基于优选混合样本集构建RF模型将最优伪标记样本集与原始训练集组合为混合样本集构建RF软测量模型

全文数据:

权利要求:

百度查询: 北京工业大学 基于多目标粒子群优化半监督随机森林的MSWI过程二噁英排放浓度软测量方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。