买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种全过程耦合机器学习的中长期降水预报建模方法_浙江省水利水电勘测设计院有限责任公司_202110816680.4 

申请/专利权人:浙江省水利水电勘测设计院有限责任公司

申请日:2021-07-20

公开(公告)日:2024-04-02

公开(公告)号:CN113537600B

主分类号:G06F18/214

分类号:G06F18/214;G06F18/2411;G06F18/243;G06F18/27;G06F18/25;G06N20/00;G06N20/10;G06N20/20;G06N5/01;G06Q50/26;G01W1/10

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2024.01.26#著录事项变更;2021.11.09#实质审查的生效;2021.10.22#公开

摘要:本发明公开了一种全过程耦合机器学习的中长期降水预报建模方法,其包括以下步骤:S1,数据处理:收集实测降水、130项气象‑气候指数等资料,并确定预报结构;S2,因子筛选:提出一种基于拉普拉斯分数‑递归特征消除的因子筛选方法,并得到预报因子集;S3,模型构建:构建多种机器学习模型,并采用上述预报结构与预报因子集求取多套子预报结果;S4,多模型融合:提出一种基于改进堆叠法的多模型融合技术,输出最终预报结果。本发明将机器学习理论的最新研究成果应用于中长期降水预报的各个环节,理论依据充分,实际应用合理,能有效提高月‑季‑年尺度降水预报的准确度与可靠度。

主权项:1.一种全过程耦合机器学习的中长期降水预报建模方法,其特征在于:它包括如下步骤:S1、基础数据处理:收集流域内站点或格点的实测降水序列,收集130项气象-气候指数数据集作为初选预报因子集,根据预报预见期、因子滞后期确定预报结构;所述130项气象-气候指数数据集为中国气象局国家气候中心发布,包括88项逐月大气环流指数、26项逐月海温指数以及16项逐月其他指数;所述预报结构定义为:将每个月第一天发布该月降水总量定义为预见期0个月,即LD=0,发布下个月降水总量定义为预见期1个月,即LD=1,以此类推;考虑到大尺度气象-气候指数的作用延迟性较长,假定气象-气候指数数据集的作用滞后期LG为LD+1至LD+12个月;S2、预报因子筛选:提出一种基于拉普拉斯分数-递归特征消除的因子筛选方法,进而获取站点或格点降水在某一预见期下的最终预报因子集;所述拉普拉斯分数定义为:设初选预报因子集共有n个d维样本,首先利用k近邻法,k取5,对样本进行聚类;若第i个样本xi是第j个样本xj的最邻近的k个样本之一,则两者为相邻,否则为不相邻,计算所有样本间的权重Sij: 式中,t为常数,取1;||xi-xj||为欧式距离;令fri为第i个样本的第r个特征,fr=[fr1,fr2,...,frn]T为第r个特征值构建的向量D,D为对角矩阵且满足D=diagS1,得到则fr的方差表达为令L=D-S,S为权重矩阵,得: 此时,第r个特征的拉普拉斯分数为: 所述递归特征消除是一种迭代运算策略,首先计算初选预报因子集中各个特征与降水序列的拉普拉斯分数,选择分数最小的100个作为初始因子集进行迭代训练;每轮训练时,当在新因子集上表现的训练误差更小,或训练误差相当但包含的因子数更少时,就将新因子保留下来,否则移除若干权值系数小的因子,再基于新的因子集进行下一轮训练,直至达到所需的因子数量或迭代次数为止;S3、预报模型构建:根据机器学习理论建模方法的理论差异,分别构建弹性网络回归、支持向量机、随机森林、极端梯度提升树、轻量梯度提升树模型,采用上述预报结构与预报因子集合获取五套预报结果;所述弹性网络回归ENR采用结构损失最小化策略,是一种引入L1正则项与L2正则项的增强版多元回归模型;作为预报模型的对照组,检验其余模型的预报性能;所述支持向量机SVR是一种基于统计学习理论的机器学习模型,采用结构风险最小化准则,求解凸二次规划问题;SVR形式上类似神经网络,输出中间节点的线性组合,每个节点对应一个支持向量;所述随机森林RF是一种基于CART树的并行增强模型,一棵CART树即为一个子预报模型,RF首先大量训练CART树,CART树为10000棵,通过剪枝法简化子模型防止出现过拟合现象,并利用信息增益准则选择最佳分叉路线,采用自助采样法最大程度保证子预报模型的独立性,最后根据投票平均法输出最终的预报结果;所述极端梯度提升树XGB是一种基于CART树的串行增强模型,与RF不同的是,XGB首先只训练一棵CART树,根据训练表现对样本分布进行调整,提高预测出错样本的关注度,再基于调整后的样本分布继续训练下一棵CART树,迭代训练直至达到子模型数量或前后两个子模型相同为止,最终将全部子模型加权输出;所述轻量梯度提升树模型LGB是一种基于CART树的轻量化串行增强模型,与XGB相比,LGB包含梯度单侧采样法与互斥性特征合并法两种改进算法;S4、多模型结果融合:提出一种基于改进堆叠算法的多模型融合技术,重构预报结构并进行二次迭代训练,输出最终融合预报结果;所述改进堆叠算法本质为一种两层学习模型,其包括以下子步骤:S4.1、在第一层中,按照8:2的形式将完整数据集分为训练期和测试期两部分,在训练期,并行模拟N个第一层模型,即初级学习器,并采用p-LOOCV的方式对每一个初级学习器进行训练;p-LOOCV是指:假定训练期中包含M个样本,则将训练期划分为互斥的M个子集,每次用M-1个子集的并集作为训练集,余下的1个子集作为验证集,重复p次并将模拟结果取均值;采用p-LOOCV得到M个子验证集,此时将M个子验证集构造为一个新的验证集,由此,最终得到N个验证集;S4.2、在第一层的测试期中,利用全部训练期样本再分别训练N个初级学习器,并以测试期样本对N个初级学习器进行测试,得到N个预测集;利用相对误差、纳什效率系数作为确定性预报的评价指标,评估N个初级学习器在测试期的模拟技巧,并选出模拟技巧最佳的预报模型作为第二层模型即元学习器;S4.3、在第二层中,将S4.1中产生的N个验证集作为训练期的样本训练元学习器,并以测试期的样本进行元学习器的预测模拟与评估;同时,在第二层中为了避免过拟合现象的出现,仍然使用p-LOOCV训练数据,并通过数值模拟得到最终融合策略中各个子模型的权重。

全文数据:

权利要求:

百度查询: 浙江省水利水电勘测设计院有限责任公司 一种全过程耦合机器学习的中长期降水预报建模方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。