买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】智能农业监测与管理系统_山东环球软件股份有限公司_202410051024.3 

申请/专利权人:山东环球软件股份有限公司

申请日:2024-01-15

公开(公告)日:2024-04-02

公开(公告)号:CN117575174B

主分类号:G06Q10/063

分类号:G06Q10/063;G06Q10/10;G06Q50/02;G06N3/044;G06N3/096

优先权:

专利状态码:有效-授权

法律状态:2024.04.02#授权;2024.03.08#实质审查的生效;2024.02.20#公开

摘要:本发明涉及农业技术领域,更进一步地,涉及智能农业监测与管理系统,所述系统包括:数据获取单元,用于通过传感器获取多个不同的农业区域的农业监测数据;迁移学习单元,用于从不同农业区域的归一化农业监测数据中选择一个区域的归一化农业监测数据作为源领域,将其他农业区域的归一化农业监测数据作为目标领域进行迁移学习,建立迁移学习模型;监测单元,用于将获取的新的其他的农业区域的农业监测数据作为输入数据,输入到迁移学习模型中,将此时的调整后的农业监测数据作为新的其他的农业区域的运行标准值。本发明能够提高农业生产效率,同时为农业管理提供智能决策支持。

主权项:1.智能农业监测与管理系统,其特征在于,所述系统包括:数据获取单元,用于通过传感器获取多个不同的农业区域的农业监测数据,将获取到的农业监测数据进行归一化处理,得到归一化农业监测数据;迁移学习单元,用于从不同农业区域的归一化农业监测数据中选择一个区域的归一化农业监测数据作为源领域,将其他农业区域的归一化农业监测数据作为目标领域进行迁移学习,建立迁移学习模型,具体包括:正训练过程:从源领域和目标领域中提取特征,分别得到源领域特征和目标领域特征;构建一个策略网络用于生成在目标领域上执行的策略;构建一个价值网络用于估计在目标领域上采取不同动作的价值;使用源领域和策略网络进行强化学习训练,得到源领域训练的策略网络;使用源领域训练的策略网络和价值网络结合目标领域进一步训练;使用领域适应损失,将源领域和目标领域的分布进行对齐;使用梯度下降方法,以最小化第一总体优化目标函数为目标,对第一总体优化目标函数的参数进行训练;反训练过程:从源领域和目标领域中提取特征,分别得到源领域特征和目标领域特征;构建一个策略网络用于生成在源领域上执行的策略;构建一个价值网络用于估计在源领域上采取不同动作的价值;使用目标领域和策略网络进行强化学习训练,得到目标领域训练的策略网络;使用目标领域训练的策略网络和价值网络结合源领域进一步训练;使用领域适应损失,将源领域和目标领域的分布进行对齐;使用梯度下降方法,以最小化第二总体优化目标函数为目标,对第二总体优化目标函数的参数进行训练;监测单元,用于将获取的新的其他的农业区域的农业监测数据作为输入数据,输入到迁移学习模型中,以第一总体优化目标函数和第二总体优化目标函数组成的总体优化目标函数作为目标函数,以最小化目标函数为目标,迭代调整农业监测数据的值,使得调整后的农业监测数据的值与原本的农业监测数据对应项的差值的绝对值的和值小于设定的阈值,将此时的调整后的农业监测数据作为新的其他的农业区域的运行标准值;源领域包括状态-动作对和相应的奖励信号;用表示源领域的数据分布;设目标领域的数据分布表示为;设状态集合表示为,包括源领域和目标领域共享的状态;动作集合表示为,包括源领域和目标领域共享的动作;在源领域和目标领域中,设两个奖励函数为和,分别用于源领域和目标领域;奖励函数定义了在给定状态和动作下的奖励信号;设状态转移函数表示为,定义了在给定状态和动作后,下一个状态的概率分布;策略表示为,定义了在给定状态下采取动作的概率;在正训练过程中,目标是在目标领域上最大化累积奖励,即最大化目标领域中的期望回报,表示为: ;其中,表示一个轨迹,和表示在时间步的状态和动作,表示轨迹的长度;最终目标是在目标领域上学习一个策略,使得在目标领域上的期望回报最大化;在反训练过程中,目标是在源领域上最大化累积奖励,即最大化源中的期望回报,表示为: ;其中,表示一个轨迹,和表示在时间步的状态和动作,表示轨迹的长度;最终目标是在源领域上学习一个策略,使得在源领域上的期望回报最大化;使用循环神经网络从源领域和目标领域中提取特征,分别得到源领域特征和目标领域特征;设源领域表示为: ;目标领域表示为: ,其中和分别是源领域和目标领域的样本数量;对每个序列进行循环神经网络的前向传播,得到序列的特征表示;这个特征表示是循环神经网络中隐藏状态的最后一个状态或者一个汇总的表示;其中,源领域特征为: ;目标领域特征为: ;正训练过程中,构建的策略网络使用如下公式进行表示: ;其中,表示在状态下采取动作的概率分布,表示策略网络的输出的均值,表示动作分布的标准差;策略网络的参数表示为,通过优化算法来更新这些参数,以最大化第一目标函数;定义一个价值网络,用于估计在给定状态下采取动作的长期累积奖励,即状态-动作对的价值;价值网络采用深度网络的形式,接受状态和动作作为输入,并输出该状态-动作对的估计值,表达为: ;其中,表示在状态下采取动作的估计价值,表示价值网络的参数,是价值网络中的权重和偏置项,对参数进行训练,以更准确地估计状态-动作对的价值,训练过程使用第二目标函数的Huber损失,来度量价值网络的估计值与实际累积奖励之间的差距,通过最小化第二目标函数,更新价值网络的参数,以更好地逼近真实的价值函数;使用带折扣因子的累积奖励来估计价值函数,公式如下: ;其中,是折扣因子,是在时间步获得的奖励;价值网络的训练目标是最小化估计值与累积奖励之间的误差,使用均方误差损失函数进行表示: ;其中,是经验回放缓冲区;是损失函数,表示要最小化的目标,是要优化的参数,是值函数的参数;表示期望值,表示对数据集中的样本取期望,其中分别表示当前状态、采取的动作、获得的奖励和下一个状态;是值函数,表示在状态下采取动作的值,由参数控制;这个值函数的目标是估计在每个状态下采取每个动作的累积奖励期望; 是在当前状态采取动作后获得的奖励;是折扣因子,表示未来奖励的重要性,是一个介于0和1之间的值,用来降低未来奖励的权重,以便更关注即时奖励;是在下一个状态中采取所有可能动作后的最大值函数,表示下一步的最优动作值;使用源领域和策略网络进行强化学习训练时,定义第三目标函数为: ;其中,表示目标函数,表示在策略下在状态采取动作的预期累积奖励;第三目标函数的目的是最大化在源领域上的累积奖励;通过如下公式,计算第三目标函数的梯度: ;使用如下公式,通过梯度上升法更新策略网络的参数,以提高在源领域上的性能: ;其中,为学习率;使用源领域训练的策略网络和价值网络结合目标领域进一步训练时,定义第四目标函数为: ;其中,表示目标函数,表示在策略下在状态采取动作的预期累积奖励,表示价值网络估计的状态的价值;第四目标函数的目的是最大化在目标领域上的累积奖励,并同时最小化价值网络估计的状态价值与策略估计的累积奖励之间的差距;再通过如下公式,计算第四目标函数的梯度: ;通过如下公式来同时更新策略网络的参数和价值网络的参数,以使目标函数增加: 。

全文数据:

权利要求:

百度查询: 山东环球软件股份有限公司 智能农业监测与管理系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。