青岛哈尔滨工程大学创新发展中心;哈尔滨工程大学陈云赛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉青岛哈尔滨工程大学创新发展中心;哈尔滨工程大学申请的专利一种水下机器人作业用绳驱机械手路径规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119734283B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510260084.0,技术领域涉及:B25J9/16;该发明授权一种水下机器人作业用绳驱机械手路径规划方法是由陈云赛;程菲;刘增凯;张栋;姜清华;高永;李海波设计研发完成,并于2025-03-06向国家知识产权局提交的专利申请。
本一种水下机器人作业用绳驱机械手路径规划方法在说明书摘要公布了:本发明提供了一种水下机器人作业用绳驱机械手路径规划方法,涉及水下机器人路径规划技术领域,具体包括如下步骤:利用机械手上搭载的传感器采集多源时间序列数据;对多源时间序列数据进行预处理;构建自适应多通道深度强化学习网络;初始化本源网络中的第一经验回放模块,对随机噪声初始化,并利用传感器获得环境信息,将环境信息传递给自适应多通道深度强化学习网络,自适应多通道深度强化学习网络根据环境信息进行路径规划,使机械手到达目标位置;当机械手到达目标位置后,继续利用自适应多通道深度强化学习网络进行精确目标规划,实现机械手的维修动作。本发明的技术方案克服现有技术中水下绳驱动机械手路径规划操作精度较低的问题。
本发明授权一种水下机器人作业用绳驱机械手路径规划方法在权利要求书中公布了:1.一种水下机器人作业用绳驱机械手路径规划方法,其特征在于,具体包括如下步骤: S1,利用机械手上搭载的传感器采集多源时间序列数据; S2,对多源时间序列数据进行预处理,预处理包括:清理、格式化、规范化和归一化; S3,构建自适应多通道深度强化学习网络,自适应多通道深度强化学习网络包括:本源网络和与本源网络相连接的孪生网络; S4,初始化本源网络中的第一经验回放模块,对随机噪声初始化,并利用传感器获得环境信息,将环境信息传递给自适应多通道深度强化学习网络,自适应多通道深度强化学习网络根据环境信息进行路径规划,使机械手到达目标位置; S5,当机械手到达目标位置后,继续利用自适应多通道深度强化学习网络进行精确目标规划,实现机械手的维修动作; 本源网络包括:依次连接的第一经验回放模块、Actor1网络、Critic网络和Actor2网络;Actor1网络包括:依次连接的第一智能优化模块、第一在线策略网络和第一目标策略网络;Critic网络包括:依次连接的第一目标Q网络、第一在线Q网络、第一优势评估与正则化模块和第一Adma优化器;Actor2网络包括:第二智能优化模块、第二在线策略网络和第二目标策略网络;第一在线Q网络通过第一AC交互模块与第一智能优化模块相连,第一在线Q网络还通过第二AC交互模块与第二智能优化模块连接; 孪生网络包括:依次连接的第二经验回放模块、Actor1’网络、Critic’网络和Actor2’网络;Actor1’网络包括:依次连接的第三智能优化模块、第三在线策略网络和第三目标策略网络;Critic’网络包括:依次连接的第二目标Q网络、第二在线Q网络、第二优势评估与正则化模块和第二Adma优化器;Actor2’网络包括:依次连接的第四智能优化模块、第四在线策略网络和第四目标策略网络;第二在线Q网络通过第三AC交互模块与第三智能优化模块相连,第二在线Q网络还通过第四AC交互模块与第四智能优化模块连接; 步骤S4具体包括如下步骤: S4.1,将环境信息传递给Actor1网络的第一在线策略网络,第一在线策略网络处理当前状态,生成动作: ; 其中,代表第一在线策略网络,为当前状态,代表第一在线策略网络参数; S4.2,Actor1网络将动作和当前状态传给Critic网络的第一在线Q网络,第一在线Q网络对当前动作进行评估,生成决策值; ; 其中,代表第一在线Q网络,是第一在线Q网络的参数; S4.3,Actor1网络同时将动作传给环境模块,获得第时间步的环境信息,环境模块包括:物理场景、任务要求和外部扰动; S4.4,环境模块将传给Actor1网络的第一目标策略网络,Actor1网络的第一目标策略网络计算生成对应的第时间步的动作; ; 其中,代表第一目标策略网络,是第一目标策略网络的参数; S4.5,环境模块同时将多维数组传递给第一经验回放模块,再经过第一经验回放模块的判断之后,将多维数组传递给第一经验回放模块中的路径经验回放池;多维数组包括:当前状态,第时间步的环境信息,即时奖励和动作; S4.6,将路径经验池中的多维数组通过采样策略随机抽取一组,分别传递给Actor1网络和Critic网络,Actor1的第一目标策略网络将传给Critic的第一目标Q网络,第一目标Q网络对进行评估,生成学习值; ; 其中,代表第一目标Q网络,是第时间步的状态,是采取的动作,是第一目标Q网络的参数; 步骤S4还包括:S4.7,更新Critic网络参数;步骤S4.7具体包括如下步骤: S4.7.1,第一在线Q网络根据计算目标值: ; 其中,是目标值,是即时奖励,是折扣因子,是第一在线策略网络在下输出的动作; S4.7.2,计算Critic网络的优势函数: ; 是第一在线Q网络在状态下采取动作的估计值,是状态值函数: ; 其中,为参数集,表示在状态下采取动作的概率,为策略;为在线Q网络在状态下采取动作的估计值,为参数集; S4.7.3,计算第一目标Q网络的损失函数: ; 表示批次大小,表示优势函数,表示在状态下采取动作的预测值,表示批次中所有样本的优势函数绝对值之和; S4.7.4,对选择L2正则化: ; 其中,为L2正则化,为正则化强度; ; 其中,表示Critic网路的整体损失函数,是第一在线Q网络的损失函数; S4.7.5,计算正则化梯度: ; S4.7.6,将正则化梯度加到原始梯度上: +; 其中,是总的梯度,是损失函数的梯度,是正则化梯度; S4.7.7,使用第一Adam优化器优化Q网络参数; 步骤S4还包括:S4.8,优化Actor1网络参数,步骤S4.8具体包括如下步骤: S4.8.1,把和传给第一AC交互模块,进行数据处理,生成强化信号; S4.8.2,将传给第一智能优化模块,进行参数优化; 计算损失函数: ; 计算梯度: ; 是损失函数关于的梯度,是在线策略网络关于的梯度,是在线策略网络在状态下的输出,是的方差; S4.8.3,更新Actor1网络参数: ; 其中,是学习率; 步骤S4还包括如下步骤: S4.9,每循环一次S4.1至S4.8,就对环境模块中机械手到目标点的距离进行计算,如果距离小于D,D为正数,则表示此时的Actor1和Critic中的数据为优秀数据; S4.10,将优秀数据进行逐层复制,分别拷贝进孪生网络中的Actor1’网络和Critic’网络的对应层处;当优秀数据被完全拷贝到孪生网络之后,在孪生网络中的Actor1’网络和Critic’网络继续进行计算,重复S4.1至S4.8;直到达到最大更新次数后,判断路径规划是否缓慢; S4.11,如果判断计算缓慢,则抛弃现在的数据,转到本源网络中,利用S4.9中的优秀数据进行计算,重复S4.1至S4.10; S4.14,如果判断计算不缓慢,则继续使用孪生网络中的数据进行计算,重复S4.1至S4.10,直至到达目标地点。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人青岛哈尔滨工程大学创新发展中心;哈尔滨工程大学,其通讯地址为:266000 山东省青岛市黄岛区三沙路1777号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。