【发明公布】一种基于安全互模拟度量的视觉强化学习方法_中国矿业大学_202410106823.6

导航：龙图腾网> 最新专利技术> 一种基于安全互模拟度量的视觉强化学习方法_中国矿业大学_202410106823.6

申请/专利权人：中国矿业大学

申请日：2024-01-25

公开（公告）日：2024-04-26

公开（公告）号：CN117933349A

主分类号：G06N3/092

分类号：G06N3/092

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.14#实质审查的生效;2024.04.26#公开

摘要：本发明公开了一种基于安全互模拟度量的视觉强化学习方法，首先，建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型，并初始化模型参数；对于每个环境步，收集经验样本，构建拉格朗日损失函数，并更新拉格朗日乘子；对于每个梯度步，从经验回放池中采样数据序列，构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数，构建安全强化学习模型并更新模型参数；最后，重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征，同时满足预设的安全约束要求。

主权项：1.一种基于安全互模拟度量的视觉强化学习方法，其特征在于，具体包括如下步骤：步骤1，构建序列条件变分推断模型、安全互模拟度量模型和安全强化学习模型，并初始化模型参数；所述序列条件变分推断模型用于将高维视觉观测压缩为低维潜在状态表征，所述安全互模拟度量模型用于量化状态之间的行为相似性，使得任意两个所述低维潜在状态表征之间的距离尽可能接近其对应状态之间的安全互模拟度量；步骤2，对于每个环境步，收集经验样本，构建拉格朗日损失函数并更新拉格朗日乘子；步骤3，对于每个梯度步，从经验回放池中采样数据序列，构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数，更新安全强化学习模型的模型参数；步骤4，重复步骤2-3，直到获得最优模型参数。

全文数据：

权利要求：

百度查询：中国矿业大学一种基于安全互模拟度量的视觉强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种机动平台激光器_浙江慧眼光电科技有限公司_202410404451.5

下一篇：一种仿真环境下的超声换能器检测装置_深圳市索诺瑞科技有限公司_202410484431.3

相关技术

一种机动平台激光器_浙江慧眼光电科技有限公司_202410404451.5

一种仿真环境下的超声换能器检测装置_深圳市索诺瑞科技有限公司_202410484431.3

测试钳及中置柜断路器回路电阻测试装置_国网山东省电力公司泰安供电公司_201910017586.5

基于增强气流动力学的风力灭火与制冷一体化方法_苏州蓝永迪安全技术服务有限公司_202410395961.0

一种寒区隧道可替换式温度监测系统及安装方法_华南理工大学_202410335173.2

一种智能穿戴防作弊计时计圈系统_无锡志力会科技有限公司_202410296450.3

机动车辆的辅助机组的电动马达_博泽沃尔兹堡汽车零部件欧洲两合公司_202280067195.4

甜味剂制剂_因克莱多有限公司_202280067749.0

针对由一个DCI调度的多个PDSCH传输或PUSCH传输的波束确定_联想(北京)有限公司_202180101107.3

一种双调节光圈_东莞市协辰精密五金有限公司_201810822195.6

环境状态变化量记录仪器的收纳支撑装置及其使用方法_洛阳石化工程建设集团有限责任公司_202410460998.7

导热微孔板_拜耳公司_202280067617.8

龙图腾网&IPTOP

【发明公布】一种基于安全互模拟度量的视觉强化学习方法_中国矿业大学_202410106823.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务