【发明公布】基于广泛目标重标记的目标条件强化学习方法_中科南京人工智能创新研究院_202311851997.7

申请/专利权人：中科南京人工智能创新研究院

申请日：2023-12-29

公开（公告）日：2024-04-16

公开（公告）号：CN117892797A

主分类号：G06N3/092

分类号：G06N3/092;G06F16/22

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.05.03#实质审查的生效;2024.04.16#公开

摘要：本发明公开了一种基于广泛目标重标记的目标条件强化学习方法，包括如下步骤：将收集到的轨迹数据存储于重播缓冲区；从重播缓冲区中随机采样转移数据；从重播缓冲区中以同轨迹和不同轨迹两种形式采样轨迹状态，并重标记为新的目标；将重标记目标整合到转移数据中并计算奖励；利用规划策略在当前状态和重标记目标之间生成一系列子目标，形成潜在的路径；利用自模仿学习鼓励智能体在学习以重标记目标为条件的策略时模仿以子目标为条件的策略；利用重标记、规划和自模仿的数据更新演员‑评论家网络学习目标条件策略和状态目标估计值并输出。本发明可以显著提高目标条件强化学习的性能表现，尤其是在稀疏奖励和难以探索的环境中的表现。

主权项：1.基于广泛目标重标记的目标条件强化学习方法，其特征在于，包括如下步骤：步骤S1、收集智能体在执行预定任务时生成的交互轨迹，每条交互轨迹包含从起始状态朝着特定目标执行所到达的一系列状态和动作，将收集到的轨迹以转移数据的形式按序存储于重播缓冲区，用于后续的数据重标记和策略学习；步骤S2、从重播缓冲区中随机采样一批转移数据，并记录转移数据所属轨迹在重播缓冲区中的索引；步骤S3、从重播缓冲区中以同轨迹和不同轨迹两种方式随机选取转移数据中的状态，并重标记为新的目标，将重标记目标整合成新的转移数据，用于策略学习和价值估计；步骤S4、利用子目标规划策略为新的转移数据中的当前状态和重标记目标之间生成一系列子目标，形成潜在的路径，从而引导智能体如何从当前状态到达重标记目标；步骤S5、构建演员-评论家网络结构，基于新的转移数据训练状态目标价值估计模型以及子目标规划策略；步骤S6、利用自模仿学习鼓励智能体在学习以重标记目标为条件的策略时模仿以子目标为条件的策略，完成对重标记目标的引导式学习；步骤S7、基于重播缓冲区的数据，利用重标记、规划和自模仿训练演员-评论家网络，得到目标条件策略与状态目标价值估计模型，并进行性能测试和评估。

全文数据：

权利要求：

百度查询：中科南京人工智能创新研究院基于广泛目标重标记的目标条件强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

下一篇：一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

相关技术

一种钢带波纹螺旋管接头防护模具_吉林建工集团有限公司_202322063597.1

一种盒式包装机输送机构_安徽从仁堂生物科技有限公司_202322459283.3

高温堆直流调试防干扰回路_华能山东石岛湾核电有限公司_202322501565.5

一种用于负极材料粉尘除尘器_天津燃洁斯工业设备有限公司_202322051874.7

一种注塑机新型泵罩门板_恩格尔注塑机械(常州)有限公司_202322227242.1

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

一种天然气管道不停输开孔装置_盐城新奥燃气有限公司_202322202238.X

整形压块及焊接装置_宁德时代新能源科技股份有限公司_202321970130.9

用于高压柜体的固定防护装置_江苏贯中电气有限公司_202322341188.3

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种矮轴gasket结构的机械键盘_渴创技术(深圳)有限公司_202322395230.X

龙图腾网&IPTOP

【发明公布】基于广泛目标重标记的目标条件强化学习方法_中科南京人工智能创新研究院_202311851997.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务