【发明公布】基于乐观性原则和深度模型的智能体动作生成策略训练方法_南京大学_202311725468.2

导航：龙图腾网> 最新专利技术> 基于乐观性原则和深度模型的智能体动作生成策略训练方法_南京大学_202311725468.2

申请/专利权人：南京大学

申请日：2023-12-15

公开（公告）日：2024-03-12

公开（公告）号：CN117689039A

主分类号：G06N20/00

分类号：G06N20/00;G06N3/092

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.03.29#实质审查的生效;2024.03.12#公开

摘要：本发明公开一种基于乐观性原则和深度模型的智能体动作生成策略训练方法，将机器人行走任务建模为一个马尔科夫决策过程S,A,T,R,γ，其中S表示状态空间，指行走过程中机器人能感知到的状态信息；A表示动作空间，包含机器人能执行的所有动作；T表示状态转移函数，给定了机器人在任意状态采取任意动作后转移到的新状态的概率分布；R表示奖励函数，给定了机器人在任意状态采取任意动作后所收到的奖励，γ表示折扣因子；机器人行走仿真环境E模拟了真实机器人行走与环境的交互过程，为决策提供信息；机器人行走策略训练方法包括三个核心模块：基于乐观性原则的深度模型构建，基于深度模型的不确定性规划，以及机器人行走策略的训练。

主权项：1.一种基于乐观性原则和深度模型的智能体动作生成策略训练方法，其特征在于，以机器人行走任务作为智能体动作生成任务的具体实施对象，首先需要将机器人行走任务建模为一个马尔科夫决策过程S,A,T,R,γ，其中S表示状态空间，指行走过程中机器人能感知到的状态信息，包括地图障碍物位置信息和机器人的状态信息；A表示动作空间，其包含机器人能控制的所有行动；T表示状态转移函数，给定了机器人在任意状态s∈S采取任意动作a∈A后转移到的新状态的概率分布T·|s,a；R表示奖励函数，给定了机器人在任意状态s∈S采取任意动作a∈A后所收到的奖励Rs,a，γ表示折扣因子，用于平衡长期奖励和短期奖励；机器人用于训练行走策略的交互环境为机器人行走仿真环境E，该机器人行走仿真环境E模拟了真实机器人行走与环境的交互过程，为马尔科夫决策过程提供信息；在机器人行走仿真环境E部署时，机器人行走策略训练方法包括模型的构建，使用模型进行规划，以及机器人行走策略的训练；构建一个乐观的深度模型M，该模型包含转移函数和奖励函数，其接受状态s和动作a输入，预测奖励r和下一时刻状态s′的分布，即：s′,r～M·|s,a，模型M使用集成的深度神经网络来表示，每个神经网络会输出预测状态和奖励上的高斯分布的均值和方差；模型的损失函数为：其中v表示机器人策略，M表示模型，s0表示初始状态，为初始状态的价值函数，其能够反映模型的乐观程度；是机器人使用策略π与机器人行走仿真环境E交互得到的真实轨迹样本集合，其表示为其中第i条轨迹记为HisTraji＝{s0,a0,s1,r0,s1,a1,s2,r1,…,sk,ak,sk+1,rk}i，其中sk,ak,sk+1,rk分别表示第k个时间步时的状态、采取的动作、下一时刻的状态以及当前时刻收集到的奖励；为真实样本集合在模型M上的似然概率，能够反映模型的置信程度；λ表示权重，控制模型的乐观与置信，从而保证模型的乐观被控制在设定的置信区间内，λ越大则模型的置信程度越高，λ越小则模型的乐观程度越高。

全文数据：

权利要求：

百度查询：南京大学基于乐观性原则和深度模型的智能体动作生成策略训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种果树吊枝方法_上海市农业科学院_202410367417.5

下一篇：一种电能表故障数据监测系统及数据存储介质_中电装备山东电子有限公司_202410411878.8

相关技术

一种果树吊枝方法_上海市农业科学院_202410367417.5

一种电能表故障数据监测系统及数据存储介质_中电装备山东电子有限公司_202410411878.8

一种探测烟雾粒度及浓度的方法_烟台创为新能源科技股份有限公司_202410159903.8

重组人白介素2（I）的应用_山东泉港药业有限公司_202410417266.X

一种燃气-蒸汽联合循环发电供热系统_西安热工研究院有限公司_202410130737.9

一种脑膜炎球菌发酵培养基及其制备方法和应用_成大生物(本溪)有限公司_202410343870.2

用于制造一次性杯状件的机器_MS2责任有限公司_202280065197.X

一种非均匀大气波导修正折射率的测算方法及系统_南京信息工程大学_202410123152.4

保护开关设备和方法_西门子股份公司_202280065501.0

一种用于降解餐厨垃圾的诱变菌株的复配及其应用_北京林业大学_202410173755.5

一种异性粘结磁粉制备用原料筛选设备_天长市中德电子有限公司_202410411084.1

全氟异丁腈的合成方法_天津市长芦化工新材料有限公司_202410424719.1

龙图腾网&IPTOP

【发明公布】基于乐观性原则和深度模型的智能体动作生成策略训练方法_南京大学_202311725468.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务