买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】基于乐观性原则和深度模型的智能体动作生成策略训练方法_南京大学_202311725468.2 

申请/专利权人:南京大学

申请日:2023-12-15

公开(公告)日:2024-03-12

公开(公告)号:CN117689039A

主分类号:G06N20/00

分类号:G06N20/00;G06N3/092

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.29#实质审查的生效;2024.03.12#公开

摘要:本发明公开一种基于乐观性原则和深度模型的智能体动作生成策略训练方法,将机器人行走任务建模为一个马尔科夫决策过程S,A,T,R,γ,其中S表示状态空间,指行走过程中机器人能感知到的状态信息;A表示动作空间,包含机器人能执行的所有动作;T表示状态转移函数,给定了机器人在任意状态采取任意动作后转移到的新状态的概率分布;R表示奖励函数,给定了机器人在任意状态采取任意动作后所收到的奖励,γ表示折扣因子;机器人行走仿真环境E模拟了真实机器人行走与环境的交互过程,为决策提供信息;机器人行走策略训练方法包括三个核心模块:基于乐观性原则的深度模型构建,基于深度模型的不确定性规划,以及机器人行走策略的训练。

主权项:1.一种基于乐观性原则和深度模型的智能体动作生成策略训练方法,其特征在于,以机器人行走任务作为智能体动作生成任务的具体实施对象,首先需要将机器人行走任务建模为一个马尔科夫决策过程S,A,T,R,γ,其中S表示状态空间,指行走过程中机器人能感知到的状态信息,包括地图障碍物位置信息和机器人的状态信息;A表示动作空间,其包含机器人能控制的所有行动;T表示状态转移函数,给定了机器人在任意状态s∈S采取任意动作a∈A后转移到的新状态的概率分布T·|s,a;R表示奖励函数,给定了机器人在任意状态s∈S采取任意动作a∈A后所收到的奖励Rs,a,γ表示折扣因子,用于平衡长期奖励和短期奖励;机器人用于训练行走策略的交互环境为机器人行走仿真环境E,该机器人行走仿真环境E模拟了真实机器人行走与环境的交互过程,为马尔科夫决策过程提供信息;在机器人行走仿真环境E部署时,机器人行走策略训练方法包括模型的构建,使用模型进行规划,以及机器人行走策略的训练;构建一个乐观的深度模型M,该模型包含转移函数和奖励函数,其接受状态s和动作a输入,预测奖励r和下一时刻状态s′的分布,即:s′,r~M·|s,a,模型M使用集成的深度神经网络来表示,每个神经网络会输出预测状态和奖励上的高斯分布的均值和方差;模型的损失函数为: 其中v表示机器人策略,M表示模型,s0表示初始状态,为初始状态的价值函数,其能够反映模型的乐观程度;是机器人使用策略π与机器人行走仿真环境E交互得到的真实轨迹样本集合,其表示为其中第i条轨迹记为HisTraji={s0,a0,s1,r0,s1,a1,s2,r1,…,sk,ak,sk+1,rk}i,其中sk,ak,sk+1,rk分别表示第k个时间步时的状态、采取的动作、下一时刻的状态以及当前时刻收集到的奖励;为真实样本集合在模型M上的似然概率,能够反映模型的置信程度;λ表示权重,控制模型的乐观与置信,从而保证模型的乐观被控制在设定的置信区间内,λ越大则模型的置信程度越高,λ越小则模型的乐观程度越高。

全文数据:

权利要求:

百度查询: 南京大学 基于乐观性原则和深度模型的智能体动作生成策略训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。