【发明公布】一种基于双向反馈的协同深度强化学习方法及系统_中信银行股份有限公司_202311733185.2

申请/专利权人：中信银行股份有限公司

申请日：2023-12-15

公开（公告）日：2024-03-19

公开（公告）号：CN117725984A

主分类号：G06N3/092

分类号：G06N3/092;G06N3/09;G06N3/045;G06N3/0464;G06N3/042;G06N3/047;G06N7/01

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.04.05#实质审查的生效;2024.03.19#公开

摘要：本发明涉及一种基于双向反馈的协同深度强化学习方法及系统，分别迭代执行基于人工操作数据的监督学习任务与基于输入策略的强化学习迭代任务，并依据阶段策略更新环境信息类以逼近最优策略，首先通过深度神经网络学习人类探索的策略，然后通过策略评估和迭代来进一步对策略进行提升，同时不断地与环境交互持续提升策略，有效地解决了强化学习不能有效纳入人类知识的问题，特别适用于训练用于部署在物联网平台的控制器，实现下发最优控制器指令达到预定目标。

主权项：1.一种基于双向反馈的协同深度强化学习方法，其特征在于，包括：S1、依据预设基础模型配置环境信息类，所述基础模型包括有限马尔科夫模型，所述环境信息类包括系统状态信息、激励信号、预设的概率转移矩阵和对应控制动作的控制信号输入；S2、依据环境信息类执行第一学习任务，生成第一策略，所述第一学习任务包括基于人工操作数据的监督学习任务；S3、使用第一策略执行第二学习任务，生成第二策略，所述第二学习任务包括基于输入策略的强化学习迭代任务；S4、使用第二策略执行改进任务，生成第三策略，所述改进任务包括基于人工操作数据的输入策略修订任务；S5、分别执行第二策略和第三策略生成对应的第二值函数和第三值函数，依据预设评价标准判断第三值函数是否优于第二值函数，并将较优值函数对应的策略接受为阶段策略；S6、使用阶段策略作为新的第二策略重复执行步骤S4至S5，直至执行阶段策略生成的对应值函数匹配预设停止条件，将该阶段策略作为最终策略输出。

全文数据：

权利要求：

百度查询：中信银行股份有限公司一种基于双向反馈的协同深度强化学习方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种冷渣机料渣前置破碎防卡料机构_青岛奥利斯电力设备有限公司_202322163598.3

下一篇：一种膏贴剂生产用传输装置_河南上恒医药科技有限公司_202322307134.5

相关技术

一种冷渣机料渣前置破碎防卡料机构_青岛奥利斯电力设备有限公司_202322163598.3

一种膏贴剂生产用传输装置_河南上恒医药科技有限公司_202322307134.5

一种现调机用消毒装置_中粮可口可乐饮料(山西)有限公司_202322565837.8

一种醋酸酐含量检测装置_山东嘉驰新材料股份有限公司_202322220520.0

整形压块及焊接装置_宁德时代新能源科技股份有限公司_202321970130.9

高温堆直流调试防干扰回路_华能山东石岛湾核电有限公司_202322501565.5

一种玉米种植用病虫害防治装置_黄金双_202322446508.1

一种超低能耗制备电解液及硫酸氧钒晶体的系统_广东中科天钒储能科技有限公司_202322441183.8

一种吸尘器高密封过滤网_苏州佳奇克电子有限公司_202322293337.3

一种尺寸可调节的中药材切片装置_安徽盛林国药饮片有限公司_202322230535.5

一种用于负极材料粉尘除尘器_天津燃洁斯工业设备有限公司_202322051874.7

一种旋转式防撞护栏和混凝土护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419697.3

龙图腾网&IPTOP

【发明公布】一种基于双向反馈的协同深度强化学习方法及系统_中信银行股份有限公司_202311733185.2

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务