申请/专利权人:中国科学院自动化研究所
申请日:2024-04-12
公开(公告)日:2024-05-17
公开(公告)号:CN118051780A
主分类号:G06F18/214
分类号:G06F18/214;G06N3/006
优先权:
专利状态码:在审-实质审查的生效
法律状态:2024.06.04#实质审查的生效;2024.05.17#公开
摘要:本公开提供了一种智能体的训练方法、交互方法及相应系统。适用于人机交互场景的智能体的训练方法包括:从所述智能体的策略空间采样多个策略作为本轮训练的测试策略;在人机交互任务环境中对各测试策略进行测试,得到所述各测试策略在m个测试任务上的测试结果;基于所述测试结果,计算用于评估所述各测试策略在各测试任务中的表现的客观评估数据;向用户输出所述测试结果,并接收所述用户对所述各测试策略在所述各测试任务中的表现的主观评估数据;基于所述客观评估数据和所述主观评估数据,更新所述智能体。根据本公开的示例性实施例,综合考虑人类的主观感受和智能体的客观能力完成智能体评估及训练,使训练得到的智能体能力强且被人类认可。
主权项:1.一种适用于人机交互场景的智能体的训练方法,其特征在于,所述训练方法包括:从所述智能体的策略空间采样多个策略作为本轮训练的测试策略,其中,所述策略空间包括n个策略,n为大于1的整数;在人机交互任务环境中对各测试策略进行测试,得到所述各测试策略在m个测试任务上的测试结果,m为大于0的整数;基于所述测试结果,计算用于评估所述各测试策略在各测试任务中的表现的客观评估数据;向用户输出所述测试结果,并接收所述用户对所述各测试策略在所述各测试任务中的表现的主观评估数据;基于所述客观评估数据和所述主观评估数据,更新所述智能体,并确定是否继续更新所述智能体;在确定停止继续更新所述智能体的情况下,将已完成更新的所述智能体作为最终训练好的目标智能体,所述目标智能体用于与人类进行信息交互;其中,在确定继续更新所述智能体的情况下,返回执行从所述智能体的策略空间采样多个策略作为本轮训练的测试策略的步骤,以开始新一轮训练。
全文数据:
权利要求:
百度查询: 中国科学院自动化研究所 智能体的训练方法、交互方法及相应系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。