买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】奖励模型处理方法、电子设备、介质和计算机程序产品_腾讯科技(深圳)有限公司_202011407855.8 

申请/专利权人:腾讯科技(深圳)有限公司

申请日:2020-12-03

公开(公告)日:2024-04-12

公开(公告)号:CN113535911B

主分类号:G06F16/332

分类号:G06F16/332;G06F40/35;G06N3/092;G06N3/09;G06N3/047;G06N3/044;G06N3/045

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2022.10.11#实质审查的生效;2021.10.22#公开

摘要:提供了奖励模型处理方法、电子设备、介质和计算机程序产品。处理方法可以包括:获取多轮次样本对话,每轮次样本对话包括样本问句以及对应的样本答句;利用判别器模型构造奖励模型,基于每轮次样本对话,迭代地对生成器模型和判别器模型进行训练,直至两个模型满足预设平衡条件;其中,每轮次样本对话对应于一次训练回合,在每次训练回合中:利用生成器模型基于当前和先前轮次样本对话生成伪样本对话,伪样本对话包括当前轮次样本对话中的样本问句以及对应的预测答句;利用判别器模型基于当前、先前轮次样本对话和伪样本对话生成判别结果;以及基于判别结果调整生成器模型的参数以及基于生成器模型生成的伪样本对话调整判别器模型的参数。

主权项:1.一种任务型对话系统中的奖励模型的处理方法,包括:获取多轮次样本对话,每轮次样本对话包括样本问句以及对应的样本答句;以及利用判别器模型构造所述奖励模型,基于所述多轮次样本对话中的每轮次样本对话,迭代地对生成器模型和判别器模型进行训练,直至所述生成器模型和所述判别器模型满足预设平衡条件;其中,每轮次样本对话对应于一次训练回合,在每次训练回合中,利用所述生成器模型基于当前轮次样本对话和当前轮次之前的先前轮次样本对话生成伪样本对话,所述伪样本对话包括所述当前轮次样本对话中的样本问句以及对应的预测答句;利用所述判别器模型基于所述当前轮次样本对话、先前轮次样本对话和所述伪样本对话生成对所述伪样本对话的判别结果;以及基于所述判别结果调整所述生成器模型的参数以及基于生成器模型生成的伪样本对话调整所述判别器模型的参数,其中,所述样本对话被编码为具有状态和动作的特征表示,其中状态与指示所述样本问句填充到各个预设语义槽的槽值的概率的置信度相关,并且所述动作与所述样本答句所涉及的行为相关,其中,利用生成器模型基于当前轮次样本对话和先前轮次样本对话生成伪样本对话,包括:对于所述先前轮次样本对话中的第一轮次对话,对所述第一轮次对话的特征表示进行特征提取,以得到所述第一轮次对话的特征向量;对于所述先前轮次样本对话中除第一轮次对话之外的其他每一轮次对话,对所述轮次对话的特征表示和前一轮次对话的特征向量进行特征提取,以得到综合特征向量,作为所述轮次对话的特征向量;以及基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述当前轮次样本对话的特征表示中的样本问句对应的状态,生成与所述当前轮次样本对话的样本问句的状态对应的预测动作,基于所述预测动作生成第一预测答句,并且将所述样本问句以及所述预测答句作为伪样本对话;以及其中,利用判别器模型基于所述当前轮次样本对话、先前轮次样本对话和所述伪样本对话生成对所述伪样本对话的判别结果,包括:对于所述先前轮次样本对话中的第一轮次对话,对所述第一轮次对话的特征表示进行特征提取,以得到所述第一轮次对话的特征向量;对于所述先前轮次样本对话中的其他每一轮次对话,对所述轮次对话的特征表示和前一轮次对话的特征向量进行特征提取,以得到综合特征向量,作为所述轮次对话的特征向量;基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述当前轮次样本对话的特征表示,生成第一特征向量;基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述伪样本对话的特征表示,生成第二特征向量;以及基于所述第一特征向量和所述第二特征向量确定所述伪样本对话为真的概率,作为判别结果。

全文数据:

权利要求:

百度查询: 腾讯科技(深圳)有限公司 奖励模型处理方法、电子设备、介质和计算机程序产品

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。