【发明授权】奖励模型处理方法、电子设备、介质和计算机程序产品_腾讯科技(深圳)有限公司_202011407855.8

申请/专利权人：腾讯科技(深圳)有限公司

申请日：2020-12-03

公开（公告）日：2024-04-12

公开（公告）号：CN113535911B

主分类号：G06F16/332

分类号：G06F16/332;G06F40/35;G06N3/092;G06N3/09;G06N3/047;G06N3/044;G06N3/045

优先权：

专利状态码：有效-授权

法律状态：2024.04.12#授权;2022.10.11#实质审查的生效;2021.10.22#公开

摘要：提供了奖励模型处理方法、电子设备、介质和计算机程序产品。处理方法可以包括：获取多轮次样本对话，每轮次样本对话包括样本问句以及对应的样本答句；利用判别器模型构造奖励模型，基于每轮次样本对话，迭代地对生成器模型和判别器模型进行训练，直至两个模型满足预设平衡条件；其中，每轮次样本对话对应于一次训练回合，在每次训练回合中：利用生成器模型基于当前和先前轮次样本对话生成伪样本对话，伪样本对话包括当前轮次样本对话中的样本问句以及对应的预测答句；利用判别器模型基于当前、先前轮次样本对话和伪样本对话生成判别结果；以及基于判别结果调整生成器模型的参数以及基于生成器模型生成的伪样本对话调整判别器模型的参数。

主权项：1.一种任务型对话系统中的奖励模型的处理方法，包括：获取多轮次样本对话，每轮次样本对话包括样本问句以及对应的样本答句；以及利用判别器模型构造所述奖励模型，基于所述多轮次样本对话中的每轮次样本对话，迭代地对生成器模型和判别器模型进行训练，直至所述生成器模型和所述判别器模型满足预设平衡条件；其中，每轮次样本对话对应于一次训练回合，在每次训练回合中，利用所述生成器模型基于当前轮次样本对话和当前轮次之前的先前轮次样本对话生成伪样本对话，所述伪样本对话包括所述当前轮次样本对话中的样本问句以及对应的预测答句；利用所述判别器模型基于所述当前轮次样本对话、先前轮次样本对话和所述伪样本对话生成对所述伪样本对话的判别结果；以及基于所述判别结果调整所述生成器模型的参数以及基于生成器模型生成的伪样本对话调整所述判别器模型的参数，其中，所述样本对话被编码为具有状态和动作的特征表示，其中状态与指示所述样本问句填充到各个预设语义槽的槽值的概率的置信度相关，并且所述动作与所述样本答句所涉及的行为相关，其中，利用生成器模型基于当前轮次样本对话和先前轮次样本对话生成伪样本对话，包括：对于所述先前轮次样本对话中的第一轮次对话，对所述第一轮次对话的特征表示进行特征提取，以得到所述第一轮次对话的特征向量；对于所述先前轮次样本对话中除第一轮次对话之外的其他每一轮次对话，对所述轮次对话的特征表示和前一轮次对话的特征向量进行特征提取，以得到综合特征向量，作为所述轮次对话的特征向量；以及基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述当前轮次样本对话的特征表示中的样本问句对应的状态，生成与所述当前轮次样本对话的样本问句的状态对应的预测动作，基于所述预测动作生成第一预测答句，并且将所述样本问句以及所述预测答句作为伪样本对话；以及其中，利用判别器模型基于所述当前轮次样本对话、先前轮次样本对话和所述伪样本对话生成对所述伪样本对话的判别结果，包括：对于所述先前轮次样本对话中的第一轮次对话，对所述第一轮次对话的特征表示进行特征提取，以得到所述第一轮次对话的特征向量；对于所述先前轮次样本对话中的其他每一轮次对话，对所述轮次对话的特征表示和前一轮次对话的特征向量进行特征提取，以得到综合特征向量，作为所述轮次对话的特征向量；基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述当前轮次样本对话的特征表示，生成第一特征向量；基于所述当前轮次样本对话的前一个轮次对话的特征向量、所述伪样本对话的特征表示，生成第二特征向量；以及基于所述第一特征向量和所述第二特征向量确定所述伪样本对话为真的概率，作为判别结果。

全文数据：

权利要求：

百度查询：腾讯科技(深圳)有限公司奖励模型处理方法、电子设备、介质和计算机程序产品

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：电池壳清洗用旋转框架安装槽的限位结构_无锡金杨丸伊电子有限公司_202322328357.X

下一篇：一种具有除臭机构的集成中央气体处理装置_龙岩忠友环境科技有限公司_202322062347.6

相关技术

电池壳清洗用旋转框架安装槽的限位结构_无锡金杨丸伊电子有限公司_202322328357.X

一种具有除臭机构的集成中央气体处理装置_龙岩忠友环境科技有限公司_202322062347.6

一种用于土地规划用测量装置_西安市城市发展资源信息有限公司_202322290527.X

一种打印机线路板加工用吸附输送轨道_威海光大光电有限公司_202322481598.8

一种旋转式防撞护栏和波形梁护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419695.4

一种防堵污水管道_浩卓泵业(杭州)有限公司_202322092893.4

一种叠瓦电池片检测用工装_江苏龙恒新能源有限公司_202322351795.8

一种保温箱排水结构_苏州苏味轩食品有限公司_202322479258.1

摄像头安装组件和应用其的仪表屏_深圳市航盛电子股份有限公司_202322569773.9

一种用于汽车保险杠加工的旋转喷漆装置_重庆渝湘智成汽车配件有限公司_202322547178.5

一种籽晶自动熔接结构_四川永祥光伏科技有限公司_202322431204.8

一种印刷电路板加工用压膜装置_南通欧贝达电子科技有限公司_202322176231.5

方法相关技术

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202211296381.3

通信方法及装置_华为技术有限公司_202010617172.9

信息处理方法_丰田自动车株式会社_202311358127.6

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

冰箱及其控制方法_LG电子株式会社_202080061858.2

冰箱及其控制方法_重庆海尔制冷电器有限公司_202211295888.7

电子设备相关技术

电子设备_合肥联宝信息技术有限公司_201711106618.6

电子设备_联想(新加坡)私人有限公司_202311364004.3

电子设备_三星显示有限公司_202322201102.7

电子设备_深圳市嘉晋实业有限公司_202322601396.2

电子设备_联想(新加坡)私人有限公司_202311356838.X

电子设备_联想(北京)有限公司_202121048913.2

电子设备_联想(北京)有限公司_202322038862.0

电子设备_联想(北京)有限公司_202320261233.1

电池和电子设备_珠海冠宇电池股份有限公司_202322439080.8

风扇和电子设备_联想(北京)有限公司_202322357859.5

处理相关技术

基板处理设备和基板处理方法_细美事有限公司_202311345152.0

影像处理装置及影像处理方法_纬创资通股份有限公司_202211404107.3

信息处理系统、信息处理方法以及信息处理装置_丰田自动车株式会社_202311325525.8

数据信号处理方法和数据信号处理装置_铠强科技(平潭)有限公司_202310730790.8

杯、液处理装置以及液处理方法_东京毅力科创株式会社_202311358288.5

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

信息处理装置、信息处理方法以及程序_索尼公司_201880080945.5

有机废气处理设备及有机废气处理组件_无锡博洋环境工程有限公司_202322538306.X

医用图像处理装置以及医用图像处理方法_富士胶片医疗健康株式会社_202010503352.4

热处理炉_NGK(苏州)热工技术有限公司_202322575176.7

龙图腾网&IPTOP

【发明授权】奖励模型处理方法、电子设备、介质和计算机程序产品_腾讯科技(深圳)有限公司_202011407855.8

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务