申请/专利权人:出门问问创新科技有限公司;大众汽车(中国)投资有限公司
申请日:2019-09-06
公开(公告)日:2023-05-23
公开(公告)号:CN110543636B
主分类号:G06F40/279
分类号:G06F40/279;G06F40/289;G06F16/33;G06F16/35;G06F16/332
优先权:
专利状态码:有效-授权
法律状态:2023.05.23#授权;2019.12.31#实质审查的生效;2019.12.06#公开
摘要:本发明提供一种对话系统的训练数据选择方法,包括:确定新增垂直领域和所述新增垂直领域对应的第一正样本数据;选取多个候选垂直领域,确定所述多个候选垂直领域中每个候选垂直领域对应的第二正样本数据;根据所述新增垂直领域对应的第一正样本数据和所述每个候选垂直领域对应的第二正样本数据,确定所述每个候选垂直领域与新增垂直领域之间的相似度;根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度,确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。本发明还提供一种对话系统的训练数据选择装置,确定作为用于训练新增垂直领域的候选垂直领域,提高了准确率和效率,同时降低了人力成本。
主权项:1.一种对话系统的训练数据选择方法,其特征在于,所述方法包括:确定新增垂直领域和所述新增垂直领域对应的第一正样本数据;选取多个候选垂直领域,确定所述多个候选垂直领域中每个候选垂直领域对应的第二正样本数据;对所述第一正样本数据进行分词处理,得到所述新增垂直领域对应的第一分词样本数据,对每个候选垂直领域对应所述第二正样本数据进行分词处理,得到所述每个候选垂直领域对应的第二分词样本数据;所述第一分词样本数据包括多个不相同的第一分词,所述第二分词样本数据包括多个不相同的第二分词;获取所述第一分词的正向参数和反向参数,根据所述正向参数和所述反向参数确定所述第一分词的重要度;获取所述第二分词的正向参数和反向参数,根据所述正向参数和所述反向参数确定所述第二分词的重要度;根据所述第一分词的重要度和所述第二分词的重要度,确定所述每个候选垂直领域与新增垂直领域之间的相似度;根据预设条件和每个候选垂直领域与新增垂直领域之间的所述相似度,确定满足预设条件的候选垂直领域作为所述新增垂直领域的训练候选垂直领域。
全文数据:
权利要求:
百度查询: 出门问问创新科技有限公司;大众汽车(中国)投资有限公司 一种对话系统的训练数据选择方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。