买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】模型训练方法、主题推荐理由的获取方法及系统、电子设备_携程旅游信息技术(上海)有限公司_202110718988.5 

申请/专利权人:携程旅游信息技术(上海)有限公司

申请日:2021-06-28

公开(公告)日:2024-03-22

公开(公告)号:CN113407842B

主分类号:G06F16/9535

分类号:G06F16/9535;G06F16/9532;G06F40/30;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.03.22#授权;2021.10.08#实质审查的生效;2021.09.17#公开

摘要:本发明公开了一种模型训练方法、主题推荐理由的获取方法及系统、电子设备,模型训练方法包括:获取与旅游景点主题相关的文本数据;对文本数据按照与旅游景点主题的相关程度以及内容优质程度进行标注;根据标注后的文本数据建立训练数据集;利用训练数据集对主题匹配模型进行第一次训练;通过数据增强方法进行数据增强,并将增强后的数据增加至训练数据集;利用包括有增强数据的训练数据集对主题匹配模型进行第二次训练,训练完成的主题匹配模型用于接收输入的目标主题,生成与目标主题相对应的推荐理由。不需要通过人工筛选与旅游景点主题对应的推荐理由,提高了推荐理由的生成效率,降低了时间和人工成本。

主权项:1.一种模型训练方法,其特征在于,所述模型训练方法包括:获取与旅游景点主题相关的文本数据;对所述文本数据按照与旅游景点主题的相关程度以及内容优质程度进行标注;根据标注后的文本数据建立训练数据集;利用所述训练数据集对主题匹配模型进行第一次训练;根据第一次训练后的结果进行总结分析,并通过数据增强方法进行数据增强,并将增强后的数据增加至所述训练数据集;利用包括有增强数据的所述训练数据集对所述主题匹配模型进行第二次训练,训练完成的所述主题匹配模型用于接收输入的目标主题,生成与所述目标主题相对应的推荐理由;所述数据增强方法包括数据回译增强方法、通用数据增强方法、欠拟合数据增强方法中的至少一种;所述数据回译增强方法具体包括以下步骤:利用机器翻译技术将标注后的文本数据进行多轮翻译,并将标注后的文本数据最终翻译成中文的结果增加至所述训练数据集;和或,所述通用数据增强方法具体包括以下步骤:获取内容优质的文本数据,所述内容优质的文本数据包括官方渠道提供的文本数据、从数据库中获取的文本数据中的至少一种;通过荣誉度模式匹配方法、词法分析方法和句法分析方法对所述文本数据进行数据增强,筛选出满足荣誉度模式匹配方法、词法分析方法和句法分析方法的文本数据并增加至所述训练数据集中;和或,所述欠拟合数据增强方法具体包括以下步骤:对所述主题匹配模型第一次训练后的结果进行问题分析,总结常见的错误类型和模板;基于所述常见的错误类型和模板,构建相应的正则表达式;基于所述正则表达式对无标注数据进行批量抽取,随机挑选数量满足预设的第一阈值的所述无标注数据作为负样本增加至所述训练数据集中;所述荣誉度模式匹配方法具体包括以下步骤:根据期望的荣誉度模式配置相应的荣誉度正则表达式,通过计算所述文本数据匹配的荣誉度正则表达式的个数,根据匹配的荣誉度正则表达式的个数计算得出所述文本数据的荣誉度得分;根据所述荣誉度得分筛选文本数据;所述词法分析方法具体包括以下步骤:通过词法分析工具对所述文本数据进行词语切分和词性标注;基于词语切分和词性标注的结果,筛选出所述文本数据中的形容词、动词及名词部分,并利用word2vec无监督语义匹配过滤掉与旅游景点主题相关度差的所述文本数据;判断过滤后的所述文本数据中包含的形容词数量是否少于设定的第二阈值,若少于,则剔除所述文本数据;按照预先统计的词语IDF值,对筛选后的词语的TF进行加权求和,并输出所述词语的分数,并根据分数筛选文本数据;所述句法分析方法具体包括以下步骤:通过句法分析工具对所述文本数据进行句法结构解析,判断所述文本数据的主谓结构是否完整,若不完整,则剔除所述文本数据。

全文数据:

权利要求:

百度查询: 携程旅游信息技术(上海)有限公司 模型训练方法、主题推荐理由的获取方法及系统、电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。