买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于指令微调和检索增强生成的在线智能问答方法及装置_杭州有赞科技有限公司_202410118530.X 

申请/专利权人:杭州有赞科技有限公司

申请日:2024-01-29

公开(公告)日:2024-04-23

公开(公告)号:CN117688163B

主分类号:G06F16/332

分类号:G06F16/332;G06F40/30;G06F18/22;G06F40/211

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2024.03.29#实质审查的生效;2024.03.12#公开

摘要:本发明公开了基于指令微调和检索增强生成的在线智能问答方法及装置,包括:获取用户在线提问信息,基于大语言模型对用户在线提问信息进行提炼,对经提炼的提问进行相似提问扩充;基于已训练的语义向量模型对用户在线提问和扩充的相似提问进行向量化处理,得到在线提问文本向量;基于两路检索召回策略将在线提问文本向量与预设知识库内的数据进行检索比较得到相似数据后,基于相似数据和TopK策略从对应的缓存区域中召回与相似数据对应的多个目标文本块;基于重排序策略对召回文本块进行重排序,得到重排序文本块;基于大语言模型和提示词,对用户在线提问、召回文本块及重排序文本块进行润色归纳,得到在线回答结果。提升了智能问答准确率。

主权项:1.一种基于指令微调和检索增强生成的在线智能问答方法,其特征在于,所述方法包括:获取用户在线提问信息,基于大规模语言模型对所述用户在线提问信息进行理解和提炼处理,得到经提炼理解的用户在线提问,并基于所述大规模语言模型对所述经提炼理解的用户在线提问进行相似提问扩充,得到扩充的相似提问;其中,所述用户在线提问信息包括用户在线提问、与所述用户在线提问相关的上下文语境信息;基于已训练的语义向量模型对所述用户在线提问和所述扩充的相似提问进行向量化处理,得到在线提问文本向量;其中,在所述基于已训练的语义向量模型对所述用户在线提问和所述扩充的相似提问进行向量化处理的步骤之前,获取用户提问和语料数据,其中,所述语料数据包括与所述用户提问相关的正样本文本信息,以及与所述用户提问不相关的负样本文本信息;以所述用户提问、所述正样本文本信息和所述负样本文本信息为三元组构建语义向量模型的训练语料;基于与所述用户提问相关的场景,在所述用户提问中设置相应的任务指令;基于所述任务指令和所述训练语料对语义向量模型进行指令微调训练,得到所述已训练的语义向量模型;基于两路检索召回策略将所述在线提问文本向量与预设知识库内的数据进行检索比较,从所述预设知识库中得到与所述在线提问文本向量相似的相似数据,并基于所述相似数据和TopK策略从对应的缓存区域中映射召回与所述相似数据对应的多个目标文本块;所述基于两路检索召回策略将所述在线提问文本向量与预设知识库内的数据进行检索比较,从所述预设知识库中得到与所述在线提问文本向量相似的相似数据的步骤包括:第一路是基于向量索引检索策略,计算在线提问文本向量与Milvus向量库中文本向量间的各内积相似度,基于内积相似度得到相似文本向量判定结果;若相似文本向量判定结果为相似,则从Milvus向量库中获取与在线提问文本向量相似的相似文本向量;第二路是基于文本关键词检索策略,计算在线提问文本向量与ES库中文本数据间的各文本相似度,基于文本相似度得到相似文本判定结果;若相似文本判定结果为相似,则从ES库中获取与在线提问文本向量相似的相似文本;基于交叉编码器对所述用户在线提问和召回的多个目标文本块分别进行相关性计算,得到所述用户在线提问与各目标文本块之间的相关性分数,并基于所述用户在线提问与各目标文本块之间的相关性分数对所述召回的多个目标文本块进行重排序,得到重排序文本块;基于所述大规模语言模型和预设的提示词,对所述用户在线提问、所述召回的多个目标文本块及所述重排序文本块进行文字润色处理和词汇归纳处理,得到与所述用户在线提问相对应的在线回答结果。

全文数据:

权利要求:

百度查询: 杭州有赞科技有限公司 基于指令微调和检索增强生成的在线智能问答方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。