首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于大型语言模型指令微调的流调问答模板生成方法_华东师范大学_202311073614.8 

申请/专利权人:华东师范大学

申请日:2023-08-24

公开(公告)日:2024-05-17

公开(公告)号:CN117574919B

主分类号:G06F40/35

分类号:G06F40/35;G06N5/022

优先权:

专利状态码:有效-授权

法律状态:2024.05.17#授权;2024.03.08#实质审查的生效;2024.02.20#公开

摘要:本发明公开了一种基于大型语言模型指令微调的流调问答模板生成方法,其特点是该方法具体包括:设计流调问答指令数据格式、指令输入向量化表示、大模型微调和流调问题生成等步骤。本发明与现有技术相比具有方法简便,较好的解决了流调信息收集过程中依赖大量人力、问答模板单一、效率低等问题,快速提升流调问答效果,通过设计有效流调问答指令去激发大型语言模型强大的语言生成能力,通过LoRA技术对大模型进行微调,以最小的计算代价快速提升模型在流调问答模板生成任务中的适配能力,实用性强,具有良好的应用前景。

主权项:1.一种基于大型语言模型指令微调的流调问答模板生成方法,其特征在于:采用LoRA技术对大模型进行微调的方法,利用大模型强大的语言生成能力,以及上下文学习能力和思维链能力,自动生成流调问答模板,该方法具体包括:1)设计流调问答指令数据格式:给定流调任务描述和当前对话历史下,具体指令输入格式为:任务描述+对话历史+"流调员";输出格式为:当前对话历史下流调员下一步的提问;2)指令输入向量化表示:将指令输入预训练模型编码后,得到指令输入向量特征表示,其中L代表指令输入序列的长度,d代表上下文编码的向量表示;3)大模型微调:在原chatglm模型旁边增加一个旁路,分别为降维矩阵A和升维矩阵B,用随机高斯分布初始化A矩阵,用0矩阵初始化B矩阵,原chatglm模型的输入输出维度不变,输出时将B矩阵和A矩阵与chatglm模型的参数叠加,训练的时候固定原chatglm模型的参数,只对A矩阵和B矩阵的参数进行更新,模型的具体微调更新由下述(a)式表示为: (a);其中,为初始模型的参数;为LoRA模型的训练参数;d为模型上一层输出维度;k为模型下一层输入维度;4)流调问答模板生成:利用指令输入向量化表示步骤得到的指令输入向量特征表示、模型参数、降维矩阵A和升维矩阵B,得到长度为T的目标预测响应,其由解码端逐个生成下述(b)式表示当前对话历史下应该提问的问题: (b);其中,表示当前t时刻已经生成的输出;5)通过下述(c)式表示的损失函数使得模型生成的问题与真实问题一致: (c);其中,

全文数据:

权利要求:

百度查询: 华东师范大学 基于大型语言模型指令微调的流调问答模板生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。