买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于迁移学习与专家反馈的照护问答模型训练方法_华东师范大学_202311528596.8 

申请/专利权人:华东师范大学

申请日:2023-11-16

公开(公告)日:2024-02-09

公开(公告)号:CN117542471A

主分类号:G16H20/00

分类号:G16H20/00;G16H70/20;G06F16/332;G06F40/247;G06F40/166;G06F40/253;G06F21/62;G06F40/30;G06F16/901;G06N20/00;G06N3/096;G06N5/022

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.01#实质审查的生效;2024.02.09#公开

摘要:本发明公开了一种基于迁移学习与专家反馈的照护问答模型训练方法,一方面,为照护领域设计了一种基于迁移学习的知识增强方法,首先通过构建和优化语义层级树,生成医学语义片段;然后利用低秩自适应算法及大规模医学数据集,训练得到迁移模型;最后利用迁移模型将医学语料迁移到照护领域。该过程改善了医学语言模型在照护场景中存在的领域偏移、交流模式差异、临床实践细节缺失等难题,使得模型在照护问答场景中表现地更专业、更精准。另一方面,采用直接偏好优化算法和最大熵采样策略相融合的主动学习策略,有效引入了专家反馈、人在回路的机制;实现了模型的持续优化和知识更新,保证了照护问答系统在生成质量、实时性和实用性方面的能力提升。

主权项:1.一种基于迁移学习与专家反馈的照护问答模型训练方法,其特征在于,包括以下步骤:步骤1:构建医学照护语料库,包括如下子步骤:1-1:构建通用医学照护数据集和专业照护数据集;其中,所述通用医学照护数据集包括照护典籍、照护科研文献、临床照护实践指南,以及健康照护数据库;所述专业照护数据集包括照护机构的专业照护日志及机构内部知识库;1-2:专家参与的语料质量检查;由医学领域的专业人员对收集到的照护语料进行评估和检查,从专业性、有效性及正确性进行质量把控,使每一份数据满足模型构建和训练的要求;步骤2:数据质量优化,包括以下子步骤:2-1:文本增强处理;应用基于简单数据增强算法的文本增强处理技术,来丰富和优化通用医学照护数据集和专业照护数据集;具体包括:同义词替换;随机插入;随机交换;随机删除;2-2:数据清洗和优化;包括:数据去重;语法纠正;格式校对;隐私保护;步骤3:面向照护领域的迁移学习3-1:构建语义层级树:根据医学照护数据集和专业照护数据集,生成一个结构化的4元组语义层级树,以组织和表示语料的知识;其中,正文作为叶子节点,包含具体的信息和知识,而其他标题作为非叶子节点,用于组织和分类正文内容;3-2:语义层级树扁平化;将步骤3-1生成的语义层级树进行扁平化处理;从每个叶子节点追溯到根节点,建立一系列遍历路径,使得每个路径都成为一条独立的医学语义片段;3-3:训练医学照护迁移模型:以智谱AI的ChatGLM-6B为基础模型,利用47万高质量的医学数据集DISC-Med-SFT,通过低秩自适应算法将DISC-Med-SFT中的医学数据注入语言模型进行深度定制化训练,以增强语言模型从医学领域向照护领域迁移时的性能表现;预训练语言模型加入低秩自适应模块后的前向传播公式为:y=Wx+BAx其中,W表示预训练语言模型全连接层,其维度为d,d,x表示输入,y表示输出,矩阵A的维度为d,4,矩阵B的维度为4,d;矩阵A使用随机高斯分布初始化,矩阵B使用全0初始化;3-4:将步骤3-3得到的医学照护迁移模型,应用于步骤3-2生成的医学语义片段,进行医学语料到照护领域的迁移;迁移过程中根据规定的规则和格式,动态筛选出高质量的照护语料,保存至输出文件;同时,设置健全的错误处理和异常捕获逻辑,确保迁移过程的稳定执行;步骤4:基于直接偏好优化算法和最大熵采样的主动学习标注策略4-1:采用最大熵采样作为查询策略,从用户提问中挑选出信息量丰富、具有高标记价值的问题;其中,最大熵采样的计算公式为: 其中,x表示模型输入,y表示输出,i表示样本编号,θ表示模型参数,p表示概率,argmin表示求最小值的索引;4-2:质量评价:对步骤4-1筛选出的问答对,由医学专家从准确性、可信度、客观性和用户体验角度进行评估和修正,得到专家反馈数据;4-3:三元组构建:每个被选中的问题和其对应的答案,将与步骤4-2得到的专家反馈数据,组成一个包含问题、专家反馈数据和语言模型响应的三元组;4-4:使用直接偏好优化算法将医学专家的反馈与生成式语言模型进行对齐;优化目标是计算当前模型中优选和被拒绝响应的对数概率,再微调模型参数,以提高优选响应的可能性,降低被拒绝响应的可能性;直接偏好优化算法的优化目标为: 其中,σ表示逻辑斯蒂函数,X表示输入,Yi,1表示优选输出,Yi,2表示次选输出,θ表示模型参数,β表示可调节的超参数,Z表示正则项,i表示样本编号,p表示概率,θ,表示初始参数,L表示损失函数,r表示中间函数;步骤5:构建知识缓存区,增强语言模型的知识检索和响应能力5-1向量化和知识存储;利用m3e-large模型,将步骤3-2生成的医学语义片段转化成词向量形式,实现知识的高效表示和存储;将生成的词向量嵌入至Faiss数据库中,该数据库用于稠密向量的高效检索和聚类;5-2实现知识嵌入接口;知识嵌入接口用于处理用户查询:从Faiss数据库中精选出与用户查询最匹配的数条数据,将作为提示词,辅助语言模型生成更为精准和相应的回答;步骤6:将步骤5得到的模型部署在服务器上。

全文数据:

权利要求:

百度查询: 华东师范大学 一种基于迁移学习与专家反馈的照护问答模型训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。