哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)李晶获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)申请的专利基于层次混合专家模型的大模型多偏好对齐方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119862423B 。
龙图腾网通过国家知识产权局官网在2025-06-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510340570.3,技术领域涉及:G06F18/214;该发明授权基于层次混合专家模型的大模型多偏好对齐方法及装置是由李晶;李卓;李修成;张民设计研发完成,并于2025-03-21向国家知识产权局提交的专利申请。
本基于层次混合专家模型的大模型多偏好对齐方法及装置在说明书摘要公布了:本发明提供基于层次混合专家模型的大模型多偏好对齐方法及装置,涉及自然语言处理技术领域。该方法包括:获取预训练的单目标微调模型;提取模型中每个单目标策略的目标向量,通过任务向量奇异值分解法分解目标向量,生成低秩适配器作为每个单目标的LoRA专家;采用PCB‑merging和Free‑merging融合模型进行处理,获得多目标LoRA专家;生成线性路由层,构造奖励损失函数;采用镜像梯度下降和平滑切比雪夫标量化对损失函数进行优化,获得多目标的路由专家;设计权重路由器;根据多目标LoRA专家、多目标的路由专家和权重路由器,构建层次化的混合专家模型;将获取的用户输入的提示词和偏好向量,输入层次化的混合专家模型中,输出符合用户的偏好。采用本发明可提高推理效率。
本发明授权基于层次混合专家模型的大模型多偏好对齐方法及装置在权利要求书中公布了:1.一种基于层次混合专家模型的大模型多偏好对齐方法,其特征在于,所述方法包括: S1、获取预训练的单目标微调后的大语言模型;提取所述模型中每个单目标策略的目标向量,通过任务向量奇异值分解法对所述目标向量进行稀疏处理,生成低秩适配器作为每个单目标的LoRA专家;根据每个目标的LoRA专家,采用PCB-merging融合模型和Free-merging融合模型进行处理,获得多目标LoRA专家模型; 其中,所述S1的提取所述模型中每个单目标策略的目标向量,通过任务向量奇异值分解法对所述目标向量进行稀疏处理,生成低秩适配器作为每个单目标的LoRA专家;根据每个目标的LoRA专家,采用PCB-merging融合模型和Free-merging融合模型进行处理,获得多目标LoRA专家模型,包括: S11、定义预训练的单目标微调后的大语言模型的参数;根据预训练的单目标微调后的大语言模型的参数,提取所述模型中每个单目标策略的目标向量; S12、采用任务向量奇异值分解法进行稀疏处理,通过分解每个单目标的目标向量,获得低秩适配器;将低秩适配器作为每个单目标的LoRA专家; S13、设定偏好向量,根据每个单目标的LoRA专家,采用PCB-merging融合模型和Free-merging融合模型进行处理,获得多目标LoRA专家模型; S2、生成线性路由层,构造线性路由层对应的奖励损失函数;采用镜像梯度下降方法和平滑切比雪夫标量化方法对所述损失函数进行优化,获得多目标的路由专家; S3、设计权重路由器;根据多目标LoRA专家模型、多目标的路由专家和权重路由器,构建层次化的混合专家模型; S4、获取用户输入的提示词和偏好向量;将用户输入的提示词和偏好向量输入所述混合专家模型中进行对齐处理,输出符合用户的偏好。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院),其通讯地址为:518000 广东省深圳市南山区桃源街道深圳大学城哈尔滨工业大学校区;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。