恭喜南京航空航天大学汪俊获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京航空航天大学申请的专利一种基于渐进式知识注入与检索增强生成的航空航天知识大模型构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119808931B 。
龙图腾网通过国家知识产权局官网在2025-05-23发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510309163.6,技术领域涉及:G06N5/022;该发明授权一种基于渐进式知识注入与检索增强生成的航空航天知识大模型构建方法是由汪俊;曹立群;宋雅各;易程;魏明强;郑晓杰设计研发完成,并于2025-03-17向国家知识产权局提交的专利申请。
本一种基于渐进式知识注入与检索增强生成的航空航天知识大模型构建方法在说明书摘要公布了:本发明公开一种基于渐进式知识注入与检索增强生成的航空航天知识大模型构建方法,包括:收集多源知识数据并进行预处理,构建航空航天领域知识库;基于DeepSeek‑R1‑8B模型,采用三阶段渐进式混合课程学习框架进行持续预训练;通过指令数据与知识引导机制,进行监督微调,完成大模型的基本构建;构建检索增强生成模块,形成“检索‑过滤‑生成”的流程,通过深度融合实时检索与生成推理,提升模型的知识覆盖度与事实一致性;通过多维度的量化指标与动态测试机制,评估模型的性能表现,形成从数据构建到反馈优化的完整评估生态。本发明所提出的方法,通过多阶段协同优化实现了航空航天领域知识的深度整合与高效应用。
本发明授权一种基于渐进式知识注入与检索增强生成的航空航天知识大模型构建方法在权利要求书中公布了:1.一种基于渐进式知识注入与检索增强生成的航空航天知识大模型构建方法,其特征在于,具体包括以下步骤:S1、面向多种航空航天领域知识数据源,设计自动化采集工具链,搭建数据收集系统,获取原始数据;并对获取到的原始数据进行细粒度的清洗、去重和整理,构建高质量航空航天领域知识数据库;S2、基于DeepSeek-R1-8B模型和步骤S1构建的知识数据库,进行持续的预训练,设计三阶段渐进式混合课程学习框架,动态规划预训练数据库中的数据比例,并逐步提升领域知识的浓度与复杂度;步骤S2具体包括:S21、设计三阶段渐进式混合课程学习框架,对步骤S1构建出的高质量航空航天领域知识数据库和互联网开源的通用数据库进行动态采样与混合,分别构建适用于三种不同学习阶段的预训练数据集;三种不同学习阶段分别为通用知识保留阶段、领域知识注入阶段、深度专业化阶段,分别对应预训练初期、中期和后期;S22、在预训练初期,预训练数据集包含90%通用语料与10%航空航天领域基础数据;基于原始DeepSeek-R1-8B模型进行掩码语言模型任务,进行多轮次训练,重点学习领域核心术语的语义嵌入与基础概念关联;同时设计动态掩盖机制,对输入文本中的领域术语施加掩盖,迫使模型从上下文中推断专业词汇的深层语义;S23、在预训练中期,预训练数据集中航空航天领域数据占比提升至50%,重点引入中等难度文本内容;基于经过初期预训练的DeepSeek-R1-8B模型继续进行掩码语言模型任务,进行多轮次训练,提升模型对复杂关联的建模能力;S24、在预训练后期,预训练数据集中航空航天领域数据占比提升至80%,聚焦高密度专业内容,特别包含复杂数学公式推导;基于经过中期预训练的DeepSeek-R1-8B模型进行掩码语言模型和下一结构预测任务,分别训练多个轮次,强化模型的逻辑推理、上下文理解以及信息整合能力;S25、在模型结果生成过程中引入数值保护层,通过正则表达式自动标注“num”与“unit”标签,约束数值格式的物理合理性,避免生成违背常识的结果;S3、基于预训练后的模型,通过精细化设计领域特定的指令数据与知识引导机制,进行监督微调,校准模型的生成逻辑与专业知识表达,将预训练阶段注入的隐式嵌入领域知识转化为显式推理能力,完成航空航天知识大模型的基本构建;S4、构建检索增强生成模块,形成“检索-过滤-生成”的流程,通过深度融合实时检索与生成推理,提升大模型在航空航天领域的知识覆盖度与事实一致性;步骤S4具体包括:S41、构建查询增强模块,使用大模型对用户输入的查询进行重写;S42、构建查询检查模块,对重写后的新查询进行三方面检查,包括:确定用户输入的查询是否与航空航天领域知识相关;评估用户输入的查询是否适合进行知识检索增强以生成响应;验证用户的查询是否符合规范要求,拦截限制性内容,确保查询的合规性;当且仅当三个条件同时满足时,航空航天知识大模型才继续进行知识检索增强;S43、构建查询扩展与分解模块,处理多样化的用户查询,根据输入的用户查询的复杂度,执行混合粒度自适应检索,通过原始查询生成子查询,以及大模型检索到的与子查询相关的文档;S44、构建文档过滤筛选模块,对检索到的文档与其对应的子查询之间的相关性进行评估;并按来源权威性、时效性、相关性得分综合排序,保留综合得分最高的三个文档;若检索结果出现冲突,则启动投票机制并标注存疑点;S45、经过多层过滤的文档随后会与其对应的子查询进行组合,并与重写后的用户查询一起作为模型的输入,以指导大模型的响应生成;另外在用户查询没有获得对应的相关文档时,则提醒大模型提供适当的解释;S5、构建面向航空航天领域的专业化评估基准,通过多维度的量化指标与动态测试机制,全面评估构建好的大模型在关键任务中的性能表现,形成从数据构建到反馈优化的完整评估生态。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京航空航天大学,其通讯地址为:210016 江苏省南京市秦淮区御道街29号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。