首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于大语言模型的多级数据建模方法及系统_成都天奥集团有限公司_202410042238.4 

申请/专利权人:成都天奥集团有限公司

申请日:2024-01-10

公开(公告)日:2024-04-16

公开(公告)号:CN117892820A

主分类号:G06N5/025

分类号:G06N5/025;G06F16/35;G06F40/242;G06F18/22;G06F18/231;G06F18/241

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.03#实质审查的生效;2024.04.16#公开

摘要:本发明提供了一种基于大语言模型的多级数据建模方法,包括以下步骤:S1.数据标注;S2.数据适配;S3.构建字典库;S4.接入解析;S5.关系抽取;S6.实体转换;S7.标准化处理;S8.融合处理;S9.层级分类;S10.分类计算;S11.聚类计算;S12.逐级生成;S13.完成保存。本发明还提供了一种基于大语言模型的多级数据建模系统,包括数据标注及训练单元、数据关系抽取单元、数据标准化及融合单元、数据模型分组聚合单元和数据模型分级单元。本发明能够有效解决从海量的多源异构开源知识数据中进行数据建模时数据模型参数覆盖不完整、数据模型建模过程耗时长的问题,自动完成模型多层分级,提高数据建模效率,有效支撑数据特征分析和知识溯源。

主权项:1.一种基于大语言模型的多级数据建模方法,其特征在于:包括以下步骤:S1.数据标注:定义开源军事领域目标实体及实体关系标签组、关系特征分类标签组,完成目标数据集实体及实体关系标注和实体关系特征分类标注;S2.数据适配:使用开源大语言模型作为基础,通过使用步骤S1中的开源军事领域目标标注数据集进行增量模型训练,完成对原大语言模型的参数微调,形成适用于开源军事领域的增强型大语言算法模型MFLLM;S3.构建字典库:构建包括标准化数据模型参数名称、标准化计量单位和标准化数据模型参数统一计量单位的开源军事领域目标数据标准字典库,保存至基础数据存储库;S4.接入解析:将包含多种目标对象的多源异构知识数据资料接入解析,并经过清洗转换为文本格式数据,然后将文本数据结果保存至基础数据存储库;S5.关系抽取:用增强型大语言算法模型MFLLM对步骤S4中的文本格式数据进行目标实体抽取和实体关系抽取,得到包含头实体、尾实体、实体关系和来源数据语句的抽取结果,并将抽取结果处理为实体关系三元组聚合集合entryArray;S6.实体转换:对实体关系三元组聚合集合entryArray进行数据结构的转换,得到实体对象数据entryObject;S7.标准化处理:将实体对象数据entryObject转换为实体属性三要素并进行数据标准化处理,得到实体参数模型parametricModel;S8.融合处理:使用文本相似度计算算法比较实体类型相同的实体名称、实体属性名称、属性值和计量单位,对实体参数模型parametricModel进行融合处理;S9.层级分类:将实体参数模型parametricModel按实体类型进行聚簇分组,并为每个实体参数模型增加层级分类信息;S10.分类计算:用增强型大语言算法模型MFLLM对实体参数模型parametricModel中的实体属性进行分类计算并进行实体属性分组,将分组信息添加至实体参数模型parametricModel中得到实体参数分组模型groupModel;S11.聚类计算:对实体参数分组模型groupModel进行相关性分析,并通过层次聚类算法对实体参数分组模型groupModel进行深度为1级的聚类计算得到下一级聚类簇后,用增强型大语言算法模型MFLLM为聚类簇生成名称后,将聚类的结果添加到实体参数分组模型的层级分类信息中;S12.逐级生成:重复步骤S11生成多层级的模型分类,形成具有继承关系的多层级数据模型体系;S13.完成保存:将多层级数据模型体系存入业务数据储存库或保存为配置文件,以供后续业务使用。

全文数据:

权利要求:

百度查询: 成都天奥集团有限公司 一种基于大语言模型的多级数据建模方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。