买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于石油业务模型的油气企业大模型构建方法_北京侏罗纪软件股份有限公司_202311789160.4 

申请/专利权人:北京侏罗纪软件股份有限公司

申请日:2023-12-25

公开(公告)日:2024-03-22

公开(公告)号:CN117744770A

主分类号:G06N5/02

分类号:G06N5/02;G06Q50/02;G06F16/36

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.04.09#实质审查的生效;2024.03.22#公开

摘要:本发明公开了一种基于石油业务模型的油气企业大模型构建方法,属于模型构建技术领域,包括数据准备、数据预处理、数据标注、训练数据生成、模型再训练微调RLHF、模型部署和应用运营,数据预处理由结构化数据预处理和非结构化文档预处理组成,数据预处理的核心目的是将非标准的各种来源物理数据处理为业务标准粒度的“标准数据”。本发明可以利用语义理解和生成等能力抽取知识,提高知识抽取的准确性和覆盖度,也可以抽取出隐含的、复杂的、多模态的知识,降低图谱构建成本,可以利用其语义理解和指令遵循等能力辅助知识图谱的半自动化构建设计、增加知识的全面性和覆盖度,协助更好的完成知识融合和更新。

主权项:1.一种基于石油业务模型的油气企业大模型构建方法,其特征在于,所述油气企业大模型构建方法包括以下步骤:S1、数据准备:将建设油气行业大模型需要的大量油气行业业务数据进行准备,包括但不限于石油基本概念、石油业务内容、石油工作流程标准规范、石油阅读理解、石油工程算法、图形标准规范;S2、数据预处理:数据预处理由结构化数据预处理和非结构化文档预处理组成;结构化数据预处理工作是指基于业务规则,利用数据萃取工具将原数据加工为有独立业务含义数据单元,同时补充部分业务标注信息;非结构化文档预处理是将文档数据根据拆分逻辑拆分成多个有独立业务含义较小的部分或段落,再将段落按类别、主题或其他标准进行组织和标记;S3、数据标注:对于油气行业数据标注,主要包括业务标准和业务关系标注,给数据打上各种业务标签,进一步说明数据的各种业务特征及延申含义,进一步对数据进行理解;根据上面数据粒度单元的业务属性及业务关系建立一个业务资源描述模型,通过模型各个维度关系给石油数据进行标注;S4、训练数据生成:根据数据粒度单元的业务属性及业务关系建立一个业务资源描述模型,通过模型各个维度关系给石油数据进行标注,按照大模型要求准备好的输入数据,根据大模型不同的微调要求,生成不同格式的训练数据;S5、模型再训练微调RLHF:进行微调时采用零代码一键微调,通过在界面设置参数、选择微调方法、数据集,一键自动进行微调;S6、模型部署:考虑模型压缩以减少存储和计算负担、选择合适的部署策略满足特定环境的需求、进行调优以确保最佳性能、实时监控模型的表现及健康状态,并根据反馈和新数据进行定期的模型升级;S7、应用运营:对海量多模态非结构化数据的处理及数据生成能力、大模型在特定领域的调优算法支持度及分布式并行计算的支持度、大模型压缩及转化以适应边端推理的部署及管理能力、服务发布及编排运营能力、资源调度与插件生态,确保大模型从生产到落地应用的全过程稳步运行。

全文数据:

权利要求:

百度查询: 北京侏罗纪软件股份有限公司 一种基于石油业务模型的油气企业大模型构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。