广西警察学院秦振凯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广西警察学院申请的专利基于大语言模型的多模态文档结构化处理与知识提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119227794B 。
龙图腾网通过国家知识产权局官网在2025-06-13发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411366962.9,技术领域涉及:G06N5/022;该发明授权基于大语言模型的多模态文档结构化处理与知识提取方法是由秦振凯;饶宜可;吴田阳;周亮明;林明友;古先铭设计研发完成,并于2024-09-29向国家知识产权局提交的专利申请。
本基于大语言模型的多模态文档结构化处理与知识提取方法在说明书摘要公布了:本发明公开了一种基于大语言模型的多模态文档结构化处理与知识提取方法,S1、接收输入的多模态文档;S2、对所述多模态文档中的文本数据进行预处理;S3、对所述多模态文档中的非文本数据进行特征提取;S4、将预处理后的文本数据与特征提取后的非文本数据进行多模态数据融合;S5、通过预先训练的改进BERT模型对所述融合后的多模态数据进行深度语义分析,包括关键实体识别、关系抽取及事件检测;S6、基于所述深度语义分析的结果,自动化地将提取的信息构建知识图谱;S7、将知识图谱的数据输出为可供分析或应用的格式。本发明实现了对非结构化和多模态文档的结构化处理和知识提取。
本发明授权基于大语言模型的多模态文档结构化处理与知识提取方法在权利要求书中公布了:1.一种基于大语言模型的多模态文档结构化处理与知识提取方法,其特征在于,包括如下步骤: S1、接收输入的多模态文档,所述多模态文档包含至少一种文本数据和至少一种非文本数据; S2、对所述多模态文档中的文本数据进行预处理,所述预处理包括分词、词性标注、句法分析及实体识别; S3、对所述多模态文档中的非文本数据进行特征提取; S4、将预处理后的文本数据与特征提取后的非文本数据进行多模态数据融合; S5、通过预先训练的改进BERT模型对所述融合后的多模态数据进行深度语义分析; S6、基于所述深度语义分析的结果,自动化地将提取的信息构建知识图谱; S7、将知识图谱的数据输出为可供分析或应用的格式; 所述步骤S5包括: S51、将融合后的多模态特征矩阵Mr输入至预先训练的改进BERT模型执行深度语义分析,改进BERT模型对文本和非文本数据的嵌入表示进行联合编码,生成多模态语义向量Sv; S52、通过注意力机制在多模态语义向量Mr中执行关键实体识别,改进BERT模型计算每个词和非文本特征的注意力权重,识别出多模态数据中的关键实体Ek: 其中,Svi表示多模态语义向量中的第i个词或特征,Tdi表示相应的文本词语,αi表示注意力权重; S53、基于改进BERT模型的深度语义关系抽取模块,计算多模态语义向量中的实体之间的关系RsEk,并通过事件检测模块在多模态语义向量中识别出事件Evs; 所述步骤S6包括: S61、基于深度语义分析的结果从多模态语义向量Sv提取文本实体节点Et和非文本实体节点En,构建知识图谱的初始节点集Ng: 文本实体节点Et表示从文本数据中提取的人物、地名和事件; 非文本实体节点En表示从图像和图表非文本数据中提取的物体和数据点; S62、根据文本数据与非文本数据之间的语义关系生成节点之间的边Lg,所述边包括表示文本描述与图像中对象之间关系的边和表示图表数据与文本描述之间关系的边; S63、基于图结构学习模型对节点和边的权重ωn和ωl进行优化生成优化后的知识图谱Kg。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广西警察学院,其通讯地址为:530028 广西壮族自治区南宁市青秀区长湖路6号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。