买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于PDF文件解析的图谱数据还原方法_刘羽_202110364526.8 

申请/专利权人:刘羽

申请日:2021-04-06

公开(公告)日:2024-04-19

公开(公告)号:CN112861821B

主分类号:G06F16/33

分类号:G06F16/33

优先权:

专利状态码:有效-授权

法律状态:2024.04.19#授权;2021.06.15#实质审查的生效;2021.05.28#公开

摘要:本发明公开了基于PDF文件解析的图谱数据还原方法,该方法包括:通过解析文件获得图谱位置范围;依据图谱中各类相关对象的位置属性,识别分类不同功能的数据及相对坐标;通过数据间的相互关系,获得图谱中的特定点的相对坐标和绝对坐标,并进一步获得相对坐标和绝对坐标所对应的横坐标校正系数和纵坐标校正系数;通过对所获得的相对坐标数据的换算,得到构建图谱的绝对坐标数据,从而实现对PDF图谱数据的还原。将PDF格式的图谱内容转换为反映图谱特征的、数值与原始数据接近、可操作可检索的数据,使图谱数据的使用脱离原专用系统、工作站、工作程序的限制,提升图谱数据的交换、查询、比对的便利性,方便进行数据的统一管理。

主权项:1.基于PDF文件解析的图谱数据还原方法,其特征在于,所述处理方法包括以下步骤:步骤一:使用计算机工具软件对PDF文件进行解析,依次获取图谱报告中存在的路径对象,读取并对路径对象的位置信息进行分析,寻找并确定图谱的位置范围;步骤二:获取图谱报告中存在的路径对象,根据情况,并进一步识别为图谱曲线、坐标轴框架、积分线和积分线标记,将图谱曲线中的图谱坐标组合生成图谱相对坐标数据,将积分线的图谱坐标生成积分线相对坐标数据;步骤三:在图谱所处的位置范围内,获取文件图谱的文本对象的文本信息和图谱坐标,识别为纵坐标刻度线标注,横坐标刻度线标注,及图谱其他文本对象;进一步的,对图谱其他文本对象根据对象位置判断对象功能,将文本对象的文本及对象相对坐标匹配,生成图谱参数数据;步骤四:在图谱所处的位置范围内,获取文件图谱的路径对象,根据情况,并进一步识别为纵坐标刻度线、横坐标刻度线、积分线和积分线标记,将积分线的图谱坐标生成积分线相对坐标数据;步骤五:根据步骤三和步骤四的结果分别形成纵坐标刻度信息数据和横坐标刻度信息数据;步骤六:解析文件中图谱数据汇总表的文本信息及文本的位置信息生成汇总表数据;步骤七:读取或计算文件图谱中特定点的绝对坐标及对应的相对坐标;步骤八:根据已知特定点组合的绝对坐标数据及相对坐标数据,计算图谱的横坐标校正系数与纵坐标校正系数;步骤九:采用已知绝对坐标及相对坐标的特定点之一作为参照点,根据步骤八得到的横坐标校正系数与纵坐标校正系数,将步骤二得到的图谱相对坐标数据逐一进行换算,得到绝对坐标,生成图谱绝对坐标数据字典;步骤十:采用已知的绝对坐标及相对坐标的特定点之一作为参照点,根据步骤八得到的横坐标与纵坐标的校正系数,将步骤三得到的图谱参数数据中的相对坐标数据逐一进行换算,得到绝对坐标,生成包含有绝对坐标的图谱参数数据字典;步骤十一:采用已知的绝对坐标及相对坐标的特定点之一作为参照点,根据步骤八得到的横坐标与纵坐标的校正系数,将步骤二或步骤四得到的积分线相对坐标数据中的相对坐标逐一进行换算,得到绝对坐标,生成积分线绝对坐标数据字典;步骤十二:将图谱绝对坐标数据字典,包含有绝对坐标的图谱参数数据字典,积分线绝对坐标数据字典合并打包生成结构化数据备用。

全文数据:

权利要求:

百度查询: 刘羽 基于PDF文件解析的图谱数据还原方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。