买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】筛选PDF文件信息的方法、装置、计算机设备及存储介质_深圳前海环融联易信息科技服务有限公司_201911274586.X 

申请/专利权人:深圳前海环融联易信息科技服务有限公司

申请日:2019-12-12

公开(公告)日:2024-04-12

公开(公告)号:CN111046636B

主分类号:G06F40/154

分类号:G06F40/154

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2020.05.15#实质审查的生效;2020.04.21#公开

摘要:本发明公开了一种筛选PDF文件信息的方法,包括以下步骤:运行PDF插件,所述PDF插件用于将PDF文件无损转换为文本文件;获取人工编写的一段C语言代码,所述C语言代码用于支持java虚拟机调用所述PDF插件;执行所述C语言代码,通过所述C语言代码调用所述PDF插件以模拟用户将PDF文件转换为文本文件;通过执行内置代码把文本文件转换为XML数据并进行解析;把解析后的XML数据通过预设的规则进行初次匹配,以获得初次匹配后的文件信息;将初次匹配后的文件信息通过优化算法进行分页保存到处理器缓存;将用户输入的字符串数据与处理器缓存内的文件信息进行再次匹配,以获得输出结果。便于用户迅速准确将输入的字符串进行匹配定位,识别效率高,成熟稳定。

主权项:1.一种筛选PDF文件信息的方法,其特征在于,包括以下步骤:运行PDF插件,所述PDF插件用于将PDF文件无损转换为文本文件;获取C语言代码,所述C语言代码用于支持java虚拟机调用所述PDF插件;执行所述C语言代码,通过所述C语言代码调用所述PDF插件以模拟用户将PDF文件转换为文本文件;通过执行内置代码把文本文件转换为XML数据并进行解析;把解析后的XML数据通过预设的规则进行初次匹配,以获得初次匹配后的文件信息;将初次匹配后的文件信息进行分页保存到处理器缓存;将用户输入的字符串数据与处理器缓存内的文件信息进行再次匹配,以获得输出结果;所述把解析后的XML数据通过预设的规则进行初次匹配,以获得初次匹配后的文件信息的步骤,包括将XML数据按照预设标签拆分成若干数据块,按照预设标签的子父级关系将各个数据块连接成为树型结构数据,并且涵盖相邻标签的索引关系;所述将初次匹配后的文件信息进行分页保存到处理器缓存的步骤,包括将所述数据块和树型结构数据的索引关系以及相邻标签的索引关系存入Redis缓存以便于后续匹配;所述将用户输入的字符串数据与处理器缓存内的文件信息进行再次匹配,以获得输出结果的步骤,包括根据用户输入的字符串数据,启动若干线程进行分词查询,对分词查询结果进行合并处理;所述文本文件包括doc文件或docx文件。

全文数据:

权利要求:

百度查询: 深圳前海环融联易信息科技服务有限公司 筛选PDF文件信息的方法、装置、计算机设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。