【发明授权】筛选PDF文件信息的方法、装置、计算机设备及存储介质_深圳前海环融联易信息科技服务有限公司_201911274586.X

申请/专利权人：深圳前海环融联易信息科技服务有限公司

申请日：2019-12-12

公开（公告）日：2024-04-12

公开（公告）号：CN111046636B

主分类号：G06F40/154

分类号：G06F40/154

优先权：

专利状态码：有效-授权

法律状态：2024.04.12#授权;2020.05.15#实质审查的生效;2020.04.21#公开

摘要：本发明公开了一种筛选PDF文件信息的方法，包括以下步骤：运行PDF插件，所述PDF插件用于将PDF文件无损转换为文本文件；获取人工编写的一段C语言代码，所述C语言代码用于支持java虚拟机调用所述PDF插件；执行所述C语言代码，通过所述C语言代码调用所述PDF插件以模拟用户将PDF文件转换为文本文件；通过执行内置代码把文本文件转换为XML数据并进行解析；把解析后的XML数据通过预设的规则进行初次匹配，以获得初次匹配后的文件信息；将初次匹配后的文件信息通过优化算法进行分页保存到处理器缓存；将用户输入的字符串数据与处理器缓存内的文件信息进行再次匹配，以获得输出结果。便于用户迅速准确将输入的字符串进行匹配定位，识别效率高，成熟稳定。

主权项：1.一种筛选PDF文件信息的方法，其特征在于，包括以下步骤：运行PDF插件，所述PDF插件用于将PDF文件无损转换为文本文件；获取C语言代码，所述C语言代码用于支持java虚拟机调用所述PDF插件；执行所述C语言代码，通过所述C语言代码调用所述PDF插件以模拟用户将PDF文件转换为文本文件；通过执行内置代码把文本文件转换为XML数据并进行解析；把解析后的XML数据通过预设的规则进行初次匹配，以获得初次匹配后的文件信息；将初次匹配后的文件信息进行分页保存到处理器缓存；将用户输入的字符串数据与处理器缓存内的文件信息进行再次匹配，以获得输出结果；所述把解析后的XML数据通过预设的规则进行初次匹配，以获得初次匹配后的文件信息的步骤，包括将XML数据按照预设标签拆分成若干数据块，按照预设标签的子父级关系将各个数据块连接成为树型结构数据，并且涵盖相邻标签的索引关系；所述将初次匹配后的文件信息进行分页保存到处理器缓存的步骤，包括将所述数据块和树型结构数据的索引关系以及相邻标签的索引关系存入Redis缓存以便于后续匹配；所述将用户输入的字符串数据与处理器缓存内的文件信息进行再次匹配，以获得输出结果的步骤，包括根据用户输入的字符串数据，启动若干线程进行分词查询，对分词查询结果进行合并处理；所述文本文件包括doc文件或docx文件。

全文数据：

权利要求：

百度查询：深圳前海环融联易信息科技服务有限公司筛选PDF文件信息的方法、装置、计算机设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种社团机器人竞赛用综合管理系统_昆山峻优科技培训有限公司_202311812065.1

下一篇：一种全自动铜铝焊接装置_怀化亚信科技股份有限公司_202410351666.5

相关技术

一种社团机器人竞赛用综合管理系统_昆山峻优科技培训有限公司_202311812065.1

一种全自动铜铝焊接装置_怀化亚信科技股份有限公司_202410351666.5

基于渐进学习的无对比剂CT血管造影重构方法及系统_中国人民解放军总医院第一医学中心_202410128554.3

一种热升华水性油墨及其制备方法_广东睿智环保科技股份有限公司_202410410854.0

用药患者血浆中抗人胸腺/淋巴细胞兔免疫球蛋白总IgG抗体浓度检测试剂盒及应用_武汉中生毓晋生物医药有限责任公司_202410128193.2

用于制造一次性杯状件的机器_MS2责任有限公司_202280065197.X

一种数控龙门铣床_河北大恒重型机械有限公司_202410333473.7

一种设备锁定方法、装置及电子设备_联想(北京)有限公司_202410116925.6

电池模组和电池包_浙江晶科储能有限公司_202410338036.4

一种炮孔自动填塞机_新疆天河爆破工程有限公司_202410337157.7

一种汽车配件的外圆磨削装置_江苏坦途专用汽车制造有限公司_202410150674.3

一体集成微同轴气密封装结构及其制造方法_中国电子科技集团公司第十三研究所_202410148673.5

龙图腾网&IPTOP

【发明授权】筛选PDF文件信息的方法、装置、计算机设备及存储介质_深圳前海环融联易信息科技服务有限公司_201911274586.X

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务