买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种RTF转HTML并在PDF文件实现效果的方法_四川启睿克科技有限公司_202111026639.3 

申请/专利权人:四川启睿克科技有限公司

申请日:2021-09-02

公开(公告)日:2023-06-13

公开(公告)号:CN113723063B

主分类号:G06F40/166

分类号:G06F40/166;G06F40/154;G06F40/14;G06F16/84

优先权:

专利状态码:有效-授权

法律状态:2023.06.13#授权;2021.12.17#实质审查的生效;2021.11.30#公开

摘要:本发明公开了一种RTF转HTML并在PDF文件实现效果的方法,pdf转换框架采用itext技术路线,rtf富文格式采用转换html格式,并进行规范化,即标签成对,对交叉使用的标签重新按树形结构嵌套排序;然后转换html格式富文本的标签替换为pdf转换框架itext可识别的标签或方法;最终实现生成可显示富文本样式的pdf文件。

主权项:1.一种RTF转HTML并在PDF文件实现效果的方法,其特征在于,包括以下步骤:步骤1,系统读取rtf格式的富文本,用开源代码RTF2HTML将rtf格式富文本转换为html格式富文本;步骤2,规范化步骤1生成的html格式富文本:按dom树形结构进行规整,递归逐级进入dom树结构层级,判断最底一级的前标签是否有后标签存在并且一致,如果不存在或者不一致就补充或替换为一致的后标签;所述步骤2中,完成校验后,递归回上一层级继续判断是否后标签存在并且一致,如果不存在或者不一致就补充或替换为一致的后标签;如此往复递归直到校验完成最高一层级的前后标签;步骤3,将步骤2生成规范的html格式富文本的所有标签进行筛选,将pdf转换框架itext无法识别的tag、attribute进行替换;使用img标签解析出图片src的值,再采用框架api函数来设置图片样式,最终替换pdf框架无法识别的tag、attribute生成pdf框架可转换并实现效果的html富文本;所述步骤3中,不同层级前途的tag、attribute采用递归方式,先遍历最底层级的tag、attribute判断pdf框架是否识别,如无法识别则替换为可识别的tag、attribute;验证完后,递归回上一层继续判断该层级的tag、attribute是否识别及执行替换操作,如此往复直到最高一层级的标签鉴别完成;所述步骤3中,pdf框架可识别的html标签和无法识别的标签之间的替换联系采取建立一对一的映射关系,由数据库将无法识别的标签,以及其映射替换关系持久化保存;pdf框架无法识别的标签由于现有文档不够完善,采用提前验证出无法识别的html标签和建立替换联系规则的方式,将其保存在数据库中;所述步骤3中,建立itext框架无法识别html的tag、attribute数据表以及对应替换tag或方法索引字段;方法索引字段对应替换的方法,包括框架api函数;步骤4,将步骤3获取的html格式富文本,用pdf框架itext,生成pdf文件,其富文本效果显示在pdf文件中,pdf文件用于打印或持久化保存。

全文数据:

权利要求:

百度查询: 四川启睿克科技有限公司 一种RTF转HTML并在PDF文件实现效果的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。