买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种Word文档大纲识别处理方法及装置_北京市律典通科技有限公司_202111070726.9 

申请/专利权人:北京市律典通科技有限公司

申请日:2021-09-13

公开(公告)日:2024-02-02

公开(公告)号:CN113779235B

主分类号:G06F16/34

分类号:G06F16/34;G06F40/14;G06F40/258

优先权:

专利状态码:有效-授权

法律状态:2024.02.02#授权;2021.12.28#实质审查的生效;2021.12.10#公开

摘要:本发明公开一种Word文档大纲识别处理方法及装置,通过获取Word文件,对Word文件进行本地保存和解析,将Word文件转换为HTML代码文件;在JavaScript中循环HTML代码文件中所有的标题标签,使用递归算法遍历HTML代码文件的所有标题标签并整理为树结构数据;通过树结构数据生成对应Word文件的标题目录数据,对每一个HTML代码文件的标题预设一个唯一主键,使用唯一主键进行HTML代码文件内容和标题目录数据联动。本发明能够对Word文档进行大纲识别处理,实现目录和Word文档的联动,方便掌握Word文档梗概,可以集成于应用系统快速的生成浏览编辑帮助页面。

主权项:1.一种Word文档大纲识别处理方法,其特征在于,包括以下步骤:获取Word文件,对所述Word文件进行本地保存和解析,将所述Word文件转换为HTML代码文件;在JavaScript中循环所述HTML代码文件中所有的标题标签,使用递归算法遍历所述HTML代码文件的所有标题标签并整理为树结构数据;通过所述树结构数据生成对应所述Word文件的标题目录数据,对每一个HTML代码文件的标题预设一个唯一主键,使用所述唯一主键进行HTML代码文件内容和标题目录数据联动;将所述Word文件保存至本地服务器,在本地服务器将所述Word文件转换为HTML代码文件,将生成的HTML代码文件返回至展示所述Word文件的前端设备;所述前端设备的展示界面包括目录窗口和富文本编辑器窗口,所述目录窗口用于展示所述标题目录数据,所述富文本编辑器窗口用于展示所述HTML代码对应的Word文件内容;当所述富文本编辑器窗口的Word文件内容发生变化以后,重新触发生成Word文件内容变化后的标题目录;将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进行对比;若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在删除的标题标签,则将删除的标题标签对应的主键一并删除;若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在新增的标题标签,则对新增的标题标签创建新的主键;若所述标题标签在富文本编辑器窗口的Word文件内容发生变化前后的标题目录中均存在,则在富文本编辑器窗口的Word文件内容发生变化后的标题目录中延续使用所述标题标签的主键;所述标题目录数据生成步骤程包括:判断标题的标签层级是否等于1:若标题的标签层级等于1,插入父级目录;若标题的标签层级不等于1,继续遍历剩余标题对应的标签层级;判断当前标题的当前层级是否大于父级层级:若当前标题的当前层级大于父级层级,插入当前目录的子目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束;若当前标题的当前层级不大于父级层级,插入父级目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束。

全文数据:

权利要求:

百度查询: 北京市律典通科技有限公司 一种Word文档大纲识别处理方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。