买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种期刊Word文档智能标引的方法_山西同方知网数字出版技术有限公司_202311444645.X 

申请/专利权人:山西同方知网数字出版技术有限公司

申请日:2023-11-01

公开(公告)日:2024-02-06

公开(公告)号:CN117520572A

主分类号:G06F16/38

分类号:G06F16/38;G06F16/35;G06F16/33;G06F40/117

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.02.27#实质审查的生效;2024.02.06#公开

摘要:本申请公开了一种期刊Word文档智能标引的方法,涉及期刊Word文档标引及自然语言处理技术领域,可以提高期刊Word文档智能标引结果准确率和文档标引环节的处理速度,同时降低期刊Word文档标引环节的人工成本。所述方法包括:获取待标引文档,待标引文档为期刊Word文档;对待标引文档进行预处理,预处理包括图形表格公式预处理、文本内容预处理以及标记图形表格公式;对预处理后的待标引文档进行特征提取,得到待标引文档中每个待标引段落的特征向量,形成特征数据集;将特征数据集输入至智能标引标签分类器进行标签预测,形成标引文档;按照标引文档,为待标引文档添加标引,并进行规范化后处理;输出处理后的目标文档。

主权项:1.一种期刊Word文档智能标引的方法,其特征在于,所述方法包括:获取待标引文档,所述待标引文档为期刊Word文档;读取所述待标引文档,对所述待标引文档进行预处理,所述预处理包括图形表格公式预处理、文本内容预处理以及标记图形表格公式;对预处理后的待标引文档进行特征提取,得到所述待标引文档中每个待标引段落的特征向量,并将提取出的特征向量存储至Xml文件,形成特征数据集;将所述特征数据集输入至智能标引标签分类器进行标签预测,将所述智能标引标签分类器输出的标签预测结果写入Xml文件中,形成标引文档;按照所述标引文档,为所述待标引文档添加标引,得到目标文档,以及对所述目标文档进行规范化后处理;输出处理后的目标文档,所述目标文档中的标引以批注和书签形式展示。

全文数据:

权利要求:

百度查询: 山西同方知网数字出版技术有限公司 一种期刊Word文档智能标引的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。