买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种利用先验知识构建文档图像数据集的方法_青岛科技大学_202010511448.5 

申请/专利权人:青岛科技大学

申请日:2020-06-08

公开(公告)日:2024-05-03

公开(公告)号:CN111783416B

主分类号:G06F40/189

分类号:G06F40/189

优先权:

专利状态码:有效-授权

法律状态:2024.05.03#授权;2020.11.03#实质审查的生效;2020.10.16#公开

摘要:本发明公开一种利用先验知识构建文档图像数据集的方法,首先采用条件随机场对文档版面进行建模;然后训练条件随机场模型参数,获取文档版面先验知识;使用训练好的模型自动生成文档版面布局;进而根据生成的版面布局,生成文档对象的具体内容;最终将文档转换成文档图像,实现对文档图像数据集的构建。本方案基于条件随机场对文档版面结构进行建模,获取文档版面的先验知识,并利用先验知识自动生成文档图像数据集,节省时间和人力成本,避免由于人工标注带来的无效标注;通过条件随机场及先验知识指导生成文档图像的版面结构,使生成的版面更贴近出版物、符合阅读习惯,提高数据集的利用率及深度学习精度;并且,生成文档图像集的同时,能够提供文档图像中文本对象的文字编码信息。

主权项:1.一种利用先验知识构建文档图像数据集的方法,其特征在于,包括以步骤:步骤A、将文档版面信息刻画为文档对象空间、彩色直方图空间和文档对象类型空间,且文档对象空间元素与彩色直方图空间元素一一对应,彩色直方图空间元素与文档对象类型空间元素一一对应;基于条件随机场对文档版面结构进行建模,得到文档对象彩色直方图序列X与文档对象类型标签序列Y的线性链条随机场;步骤B、采集各种已有文档页面数据,训练条件随机场模型参数,对条件随机场权值进行求解;步骤C、基于高斯混合模型随机生成彩色直方图序列X,根据训练好的模型求解文档对象类型标签序列Y,自动生成文档版面布局;步骤D、采集各种已有文档对象数据,根据生成的文档版面布局,生成文档对象的具体内容;步骤E、将步骤D生成的文档转换成文档图像,构建文档图像数据集,所述文档图像数据集包含文档图像、文档对象空间坐标信息和文档对象具体内容信息。

全文数据:

权利要求:

百度查询: 青岛科技大学 一种利用先验知识构建文档图像数据集的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。