买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种轻量的药典图片文字提取方法_大连理工大学_202211539551.6 

申请/专利权人:大连理工大学

申请日:2022-12-02

公开(公告)日:2023-09-05

公开(公告)号:CN116704537A

主分类号:G06V30/42

分类号:G06V30/42;G06V10/82;G06V30/19;G06V10/77;G06N3/048;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2023.11.03#授权;2023.09.22#实质审查的生效;2023.09.05#公开

摘要:本发明属于视觉文档理解技术领域,公开了一种轻量的药典图片文字提取方法,包含两个关键步骤。1构建药典特征轻量聚焦模块:首先利用全秩网络特征主成分构建低秩神经网络层,然后设计聚焦策略从输入特征中提取关键信息,2构建药典文档信息识别提取网络:串联8个药典特征轻量聚焦模块为网络骨架,构建多阶段编码器提取药典数据特征嵌入;然后串联8个药典特征轻量聚焦模块为网络骨架,构建多阶段解码器转换药典数据信息为特定文本,实现药典电子化;最后利用交叉熵损失衡量解码器提取的药典数据文本与原始药典数据文本的差距,通过最小化交叉熵损失最优化网络参数。

主权项:1.一种轻量的药典图片文字提取方法,其特征在于,包括以下步骤:步骤1、构建药典特征轻量聚焦模块药典特征轻量聚焦模块的构建包括低秩神经网络层的构建与聚焦策略的实现;低秩神经网络层的构建:根据张量CP分解原理,使用网络权重主成分进行神经网络层中加权计算任务,构建低秩神经网络层;具体地,低秩神经网络层包含该层输入变量记为特征z、输出变量记为特征z’、激活函数σ、偏置向量b、重要性因子λr以及该层的K个权重向量药典特征轻量聚焦模块将特征z依次与K个权重向量相乘,然后根据张量秩r的取值范围由重要性因子λr加权求和,接着叠加偏置向量b,最后经激活函数σ得到最终计算结果z’;低秩全连接层计算过程具体公式为: 其中,W为等效的网络权重张量,为向量外积,R为设定的r的取值范围;在低秩卷积层计算过程具体公式为: 其中,与分别为低秩卷积层的输出元素与输入元素;i1,i2,i3为输出特征中元素的下标,取值范围为输出特征维度;j1,j2,j3为卷积核中元素的下标,取值范围为卷积核维度;聚焦策略的实现:药典特征轻量聚焦模块包括映射输入特征的低秩全连接层f、抽取输入特征多层表示的L个低秩卷积层c、L个门控因子Gl以及分别映射调制特征与查询特征的低秩全连接层h与q;药典特征轻量聚焦模块级联多个低秩卷积层,将输入特征映射为多层表示;然后利用门控机制融合多层表示,得到输入特征的多层整合特征;最后,利用两个低秩全连接层分别将输入特征与多层整合特征映射为查询特征与调制特征,并利用查询特征与调制特征的逐元素乘法得到输入特征的关键信息;具体地:给定输入特征z,药典特征轻量聚焦模块利用低秩全连接层映射获得输入特征的初始表示z0=fz;然后利用L个低秩卷积层级联映射得到输入特征的多层表示zl=czl-1,l=1,2,…L;接着使用L个门控因子Gl与多层表示zl对应逐元素相乘后叠加得到多层整合特征;最后,分别使用低秩全连接层将多层整合特征与原始输入特征z映射为公共特征空间中的调制特征与查询特征,通过两种特征的逐元素相乘得到输入特征关键信息,即聚焦特征Z;上述过程具体计算公式为: 药典特征轻量聚焦模块利用低秩全连接层与低秩卷积层提取输入特征关键信息,在保证输入特征提取效果的情况下有效减少了模型参数量,提升了模块的运行效率;步骤2、构建药典文档信息识别提取网络药典文档信息识别提取网络包含编码器和解码器;其中编码器包含五个计算阶段,第一阶段将输入为H×W×3的药典图像转化为个长度为48的序列;第二阶段包含2个药典特征轻量聚焦模块,以第一阶段输出的的二维序列作为输入,转化为个长度为128的输出特征;第三阶段包含2个药典特征轻量聚焦模块,以第二阶段输出的的二维特征作为输入,转化为个长度为256的输出特征;第四阶段包含14个药典特征轻量聚焦模块,以第三阶段输出的的二维特征作为输入,转化为个长度为512的输出特征;第五阶段包含2个药典特征轻量聚焦模块,以第四阶段输出的的二维特征作为输入,转化为个长度为1024的输出特征;解码器包含四个计算阶段,第一阶段以编码器的输出特征个,长度为1024作为输入,转化为个长度为1024的输出特征;第二、第三、第四阶段与第一阶段计算相同;具体构建过程如下:编码器的构建:编码器包含首尾相连的五个阶段,将输入待处理药典图像数据逐阶段细化,抽取药典图像数据蕴含的特征信息;第一阶段为块划分阶段;给定x为输入待处理药典图像数据,其高度、宽度以及通道数分别为H、W以及3,块划分阶段将输入图像拆分为4×4×3尺寸的非重叠块,各块维度4×4×3=48,块数即令输入待处理药典图像数据转变为的二维序列;第二阶段以第一阶段的输出为输入,依次经过聚焦特征提取、循环移位和聚焦特征提取阶段,包含低秩全连接层与两个药典特征轻量聚焦模块;具体为:首先采用低秩全连接层将维度为48的各块映射到128维度,得到的二维线性嵌入序列;然后采用药典特征轻量聚焦模块提取的聚焦特征;接着沿块对角线方向将原有块划分边界循环移位半块距离,实现块间信息交互;最后在新的块划分下采用第二个药典特征轻量聚焦模块提取聚焦特征作为第一阶段输出的特征嵌入;第三阶段以第二阶段的输出为输入,包含低秩全连接层与两个药典特征轻量聚焦模块;首先将输入中的相邻的2×2块拼接,使得块数由变少为而块维度增加为512;然后使用低秩全连接层将每块尺寸缩小为256;最后使用与第一阶段相同的聚焦特征提取-循环移位-聚焦特征提取过程计算第二阶段输出的特征嵌入;第四、第五阶段与第三阶段流程相同;第五阶段输出的特征嵌入即为编码器最终输出;解码器的构建:解码器以编码器的输出为输入,包含首尾相连的四个阶段,将编码器提取的关键信息予以转换,映射为符合特定格式的文本数据,实现药典文档信息的识别提取;第一阶段以编码器的输出为输入,包含两个药典特征轻量聚焦模块与两个低秩全连接层;首先利用两个低秩全连接层分别将位置信息与输入特征映射到相同维度空间加以结合,然后利用连续两个药典特征轻量聚焦模块细化具有位置信息的输入特征,最后利用连续两个低秩全连接层将细化后的输入特征维度放大为4倍后再恢复原始维度,通过放缩过程有效融合特征内部信息,产生阶段的输出特征;第二、第三、第四阶段均以前一阶段输出为输入,利用连续两个药典特征轻量聚焦模块与连续两个低秩全连接层进一步整合特征内部信息;第四阶段输出特征经低秩全连接层映射为与编码器输出相同的维度,即为符合特定格式的文本数据;步骤3、计算网络模型损失度量药典图像数据特征提取过程中的预测损失,通过最小化预测损失促进药典文档信息识别提取网络参数最优化;具体地,预测损失Lce衡量药典文档信息识别提取网络解码器预测提取的药典数据文本与原始药典数据文本的差距,迫使编码器与解码器准确学习药典图像数据信息;预测损失计算如下: 其中,yi与分别为第i个原始药典数据文本与预测的药典数据文本,N为药典数据总数。

全文数据:

权利要求:

百度查询: 大连理工大学 一种轻量的药典图片文字提取方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。