买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置_小语智能信息科技(云南)有限公司_202311220038.5 

申请/专利权人:小语智能信息科技(云南)有限公司

申请日:2023-09-21

公开(公告)日:2023-12-05

公开(公告)号:CN116977436B

主分类号:G06F40/126

分类号:G06F40/126;G06T7/73;G06F40/237;G06N3/0464;G06V10/80;G06V10/82;G06V30/148

优先权:

专利状态码:有效-授权

法律状态:2023.12.05#授权;2023.11.17#实质审查的生效;2023.10.31#公开

摘要:本发明涉及基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置,属于自然语言处理技术领域。缅甸语属于低资源语言,现有的缅甸语识别方法难以解决缅甸语文本图像识别中上下标丢失的问题。针对现有缅甸语识别模型难以准确识别缅甸语上下标的问题,本发明提出了一种基于缅甸语字符簇特征的缅甸语文本图像识别方法,主要包括构建缅甸语字符簇解码字典、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型、缅甸语文本图像识别三部分。根据这三个功能模块化制成基于缅甸语字符簇特征的缅甸语文本图像识别装置,对输入的缅甸语文本图像进行识别,本发明有效提升了缅甸语文本图像的识别效果。

主权项:1.基于缅甸语字符簇特征的缅甸语文本图像识别方法,其特征在于:所述方法包括如下:Step1、构建缅甸语字符簇解码字典:将缅甸语文字中纵向堆叠的字符定义为一个字符簇,切分字符簇,构建了缅甸语字符簇解码字典;Step2、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型:设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码,再基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示;Step3、缅甸语文本图像识别:建立缅甸语文本图像识别服务器,部署模型并开发缅甸语文本图像识别API接口,通过API调用服务器上部署的缅甸语文本图像识别模型将缅甸语文本图像识别成缅甸语文本;所述Step2中,设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码的具体步骤为:Step2.1、在使用视觉几何组网络VGGNet的基础上分别构建了适应于提取缅甸语字符粒度和字符簇粒度的特征提取网络,即多粒度特征提取模块;使用横纵比为1:2的卷积核来提取字符簇粒度的图像特征;将图片输入多粒度特征提取模块,分别得到512维的字符粒度特征和字符簇粒度特征,其中,,分别为通道数、高度和宽度;计算如下: ; ;Step2.2、使用BiLSTM对通过特征提取网络获取到的512维的缅甸语文本图像特征图进行建模;计算如下: ; ;其中,为不同粒度的图像特征向量,为字符粒度的图像特征向量,为字符簇粒度的图像特征向量,,均为图像特征向量特征建模层,和均为线性变换层;Step2.3、使用基于Transformer的多粒度特征融合模块来将、进行融合,其中,;为字符粒度特征维度,为字符簇粒度特征维度,为中每一维度的分量,为中每一维度的分量,jN,N表示正整数,B表示一个批次训练数据的数量;基于Transformer的多粒度特征位置编码模块采用了多头注意力机制来对图像特征向量进行位置编码;使用Transformer中的位置编码方法来对图像特征向量进行位置编码;在进行位置编码之前,先将图像特征向量按维度大小进行放缩,分别得到两个放缩后的图像特征向量,放缩后的图像特征向量大小分别为和;采用了一种基于正弦和余弦函数的位置编码方式,计算公式如下所示: ; ; ; ;其中、、为缩放后矩阵的大小参数,为中索引为偶数的位置编码计算方法;为中索引为偶数的位置编码计算方法;为中索引为奇数的位置编码计算方法;为中索引为奇数的位置编码计算方法,、、,为位置编码模块的维度大小;其中多头注意力机制计算如下: ; ; ;其中,,为参数矩阵,为多头注意力机制计算的函数名,为函数的形参,为深度学习pytorch库中的连接函数,为多头注意力机制中注意头head的个数,为随机初始化的权重矩阵,是整数,k=M;所述Step2中,基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示,具体包括如下步骤:Step2.4、将图像特征向量、分别和其各自的位置编码进行融合得到融合图像特征向量、,使用交叉注意力模块对和进行融合得到;该交叉注意力模块的输入为,,,这里将作为,作为,: ;其中,,为交叉注意力模块的形参,为形参的维度向量的大小;为最终融合之后的图像特征向量,即融合了多粒度特征的缅甸语文本图像的向量表示;为归一化层;Step2.5、解码器采用传统的Transformer框架,每层解码器由多头自注意力层、多头交叉注意力层、前馈神经网络层三个子层组成;通过将最终融合之后的图像特征向量通过Transformer模块得到最终的预测序列,最后将预测序列输入转换器Convert得到对应的缅甸语文本;Convert为将预测出的最大概率的文本索引转换为文本的功能函数,具体转换时,Convert按照预测出的最大概率的文本索引去缅甸语字符簇解码字典里找对应的文本,为解码器输出的预测序列; ; 。

全文数据:

权利要求:

百度查询: 小语智能信息科技(云南)有限公司 基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。