【发明授权】基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置_小语智能信息科技(云南)有限公司_202311220038.5

申请/专利权人：小语智能信息科技(云南)有限公司

申请日：2023-09-21

公开（公告）日：2023-12-05

公开（公告）号：CN116977436B

主分类号：G06F40/126

分类号：G06F40/126;G06T7/73;G06F40/237;G06N3/0464;G06V10/80;G06V10/82;G06V30/148

优先权：

专利状态码：有效-授权

法律状态：2023.12.05#授权;2023.11.17#实质审查的生效;2023.10.31#公开

摘要：本发明涉及基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置，属于自然语言处理技术领域。缅甸语属于低资源语言，现有的缅甸语识别方法难以解决缅甸语文本图像识别中上下标丢失的问题。针对现有缅甸语识别模型难以准确识别缅甸语上下标的问题，本发明提出了一种基于缅甸语字符簇特征的缅甸语文本图像识别方法，主要包括构建缅甸语字符簇解码字典、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型、缅甸语文本图像识别三部分。根据这三个功能模块化制成基于缅甸语字符簇特征的缅甸语文本图像识别装置，对输入的缅甸语文本图像进行识别，本发明有效提升了缅甸语文本图像的识别效果。

主权项：1.基于缅甸语字符簇特征的缅甸语文本图像识别方法，其特征在于：所述方法包括如下：Step1、构建缅甸语字符簇解码字典：将缅甸语文字中纵向堆叠的字符定义为一个字符簇，切分字符簇，构建了缅甸语字符簇解码字典；Step2、构建基于缅甸语字符簇特征的缅甸语文本图像识别模型：设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码，再基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示；Step3、缅甸语文本图像识别：建立缅甸语文本图像识别服务器，部署模型并开发缅甸语文本图像识别API接口，通过API调用服务器上部署的缅甸语文本图像识别模型将缅甸语文本图像识别成缅甸语文本；所述Step2中，设计多粒度特征提取模块及位置编码模块来提取多粒度图像特征向量及对其进行位置编码的具体步骤为：Step2.1、在使用视觉几何组网络VGGNet的基础上分别构建了适应于提取缅甸语字符粒度和字符簇粒度的特征提取网络，即多粒度特征提取模块；使用横纵比为1：2的卷积核来提取字符簇粒度的图像特征；将图片输入多粒度特征提取模块，分别得到512维的字符粒度特征和字符簇粒度特征，其中，，分别为通道数、高度和宽度；计算如下：；；Step2.2、使用BiLSTM对通过特征提取网络获取到的512维的缅甸语文本图像特征图进行建模；计算如下：；；其中，为不同粒度的图像特征向量，为字符粒度的图像特征向量，为字符簇粒度的图像特征向量，，均为图像特征向量特征建模层，和均为线性变换层；Step2.3、使用基于Transformer的多粒度特征融合模块来将、进行融合，其中，；为字符粒度特征维度，为字符簇粒度特征维度，为中每一维度的分量，为中每一维度的分量，jN，N表示正整数，B表示一个批次训练数据的数量；基于Transformer的多粒度特征位置编码模块采用了多头注意力机制来对图像特征向量进行位置编码；使用Transformer中的位置编码方法来对图像特征向量进行位置编码；在进行位置编码之前，先将图像特征向量按维度大小进行放缩，分别得到两个放缩后的图像特征向量，放缩后的图像特征向量大小分别为和；采用了一种基于正弦和余弦函数的位置编码方式，计算公式如下所示：；；；；其中、、为缩放后矩阵的大小参数，为中索引为偶数的位置编码计算方法；为中索引为偶数的位置编码计算方法；为中索引为奇数的位置编码计算方法；为中索引为奇数的位置编码计算方法，、、，为位置编码模块的维度大小；其中多头注意力机制计算如下：；；；其中，，为参数矩阵，为多头注意力机制计算的函数名，为函数的形参，为深度学习pytorch库中的连接函数，为多头注意力机制中注意头head的个数，为随机初始化的权重矩阵，是整数，k=M；所述Step2中，基于交叉注意力机制得到融合了多粒度特征的缅甸语文本图像的向量表示，具体包括如下步骤：Step2.4、将图像特征向量、分别和其各自的位置编码进行融合得到融合图像特征向量、，使用交叉注意力模块对和进行融合得到；该交叉注意力模块的输入为，，，这里将作为，作为，：；其中，，为交叉注意力模块的形参，为形参的维度向量的大小；为最终融合之后的图像特征向量，即融合了多粒度特征的缅甸语文本图像的向量表示；为归一化层；Step2.5、解码器采用传统的Transformer框架，每层解码器由多头自注意力层、多头交叉注意力层、前馈神经网络层三个子层组成；通过将最终融合之后的图像特征向量通过Transformer模块得到最终的预测序列，最后将预测序列输入转换器Convert得到对应的缅甸语文本；Convert为将预测出的最大概率的文本索引转换为文本的功能函数，具体转换时，Convert按照预测出的最大概率的文本索引去缅甸语字符簇解码字典里找对应的文本，为解码器输出的预测序列；；。

全文数据：

权利要求：

百度查询：小语智能信息科技(云南)有限公司基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种钝化复合功能层和TOPCon电池_中环新能(安徽)先进电池制造有限公司_202322011797.2

下一篇：键合劈刀_有研(广东)新材料技术研究院_202322391831.3

相关技术

一种钝化复合功能层和TOPCon电池_中环新能(安徽)先进电池制造有限公司_202322011797.2

键合劈刀_有研(广东)新材料技术研究院_202322391831.3

一种醋酸酐含量检测装置_山东嘉驰新材料股份有限公司_202322220520.0

一种旋转式防撞护栏和波形梁护栏的过渡连接结构_浙江飞虹交通设施有限公司_202322419695.4

一种煤矿井下局部通风机远程开停装置_贵州贵能投资股份有限公司_202322392209.4

CNC加工用快速换线治具_东莞华清光学科技有限公司_202322418777.7

一种醋酸钠生产用搅拌装置_安徽海逸生物科技有限公司_202322412726.3

一种现调机用消毒装置_中粮可口可乐饮料(山西)有限公司_202322565837.8

一种用于负极材料粉尘除尘器_天津燃洁斯工业设备有限公司_202322051874.7

一种新型立式磷石膏废料破碎机_湖北旭特建材科技有限公司_202322371565.8

一种钻井液生产粉尘收集装置_新乡市隆驰化学有限责任公司_202322388957.5

一种文旦柚栽培用的施肥装置_莆田冠腾科技有限公司_202322446584.2

语文相关技术

一种语文原创试题的关联分析方法_万唯原创文化传播(陕西)有限公司_202410015336.9

一种语文趣味教学装置_龙岩市智享联科技有限公司_202410246495.X

一种语文教育用学阅读柜_舒城职业学校(安徽省舒城师范学校)_202320719786.7

一种语文课文带读设备_史利军_202322014179.3

一种基于英语口语文本的语义分析方法_山东同其万疆科技创新有限公司_202311625052.3

一种语文趣味教学装置_袁国丽_202320466156.3

一种高趣味的小学语文用填词装置_长春南湖实验中海小学_202321245781.1

基于大语言模型的语文核心素养教育的评价方法和装置_北京师范大学珠海校区_202311707772.4

一种语文教学用可旋转型演示板_江苏省大港中等专业学校_202311291935.5

一种基于英语口语文本的语义分析方法_山东同其万疆科技创新有限公司_202311625052.3

缅甸相关技术

基于RPA技术检测缅甸蟒的引物探针组合、试剂盒及方法_上海海洋大学_202311710140.3

基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置_小语智能信息科技(云南)有限公司_202311220038.5

缅甸语语音识别纠错方法与装置_昆明理工大学_202311148154.0

基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置_小语智能信息科技(云南)有限公司_202311220038.5

融合双重注意力机制的缅甸语图像文本识别方法及装置_小语智能信息科技(云南)有限公司_202211242041.2

一种促进缅甸树萝卜扦插生根的方法_中国科学院西双版纳热带植物园_202211248374.6

融合双重注意力机制的缅甸语图像文本识别方法及装置_小语智能信息科技(云南)有限公司_202211242041.2

利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法_昆明理工大学_202111078804.X

基于知识蒸馏的缅甸语OCR方法_昆明理工大学_202010978722.X

基于多解码器联合学习的缅甸语图像文本识别方法及装置_小语智能信息科技(云南)有限公司_202111214739.9

图像相关技术

前置图像信号处理装置及图像信息传输方法_OPPO广东移动通信有限公司_202110421250.2

基于图像处理的图像优化方法及相关装置_北京酷豹科技有限公司_202010622203.X

图像处理方法、图像处理模型和训练方法_北京百度网讯科技有限公司_202310251906.X

医用图像处理装置以及医用图像处理方法_富士胶片医疗健康株式会社_202010503352.4

图像形成装置_佳能株式会社_202311344855.1

图像处理方法和装置_京东方科技集团股份有限公司_201910569605.5

神经网络的训练方法、图像处理方法、图像处理装置_京东方科技集团股份有限公司_201910262329.8

粘合片、层叠片、柔性图像显示装置构件和柔性图像显示装置_三菱化学株式会社_202080080700.X

一种多模态信息指导的医学图像分割系统及图像处理方法_山东大学_202111524363.1

基于由旋转成像器捕获的图像的全景图像构建_泰立戴恩菲力尔商业系统公司_201980047034.7

龙图腾网&IPTOP

【发明授权】基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置_小语智能信息科技(云南)有限公司_202311220038.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务