买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】用于汉字的读音标注方法、装置、电子设备及存储介质_北京金山安全软件有限公司_201910733674.5 

申请/专利权人:北京金山安全软件有限公司

申请日:2019-08-08

公开(公告)日:2024-03-05

公开(公告)号:CN110619112B

主分类号:G06F40/117

分类号:G06F40/117;G06F40/58;G06N20/00

优先权:

专利状态码:有效-授权

法律状态:2024.03.05#授权;2020.01.21#实质审查的生效;2019.12.27#公开

摘要:本发明实施例公开一种用于汉字的读音标注方法、装置、电子设备及存储介质,涉及计算机技术领域,能够为汉字中的多音字进行高效准确的注音。所述方法包括:获取训练语料,所述训练语料中的汉字标注有规范读音,所述汉字包括多音字;基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型;通过所述读音标注模型,对目标语句标注读音。本发明适用于对中文的读音标注中。

主权项:1.一种用于汉字的读音标注方法,其特征在于,用于拼音输入法,所述方法包括:获取训练语料,所述训练语料中的汉字标注有规范读音,所述汉字包括多音字;基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练,得到汉字的读音标注模型;通过所述读音标注模型,对目标语句标注读音;其中,所述通过所述读音标注模型,对目标语句标注读音包括:对所述目标语句中的汉字初步标注读音,形成读音标注串,其中,所述目标语句中的每个多音字标注有对应的多个可选读音;基于所述多音字的不同可选读音,利用所述读音标注串生成多个备选标注串;将所述多个备选标注串输入所述读音标注模型,以使所述读音标注模型对每个所述备选标注串打分;根据打分结果,选择其中一个备选标注串为所述目标语句标注读音;所述基于所述训练语料中每个汉字的规范读音以及相邻汉字之间的搭配概率,进行模型训练包括:统计所述训练语料中,相邻汉字之间的搭配概率;根据所述训练语料中的前n-1个汉字,推算第n个汉字的各可选读音的出现概率,其中所述第n个汉字为多音字,n为大于1的整数,所述出现概率为存在前n-1个汉字的条件下,第n个汉字的各可选读音的条件概率;根据所述出现概率最高的可选读音,为所述第n个汉字标注读音,以进行模型训练。

全文数据:

权利要求:

百度查询: 北京金山安全软件有限公司 用于汉字的读音标注方法、装置、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。