【发明授权】一种字符串切分方法及装置_阿里巴巴集团控股有限公司_201510784681.X 

申请/专利权人:阿里巴巴集团控股有限公司

申请日:2015-11-16

发明/设计人:肖荣

公开(公告)日:2020-03-31

代理机构:北京同达信恒知识产权代理有限公司

公开(公告)号:CN106708798B

代理人:郭润湘

主分类号:G06F40/289(20200101)

地址:英属开曼群岛大开曼岛资本大厦一座四层847号邮箱

分类号:G06F40/289(20200101)

优先权:

专利状态码:有效-授权

法律状态:2020.03.31#授权;2017.06.16#实质审查的生效;2017.05.24#公开

摘要:本申请公开了一种字符串切分方法及装置,在本申请所述方案中,可根据数英字符串语料中的各数英字符串的分词的词频,建立字符串切分语言模型,对于任意的待切分数英字符串,可基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,以得到所述待切分数英字符串的切分结果,从而较好地解决了采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。

主权项:1.一种字符串切分方法,其特征在于,包括:确定待切分数英字符串;确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率;所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;根据计算到的最优切分概率,记录每一步的最优切分分词;根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。

全文数据:

权利要求:

百度查询: 阿里巴巴集团控股有限公司 一种字符串切分方法及装置

vip会员权益升级
价格优惠/年费监控/专利管家/定制微网站 关闭