买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种字符串切分方法及装置_阿里巴巴集团控股有限公司_201510784681.X 

申请/专利权人:阿里巴巴集团控股有限公司

申请日:2015-11-16

公开(公告)日:2020-03-31

公开(公告)号:CN106708798B

主分类号:G06F40/289(20200101)

分类号:G06F40/289(20200101)

优先权:

专利状态码:有效-授权

法律状态:2020.03.31#授权;2017.06.16#实质审查的生效;2017.05.24#公开

摘要:本申请公开了一种字符串切分方法及装置,在本申请所述方案中,可根据数英字符串语料中的各数英字符串的分词的词频,建立字符串切分语言模型,对于任意的待切分数英字符串,可基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,以得到所述待切分数英字符串的切分结果,从而较好地解决了采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。

主权项:1.一种字符串切分方法,其特征在于,包括:确定待切分数英字符串;确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率;所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;根据计算到的最优切分概率,记录每一步的最优切分分词;根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。

全文数据:_种字符串切分方法及装置技术领域[0001]本申请涉及互联网搜索技术领域,尤其涉及一种字符串切分方法及装置。背景技术[0002]中文分词技术是指按照一定的规范将一个汉字序列切分成一个一个单独的词的技术,其是搜索引擎的一项很重要的基础技术,其结果的好坏将直接影响到搜索引擎的搜索性能。[0003]具体地,由于词典+匹配(如正向最大匹配、逆向最大匹配、或双向最大匹配法等)的技术具备较高的准确性和良好的性能,因而,其逐渐成为搜索引擎常用的一种分词技术,对于纯中文的字符串能较好地解决分词问题。[0004]但是,由于对于适用于物品搜索领域的物品搜索引擎来说,其接收到的物品标题和或查询词常常为夹杂大量的数字及英文字符串的字符串,以表示物品的货号、型号、容量规格、或尺寸大小等,例如,查询词“ltssd硬盘”、“三星galaxynote”、“macbookpro”等。且,这类字符串中的数英字符串的输入通常具备较高的灵活性,即,针对表示同一含义的数英字符串,不同的用户所输入的格式却大不相同,具备较多的未登录词。因而,若仍沿用中文分词的方法,采用词典+匹配的方式对该类字符串进行切分,则由于词典+匹配的方式通常无法识别未登录词,因而,会存在很难得到正确的切分结果的问题,降低分词的准确性,另外,还会极大地降低物品搜索引擎的搜索性能。例如,对于查询词“ltssd硬盘”、“三星galaxynote”、“macbookpro”,按照词典+匹配的方式很难将其正确地切分成“Itssd硬盘”、“三星galaxynote”、“macbookpro”等。[0005]为了解决该问题,业界给出了一种采用设定的模式匹配规则,对词典+匹配的初步分词结果进行修正,以识别出一些特定模式的数英串的方案。例如,可以将日期或者首字母是大写的单词切分、无法判断的串将数字和英文切分等。但是,由于这些后处理规则覆盖范围有限,且规则之间还可能会有冲突,因而,使得切分结果的准确性也并不高。[0006]也就是说,现有的词典+匹配的方式存在无法识别和切分未登录词,使得将其适用于数英串的分词时,分词准确性较低的问题。同时,后处理修正方案也存在后处理规则覆盖范围有限、规则之间存在冲突等使得将其适用于数英串的分词时,分词准确性较低的问题。因此,亟需提供一种新的可适用于数英串的分词方法,以解决上述问题。发明内容[0007]本申请实施例提供了一种字符串切分方法及装置,用以解决现有的数英串分词方法的分词准确性较低的问题。[0008]本申请实施例提供了一种字符串切分方法,包括:[0009]确定待切分数英字符串;[0010]确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类另IJ,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;[0011]基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。[0012]本申请实施例还提供了一种字符串切分装置,包括:[0013]模型建立模块,用于根据数英字符串语料中的各数英字符串的分词的词频预先建立字符串切分语言模型;[0014]字符串确定模块,用于确定待切分数英字符串;[0015]模型选择模块,用于确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;[0016]字符串切分模块,用于基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。[0017]本申请有益效果如下:[0018]本申请实施例提供了一种字符串切分方法及装置,在本申请实施例所述方案中,可根据数英字符串语料中的各数英字符串的分词的词频,建立字符串切分语言模型,对于任意的待切分数英字符串,可基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,以得到所述待切分数英字符串的切分结果,从而较好地解决了采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。附图说明[0019]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0020]图1所示为本申请实施例一中所述字符串切分方法的流程示意图;[0021]图2所示为本申请实施例二中所述字符串切分装置的结构示意图。具体实施方式[0022]由于通过观察用户输入的查询词和物品标题发现,大部分用户的输入相对比较规范,即,用户输入“ltssd”的情况远小于输入“Itssd”的情况。因此,本申请实施例提出了一种以用户输入的查询词和物品标题中的数英串(即数英字符串语料)作为语料,建立字符串切分语言模型,对于任意的待切分数英字符串,基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,以得到所述待切分数英字符串的切分结果的方案,从而较好地解决了采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。[0023]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。[0024]实施例一:[0025]本申请实施例一提供了一种字符串切分方法,所述字符串切分方法可适用于主要由数字字符以及英文字符组成的数英字符串(可简称为数英串)的切分,本申请实施例对此不作赘述。具体地,如图1所示,其为本申请实施例一中所述字符串切分方法的流程示意图,所述字符串切分方法可包括以下步骤:[0026]步骤101:确定待切分数英字符串;[0027]步骤102:确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;[0028]步骤103:基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。[0029]由于针对任意的待切分数英字符串,是基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,对所述待切分数英字符串进行相应切分的,因而,可较好地解决采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。[0030]下面,将以具体实例为例,对本申请实施例中所述的字符串切分方法的流程进行进一步说明。[0031]可选地,在进行数英字符串的切分之前,可首先根据数英字符串语料中的各数英字符串的分词的词频,建立字符串切分语言模型。[0032]具体地,以数英字符串为查询词字符串以及物品标题字符串为例,由于查询词和物品标题在语料的分布上存在差异,因而,为了提高语言模型建立的准确性,在本申请所述实施例中,可对查询词语料和物品标题语料单独建立语言模型,得到相应的查询词语言模型以及物品标题语言模型;且,在建立物品标题语言模型时,还可按照叶子类目来建立相应的语言模型,以进一步提升准确性。[0033]可选地,在本申请所述实施例中,查询词语言模型具体可以是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;针对任一叶子类目,与该叶子类目相对应的物品标题语言模型具体可以是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。即,在建立查询词语言模型时,可将用户搜索次数作为各分词的词频,在建立物品标题语言模型时,可将在物品标题中的出现次数作为各分词的词频,此处不再赘述。[0034]进一步地,需要说明的是,本申请实施例中所建立的各语言模型通常可指的是N-gram语言模型,所述N为不小于2的正整数;且,由于查询词和物品标题中的数英串多短语,因此,可选择N=2,即二元语言模型。当然,还可选择N的取值为其他数值的其他语言模型,此处不再赘述。[0035]其中,对于不含空格的连续数英串S的某个切分来说,其对应的N-gram语言模型可表示如下:[0036];其中,k=N-1,当N的取值为2时,即为二元语言模型;另外,n的取值为不小于1的正整数,i的取值为不大于n的正整数。[0037]另外,需要说明的是,上述N-gram语言模型的表达式通常是通过以下方式得到的:[0038]对于不含空格的连续数英串S的某个切分,确定其对应的语言模型概率:[0039][0040]其中,由于PWi叫..Wi》的计算复杂度较高,因而,通常可用马尔科夫假设对其进行简化,即,假设第i个词I只与它前面的k个词相关,得到PWi|Wp..WiD〜PWi|Wik..•D因此,得至I;当k=N-l时,即称为N-gram语言模型。[0041]具体地,以所建立的查询词语言模型为二元语言模型为例,在本申请所述实施例中,具体可通过以下方式预先建立所述查询词语言模型:[0042]A1:抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;[0043]具体地,在抽取查询词语料中的各数英字符串时,可仅保留其中的空格、数字、英文字符以及等字符。并且,可将非数字且非英文的其它字符(如等字符)以及空格作为数英字符串中单词之间的自然分隔。例如:对于“ltssd硬盘”,抽取出一个单词“ltssd”,而“Itssd硬盘”会抽取出两个单词“It”和“ssd”。[0044]A2:通过以下公式统计查询词语料中的每一数英字符串分词^的用户搜索次数cuntWjKounUWi=2qpVq;其中,q表示查询词语料中的包含数英字符串分词^的各数英字符串,pvq表示包含数英字符串分词I的各数英字符串的用户搜索次数,此过程中涉及到的i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;[0045]A3:通过以下公式统计查询词语料中的由数英字符串分词%pWji成的连续数英字符串分词胃11¥1的用户搜索次数3〇11拉¥11¥1:3〇11拉¥1,1=5:^0,其中,0表示查询词语料中的包含连续数英字符串分词1A的各数英字符串,pvQ表示包含连续数英字符串分词1A的各数英字符串的用户搜索次数;[0046]A4:根据统计到的数英字符串分词^的用户搜索次数countWJ以及连续数英字符串分词I%的用户搜索次数countWi%,基于以下公式,建立查询词二元语言模型其中,n的取值可为查询词语料中的数英字符串分词的总个数:[0047]PWi|ffii=countff;ifficountff;,ifcountff;!=0;[0048]PWi|ffii=a*countff;:C,ifcount^=0;艮P,当count^=〇时,可采用stupid-backoff简单退避)算法进行平滑,当然,也可采用其他算法,如Kneser-Neysmoothing算法等,此处不作赞述;[0049]其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和(即C=5^countWJ,a为设定的平滑因子(其取值可根据实际情况灵活设定,如可为0.4等,对此不作限定)。[0050]另夕卜,需要说明的是,当i=1时,PWi|Wi_l=PWi=countWiC,此处不再赘述。[0051]进一步地,针对任一叶子类目,以所建立的与所述叶子类目相对应的物品标题语言模型为二元语言模型为例,在本申请所述实施例中,具体可通过以下方式预先建立与所述叶子类目相对应的物品标题语言模型:[0052]B1:抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;[0053]具体的抽取方式以及分词确定方式可参见步骤A1的相关描述,此处不作赘述。[0054]B2:统计该叶子类目c下的每个数英字符串分词^在物品标题语料的所有物品标题中的出现次数cWJ,其中,此过程中涉及到的i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;[0055]B3:统计该叶子类目c下的由数英字符串分词%pWi组成的连续数英字符串分词1A的出现次数cd^;[0056]B4:根据统计到的数英字符串分词I的出现次数cWJ以及连续数英字符串分词Wi%的出现次数cWi^,基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模§其中,n的取值可为物品标题语料中的该叶子类目c下的数英字符串分词的总个数:[0057]PcW,|!,!=〇ff,cff,i,ifcff,iff,!=0;[0058]PcW,|!,!=〇*cff,iC,ifcff,=0;[0059]其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和(即C=2idWi,a为设定的平滑因子(其取值可根据实际情况灵活设定,如可为0.4等,对此不作限定)。[0060]另夕卜,需要说明的是,当i=1时,PWi|Wi_l=PWi=cWiC,此处不再赘述。[0061]至此,即完成字符串切分语言模型的建立。之后,针对步骤101所确定的任一待切分数英字符串,即可执行步骤102所述的选择对应的字符串切分语言模型的操作。[0062]可选地,由于用户输入的查询词以及物品标题等字符串并不一定是本申请实施例中所需的待切分数英字符串,而是夹杂有中文字符的字符串,因而,在接收到用户输入的查询词或物品标题时,可首先对其执行相应的字符串抽取操作,以抽取出所需的待切分数英字符串,此处不再赘述。[0063]进一步地,针对确定的任一待切分数英字符串,步骤102中所述的根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型,可具体实施为:[0064]若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型;或者,[0065]若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型。[0066]进一步地,在执行完步骤102后,即可执行步骤103所述的基于选择的字符串切分语言模型,进行字符串的切分的操作。[0067]可选地,步骤103所述的基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果,可具体实施为:[0068]确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;[0069]基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率;所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;[0070]根据计算到的最优切分概率,记录每一步的最优切分分词;[0071]根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。[0072]其中,若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词I的最优切分概率:[0073]Pff,,Sk=maXjPffj,Sk:*Pff,|ffj;[0074]其中,PWj,SkJ表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词W的最优切分概率;此处所述的i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i_l;所述PWilW,是根据所选择的字符串切分语言模型所确定的分词^与分词Wj的相关概率。[0075]至此,即可完成待切分数英字符串的切分操作,得到相应的切分结果。[0076]需要说明的是,本申请实施例所述方案无语言、软件或者硬件的限制。但是,为了提高字符串的切分效率,可优先选用性能高的编程语言(如C、C++或者Java等)和性能高的硬件等来实现,本申请实施例对此不作赘述。[0077]由本申请实施例所述的方案可知,针对任意的待切分数英字符串,可基于与所述待切分数英字符串所属的类别相对应的字符串切分语言模型,采用动态规划算法,对所述待切分数英字符串进行相应切分,因而,可较好地解决采用词典+匹配的方式进行数英字符串的切分时,无法切分未登录字符串以及采用后处理规则进行切分修正时,覆盖有限等的问题,提高了数英字符串的切分的准确性。[0078]实施例二:[0079]基于与本申请实施例一相同的发明构思,本申请实施例二提供了一种字符串切分装置,该字符串切分装置的具体实施可参见上述方法实施例一中的相关描述,重复之处不再赘述,如图2所示,该字符串切分装置主要可包括:[0080]模型建立模块21,可用于根据数英字符串语料中的各数英字符串的分词的词频预先建立字符串切分语言模型;[0081]字符串确定模块22,可用于确定待切分数英字符串;[0082]模型选择模块23,可用于确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;[0083]字符串切分模块24,可用于基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。[0084]可选地,所述模型选择模块23,具体可用于若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型,其中,所述查询词语言模型是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;或者,[0085]若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型,其中,针对任一叶子类目,与该叶子类目相对应的物品标题语言模型是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。[0086]进一步地,所述模型建立模块21,具体可用于通过以下方式预先建立查询词二元语言模型:[0087]抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;[0088]通过以下公式统计查询词语料中的每一数英字符串分词^的用户搜索次数count%KountWi=pvq,其中,q表示查询词语料中的包含数英字符串分词^的各数英字符串,pvq表示包含数英字符串分词I的各数英字符串的用户搜索次数,i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;[0089]通过以下公式统计查询词语料中的由数英字符串分词1pWi组成的连续数英字符串分词11胃;的用户搜索次数。〇11111:¥;1¥;:3〇11111:%1¥;=2^¥9,其中,9表示查询词语料中的包含连续数英字符串分词1A的各数英字符串,pvQ表示包含连续数英字符串分词1A的各数英字符串的用户搜索次数;[0090]根据统计到的数英字符串分词^的用户搜索次数countWJ以及连续数英字符串分词I用户搜索次数countI,上基于以下公式,建立查询词二元语言模型:[0091]PWi|ffii=countff;ifficountff;,ifcountff;!=0;[0092]PWi|ffii=a*countff;^C,ifcountff;=0;[0093]其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和,a为设定的平滑因子。[0094]类似地,所述模型建立模块21具体还可用于针对任一叶子类目,通过以下方式预先建立与所述叶子类目相对应的物品标题二元语言模型:[0095]抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;[0096]统计该叶子类目c下的每个数英字符串分词I在物品标题语料的所有物品标题中的出现次数cWJ,其中,i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;[0097]统计该叶子类目c下的由数英字符串分词%Wi组成的连续数英字符串分词1A的出现次数cd^;[0098]根据统计到的数英字符串分词^的出现次数CWi以及连续数英字符串分词Wi%的出现次数cWi^,基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型:[0099]PcW,|!,!=〇ff,cff,i,ifcff,iff,!=0;[0100]PcW,|!,!=〇*cff,iC,ifcff,=0;[0101]其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和,a为设定的平滑因子。[0102]进一步地,所述字符串切分模块24具体可用于确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率,所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;根据计算到的最优切分概率,记录每一步的最优切分分词;根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。[0103]具体地,所述字符串切分模块24具体可用于若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词^的最优切分概率:[0104]P汍,Sk=max少W〗,SkJ*P汍|W;[0105]其中,PWj,SkJ表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词W的最优切分概率;所述i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i_l;所述PWilWj是根据所选择的字符串切分语言模型所确定的分词^与分词Wj的相关概率。[0106]本领域技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。[0107]本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和或方框图来描述的。应理解可由计算机程序指令实现流程图和或方框图中的每一流程和或方框、以及流程图和或方框图中的流程和或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能的装置。[0108]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能。[0109]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和或方框图一个方框或多个方框中指定的功能的步骤。[0110]尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。[0111]显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

权利要求:1.一种字符串切分方法,其特征在于,包括:确定待切分数英字符串;确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;其中,字符串切分语言模型是根据数英字符串语料中的各数英字符串的分词的词频预先建立的;基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。2.如权利要求1所述的方法,其特征在于,根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型,包括:若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型,其中,所述查询词语言模型是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;或者,若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型,其中,针对任一叶子类目,与该叶子类目相对应的物品标题语言模型是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。3.如权利要求2所述的方法,其特征在于,若所述查询词语言模型为二元语言模型,则所述查询词语言模型是通过以下方式预先建立的:抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;通过以下公式统计查询词语料中的每一数英字符串分词^的用户搜索次数CountWi^ountWi=Σqpvq,其中,q表示查询词语料中的包含数英字符串分词^的各数英字符串,pvq表示包含数英字符串分词W1的各数英字符串的用户搜索次数,i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;通过以下公式统计查询词语料中的由数英字符串分词W1pW1组成的连续数英字符串分词Wi%的用户搜索次数countW;Ji:countWiJi=ΣQpvQ,其中,Q表示查询词语料中的包含连续数英字符串分词W1A的各数英字符串,pvQ表示包含连续数英字符串分词W1A的各数英字符串的用户搜索次数;根据统计到的数英字符串分词^的用户搜索次数countW1以及连续数英字符串分词W1%的用户搜索次数countWiW1,基于以下公式,建立查询词二元语言模型:P^iIi=countWi^icountWij,ifcountWi^i!=0;Pffi|ffii=α*countWi^C,ifcountWi^i=0;其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和,α为设定的平滑因子。4.如权利要求2所述的方法,其特征在于,针对任一叶子类目,若与所述叶子类目相对应的物品标题语言模型为二元语言模型,则与所述叶子类目相对应的物品标题语言模型是通过以下方式预先建立的:抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;统计该叶子类目C下的每个数英字符串分词^在物品标题语料的所有物品标题中的出现次数CW1,其中,i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;统计该叶子类目c下的由数英字符串分词W1^W1组成的连续数英字符串分词W1%的出现次数cW1W1;根据统计到的数英字符串分词W1的出现次数cWJ以及连续数英字符串分词W1^的出现次数cW1A,基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型:PcW11W1i=cW1^1cW1,ifcW1^1!=O;PcW11W1i=a*cW1iC,ifcW1^1=O;其中,C为物品标题语料中的该叶子类目c下的所有数英字符串分词的出现次数的总和,α为设定的平滑因子。5.如权利要求1所述的方法,其特征在于,基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果,包括:确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率;所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;根据计算到的最优切分概率,记录每一步的最优切分分词;根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。6.如权利要求5所述的方法,其特征在于,若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词Wi的最优切分概率:PW1,Sk=maxjPWj,SkD*PW11Wj;其中,PWj,SkJ表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词W_j的最优切分概率;所述i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述PW1W是根据所选择的字符串切分语言模型所确定的分词^与分词W,的相关概率。7.—种字符串切分装置,其特征在于,包括:模型建立模块,用于根据数英字符串语料中的各数英字符串的分词的词频预先建立字符串切分语言模型;字符串确定模块,用于确定待切分数英字符串;模型选择模块,用于确定所述待切分数英字符串所属的类别,并根据所述待切分数英字符串所属的类别,选择对应的字符串切分语言模型;字符串切分模块,用于基于选择的字符串切分语言模型,采用动态规划算法,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。8.如权利要求7所述的装置,其特征在于,所述模型选择模块,具体用于若确定所述待切分数英字符串所属的类别为查询词,则选择与所述查询词相对应的查询词语言模型,其中,所述查询词语言模型是根据查询词语料中的各数英字符串的分词对应的用户搜索次数预先建立的;或者,若确定所述待切分数英字符串所属的类别为物品标题,则选择与所述物品标题所在的叶子类目相对应的物品标题语言模型,其中,针对任一叶子类目,与该叶子类目相对应的物品标题语言模型是根据物品标题语料中的归属于该叶子类目下的各数英字符串的分词在物品标题语料的所有物品标题中的出现次数预先建立的。9.如权利要求8所述的装置,其特征在于,所述模型建立模块,具体用于通过以下方式预先建立查询词二元语言模型:抽取查询词语料中的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;通过以下公式统计查询词语料中的每一数英字符串分词^的用户搜索次数CountWi^ountWi=Σqpvq,其中,q表示查询词语料中的包含数英字符串分词^的各数英字符串,pvq表示包含数英字符串分词W1的各数英字符串的用户搜索次数,i为任意正整数且其取值不大于查询词语料中的数英字符串分词的总个数;通过以下公式统计查询词语料中的由数英字符串分词W1pW1组成的连续数英字符串分词Wi%的用户搜索次数countW;Ji:countWiJi=ΣQpvQ,其中,Q表示查询词语料中的包含连续数英字符串分词W1A的各数英字符串,pvQ表示包含连续数英字符串分词W1A的各数英字符串的用户搜索次数;根据统计到的数英字符串分词^的用户搜索次数countW1以及连续数英字符串分词W1%的用户搜索次数countWiW1,基于以下公式,建立查询词二元语言模型:P^iIi=countWi^icountWij,ifcountWi^i!=0;Pffi|ffii=α*countWi^C,ifcountWi^i=0;其中,C为查询词语料中的所有数英字符串分词的用户搜索次数的总和,α为设定的平滑因子。10.如权利要求8所述的装置,其特征在于,所述模型建立模块,具体用于针对任一叶子类目,通过以下方式预先建立与所述叶子类目相对应的物品标题二元语言模型:抽取物品标题语料中的该叶子类目c下的各数英字符串,并以非数字且非英文的字符以及空格为分隔符,确定各数英字符串的数英字符串分词;统计该叶子类目c下的每个数英字符串分词^在物品标题语料的所有物品标题中的出现次数cW1,其中,i为任意正整数,且其取值不大于物品标题语料中的该叶子类目c下的数英字符串分词的总个数;统计该叶子类目c下的由数英字符串分词W1^W1组成的连续数英字符串分词W1%的出现次数cW1W1;根据统计到的数英字符串分词W1的出现次数cWJ以及连续数英字符串分词W1^的出现次数cW1A,基于以下公式,建立与该叶子类目c相对应的物品标题二元语言模型:PcW11W1i=cW1^1cW1,ifcW1^1!=0;P〇W11W1-:=^C,ifCd1^1=0;其中,C为物品标题语料中的该叶子类目C下的所有数英字符串分词的出现次数的总和,α为设定的平滑因子。11.如权利要求7所述的装置,其特征在于,所述字符串切分模块,具体用于确定所述待切分数英字符串S的各种切分方式,以及每一种切分方式对应的分词;基于每一种切分方式对应的分词、以及选择的字符串切分语言模型,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是包含所述第k个字符和或所述第k个字符的前一个或多个字符、但不包含所述第k个字符之后的字符的分词的最优切分概率,所述k为任意正整数且其取值不大于所述待切分数英字符串S的最大字符个数;根据计算到的最优切分概率,记录每一步的最优切分分词;根据记录的每一步的最优切分分词,确定所述待切分数英字符串的最优切分路径,得到所述待切分数英字符串的切分结果。12.如权利要求11所述的装置,其特征在于,所述字符串切分模块,具体用于若所选择的字符串切分语言模型为二元语言模型,则通过以下公式,计算搜索到所述待切分数英字符串S的第k个字符时,最后一个分词是分词W1的最优切分概率:PW1,Sk=maxjPWj,SkD*PW11Wj;其中,PWj,SkJ表示搜索到待切分数英字符串S的第k-1个字符时,最后一个分词是同一切分方式中、与所述分词Wi相邻的前一个分词W_j的最优切分概率;所述i为任意正整数且其取值不大于所述待切分数英字符串S所能够切分成的分词的最大个数;所述j=i-1;所述PW1W是根据所选择的字符串切分语言模型所确定的分词^与分词W,的相关概率。

百度查询: 阿里巴巴集团控股有限公司 一种字符串切分方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。