【发明授权】一种基于文本词素切分的检索方法及系统_武汉斗鱼网络科技有限公司_201610881111.7

导航：龙图腾网> 最新专利技术> 一种基于文本词素切分的检索方法及系统_武汉斗鱼网络科技有限公司_201610881111.7

申请/专利权人：武汉斗鱼网络科技有限公司

申请日：2016-10-09

公开（公告）日：2019-05-17

公开（公告）号：CN106502980B

主分类号：G06F17/27(2006.01)I

分类号：G06F17/27(2006.01)I;G06F16/242(2019.01)I;G06F16/22(2019.01)I

优先权：

专利状态码：有效-授权

法律状态：2019.05.17#授权;2017.04.12#实质审查的生效;2017.03.15#公开

摘要：本发明公开了一种基于文本词素切分的检索方法及系统，涉及大数据检索领域，该方法包括建立用户检索词库，判断待切分的文本中是否包含用户检索词库已出现的检索词组，并在存在时将该检索词组作为存在词组，判断当前存在词组的Ew是否大于Eavg，并在大于时判断用户检索词库中是否存在该存在词组的词素，并在不存在时将当前存在词组的词素存入词库，作为存在词组相对应的词素，取出相对应的存在词组，将文本的剩余部分进行细粒度词素切分；判断存在词组是否超过八个字节，在不超过时以当前存在词组的词素和细粒度切分后的词素作为切分词素，然后进行索引。本发明能够降低更新和维护的频率，并提高检索质量。

主权项：1.一种基于文本词素切分的检索方法，其特征在于：建立用户检索词库，所述词库记录并存储有当前用户的所有检索词组和每个检索词组出现的次数n，所有检索词组的总数为m，每个检索词组的检索频率P为nm，每个检索词组的期望值为Ew，Ew＝P*n；所有检索词组的平均期望值为：Eavg＝[Ew1+Ew2+……+Ewn]m；所述检索包括以下步骤：S1、判断待切分的文本中是否包含用户检索词库中已经出现过的检索词组，若存在，将当前检索词组作为存在词组，转入步骤S2；S2、并判断当前存在词组的Ew是否大于Eavg，并在大于时判断用户检索词库中是否存在当前存在词组的词素，并在不存在时将当前存在词组的词素存入词库，作为存在词组相对应的词素，转入步骤S3；S3、取出相对应的存在词组，将文本的剩余部分进行细粒度词素切分；判断存在词组是否超过八个字节，在不超过时以当前存在词组的词素和细粒度切分后的词素作为切分词素，然后进行索引。

全文数据：一种基于文本词素切分的检索方法及系统技术领域本发明涉及大数据检索领域，具体涉及一种基于文本词素切分的检索方法及系统。背景技术随着互联网行业的飞速发展，大数据检索亦变得尤为重要，一个高效的检索系统，需要配备有一套良好的文档解析方案，对待检索的文本进行解析，解析过程中最重要的一步是对文档进行词素切分，即识别获取构成文档内容的词素、词和短语。目前进行文档解析的方法主要为：识别文档结构，将文本中任何以空格和特殊符号结束的字母数字序列识别为词语，并将大写字符转换为小写，如“ILoveChina！Yeah”，即可切分为“i”“love”“china”“！”“yeah”。由于中文文档通常不会通过空格来断开，如“我爱中国！耶”，采用现有的文档解析方法会被切分为“我爱中国”“！”“耶”，但是，这种分词方法会导致切分后的词难以在数据库中找到相对应的查询词匹配，因此，对于中文文档，词素切分需要采用其他的方式进行处理，从而保证查询和文档词项可以相互匹配。当下比较流行的一些索引方案为：基于词库的分词索引、基于正则表达式的分词索引、基于空格等特殊字符的分词索引以及一些自定义分词索引。其中基于词库的分词索引是目前搜索引擎中应用最为广泛、分词检索效果最好的方案，比如ApacheLuceneApache旗下的一款开源全文检索项目，ApacheSolrApache旗下的一款开源全文检索项目，ElasticSearch一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎等。现有的细粒度分词方法，会将检索文档切割至最小单元，比如将“我爱中国！耶”直接切分成“我”“爱”“中”“国”“！”“耶”，但这样不仅会给检索系统的存储模块带来巨大的存储压力，而且导致有意义的短语如“中国”被切割，增大检索难度。综上所述，目前的分词方法不仅需要强大且充足的词库支持，且检索质量较低，但是，词库需要实时更新和维护，需要耗费大量的人力，成本较高。发明内容针对现有技术中存在的缺陷，本发明的目的在于提供一种基于文本词素切分的检索方法及系统，能够降低更新和维护的频率，并提高检索质量。为达到以上目的，本发明采取的技术方案是：一种基于文本词素切分的检索方法，建立用户检索词库，所述词库记录并存储有当前用户的所有检索词组和每个检索词组出现的次数n，所有检索词组的总数为m，每个检索词组的检索频率P为nm，每个检索词组的期望值为Ew，Ew＝P*n；所有检索词组的平均期望值为：Eavg＝[Ew1+Ew2+……+Ewn]m；所述检索包括以下步骤：S1、判断待切分的文本中是否包含用户检索词库中已经出现过的检索词组，若存在，将当前检索词组作为存在词组，转入步骤S2；S2、并判断当前存在词组的Ew是否大于Eavg，并在大于时判断用户检索词库中是否存在当前存在词组的词素，并在不存在时将当前存在词组的词素存入词库，作为存在词组相对应的词素，转入步骤S3；S3、取出相对应的存在词组，将文本的剩余部分进行细粒度词素切分；判断存在词组是否超过八个字节，在不超过时以当前存在词组的词素和细粒度切分后的词素作为切分词素，然后进行索引。在上述技术方案的基础上，步骤S1中，所述待切分的文本中不包含用户检索词库中的词组时，将待切分的文本进行细粒度词素切分并索引。在上述技术方案的基础上，步骤S3中，判断存在词组是否超过八个字节，当超过时，将存在词组作为待切分的文本，转入步骤S1。在上述技术方案的基础上，步骤S1中，当待切分的文本中不包含用存在词组时，对待切分的文本进行细粒度词素切分。在上述技术方案的基础上，所述步骤S1和S2之间还包括以下步骤：去除待切分文本中的停用词和特殊字符。在上述技术方案的基础上，所述停用词包括英文字符、数字、数学字符、标点符号、语气助词、副词、介词和连接词。在上述技术方案的基础上，所述特殊字符为数学符号、单位符号和制表符。一种基于文本词素切分的检索系统，包括数据库建立模块、输入模块、判断比较模块、切分模块和检索模块；所述数据库建立模块用于建立用户检索词库；所述输入模块用于向检索系统中输入待切分的文本；所述判断比较模块用于判断待切分的文本中是否包含存在词组，并比较当前存在词组的Ew是否大于Eavg，并在大于时将当前存在词组的词素存入词库；所述切分模块用于将去除存在词组后的待切分文本进行细粒度词素切分；所述检索模块用于根据切分后的词素进行检索。在上述技术方案的基础上，所述判断比较模块还用于判断当前存在词组是否超过八个字节，在不超过时以当前存在词组的词素和细粒度切分后的词素作为切分词素，然后进行索引。在上述技术方案的基础上，所述切分模块还用于对不包含存在词组的待切分文本进行细粒度词素切分。与现有技术相比，本发明的优点在于：1本发明的一种基于文本词素切分的检索方法，根据用户的检索习惯，将用户常用的检索词组存储在检索词库中，并记录每个检索词组的期望值，根据期望值和平均值判断是否将相对应检索词组的词素存入词库中，同时，本发明还结合细粒度词素切分和判断检索词组的长度对方法进行进一步的优化，由于每个用户感兴趣的领域对应的词素有一定的相关和重复性，因此，该词库能够提高检索质量，降低更新和维护的频率。附图说明图1为本发明实施例中基于文本词素切分的检索方法的流程图；图2为本发明实施例中基于文本词素切分的检索系统的结构框图。具体实施方式以下结合附图及实施例对本发明作进一步详细说明。参见图1所示，本发明实施例提供一种基于文本词素切分的检索方法，包括以下步骤：建立用户检索词库，所述词库记录并存储有当前用户的所有检索词组和每个检索词组出现的次数n，所有检索词组的总数为m，每个检索词组的检索频率P为nm，每个检索词组的期望值为Ew，Ew＝P*n；所有检索词组的平均期望值为：Eavg＝[Ew1+Ew2+……+Ewn]m。判断待切分的文本中是否包含用户检索词库中已存在的检索词组，若不存在，将待切分的文本进行细粒度词素切分并索引。若存在，将当前检索词组作为存在词组，去除待切分文本中的停用词和特殊字符，停用词包括英文字符、数字、数学字符、标点符号、语气助词、副词、介词和连接词；特殊字符为数学符号、单位符号和制表符。判断当前存在词组的Ew是否大于Eavg，并在大于时判断用户检索词库中是否存在于存在词组相对应的词素，并在不存在时将当前存在词组的词素存入词库，作为存在词组相对应的词素。取出相对应的存在词组，将文本的剩余部分进行细粒度词素切分；判断存在词组是否超过八个字节，若超过，将当前存在词组作为待切分文本进行重新检索；若不超过，以当前存在词组的词素和细粒度切分后的词素作为切分词素，然后进行索引。本发明的方法详细步骤为：S1、输入待切分文本。S2、判断待切分的文本中是否包含用户检索词库中的词组，即存在词组：若存在，转入步骤S3；否则，转入步骤S6。S3、判断当前存在词组的Ew是否大于Eavg，若大于，转入步骤S4；否则，转入步骤S5。S4、判断用户检索词库中是否存在相对应的词素，并在不存在时将当前存在词组的词素存入词库，转入步骤S5。S5、去除待切分文本中的停用词和特殊字符，转入步骤S6。S6、取出待切分的文本中相对应的存在词组，判断存在词组是否超过八个字节，若是，将存在词组作为待切分的文本，转入步骤S2；否则，转入步骤S7。S7、将文本进行细粒度词素切分，得到检索词素，此处所指文本包括去除存在词组后的待切分文本和不包括存在词组的待切分文本，包括存在词组的待切分文本词素为存在词组的词素和细粒度切分的词素；不包括存在词组的待切分文本词素为细粒度切分词素，转入步骤S8。S8、以切分词素进行索引。本发明还提供一种基于文本词素切分的检索系统，包括数据库建立模块、输入模块、判断比较模块、切分模块和检索模块。数据库建立模块用于建立用户检索词库，输入模块用于向检索系统中输入待切分的文本。判断比较模块用于判断待切分的文本中是否包含存在词组，并比较当前存在词组的Ew是否大于Eavg，并在大于时将当前存在词组的词素存入词库。判断比较模块还用于判断当前存在词组是否超过八个字节，在不超过时以当前存在词组的词素和细粒度切分后的词素作为切分词素，然后进行索引。切分模块用于对不包括存在词组的待切分文本和去除存在词组后的待切分文本进行细粒度词素切分；还用于对不包含存在词组的待切分文本进行细粒度词素切分，检索模块用于根据切分后的词素进行检索。本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

权利要求：1.一种基于文本词素切分的检索方法，其特征在于：建立用户检索词库，所述词库记录并存储有当前用户的所有检索词组和每个检索词组出现的次数n，所有检索词组的总数为m，每个检索词组的检索频率P为nm，每个检索词组的期望值为Ew，Ew＝P*n；所有检索词组的平均期望值为：Eavg＝[Ew1+Ew2+……+Ewn]m；所述检索包括以下步骤：S1、判断待切分的文本中是否包含用户检索词库中已经出现过的检索词组，若存在，将当前检索词组作为存在词组，转入步骤S2；S2、并判断当前存在词组的Ew是否大于Eavg，并在大于时判断用户检索词库中是否存在当前存在词组的词素，并在不存在时将当前存在词组的词素存入词库，作为存在词组相对应的词素，转入步骤S3；S3、取出相对应的存在词组，将文本的剩余部分进行细粒度词素切分；判断存在词组是否超过八个字节，在不超过时以当前存在词组的词素和细粒度切分后的词素作为切分词素，然后进行索引。2.如权利要求1所述的一种基于文本词素切分的检索方法，其特征在于：步骤S1中，所述待切分的文本中不包含用户检索词库中的词组时，将待切分的文本进行细粒度词素切分并索引。3.如权利要求1所述的一种基于文本词素切分的检索方法及系统，其特征在于：步骤S3中，判断存在词组是否超过八个字节，当超过时，将存在词组作为待切分的文本，转入步骤S1。4.如权利要求1至3中任一项所述的一种基于文本词素切分的检索方法，其特征在于：步骤S1中，当待切分的文本中不包含用存在词组时，对待切分的文本进行细粒度词素切分。5.如权利要求4所述的一种基于文本词素切分的检索方法，其特征在于：所述步骤S1和S2之间还包括以下步骤：去除待切分文本中的停用词和特殊字符。6.如权利要求5所述的一种基于文本词素切分的检索方法，其特征在于：所述停用词包括英文字符、数字、数学字符、标点符号、语气助词、副词、介词和连接词。7.如权利要求5所述的一种基于文本词素切分的检索方法，其特征在于：所述特殊字符为数学符号、单位符号和制表符。8.一种实现权利要求1至7任一项所述检索方法的基于文本词素切分的检索系统，其特征在于：包括数据库建立模块、输入模块、判断比较模块、切分模块和检索模块；所述数据库建立模块用于建立用户检索词库；所述输入模块用于向检索系统中输入待切分的文本；所述判断比较模块用于判断待切分的文本中是否包含存在词组，并比较当前存在词组的Ew是否大于Eavg，并在大于时继续判断用户检索词库中是否存在相对应的词素，若不存在，则将当前存在词组的词素存入词库；所述切分模块用于将去除存在词组后的待切分文本进行细粒度词素切分；所述检索模块用于根据切分后的词素进行检索。9.如权利要求8所述的一种基于文本词素切分的检索系统，其特征在于：所述判断比较模块还用于判断当前存在词组是否超过八个字节，在不超过时以当前存在词组的词素和细粒度切分后的词素作为切分词素，然后进行索引。10.如权利要求8所述的一种基于文本词素切分的检索系统，其特征在于：所述切分模块还用于对不包含存在词组的待切分文本进行细粒度词素切分。

百度查询：武汉斗鱼网络科技有限公司一种基于文本词素切分的检索方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

下一篇：一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

相关技术

一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

一种卷帘门帘片成型机_重庆久广门业有限公司_202322413811.1

一种点火线圈密封结构_一汽解放汽车有限公司_202322812056.4

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

一种洗涤设备_重庆海尔洗衣机有限公司_202321535727.0

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

词素相关技术

一种基于词素特征的挖矿行为识别方法及系统_济南大学_202211063008.3

一种基于词素媒介的蒙汉机器翻译方法_内蒙古工业大学_202110861033.5

一种基于词与词素混合模型的维汉机器翻译系统_新疆大学_202011128812.6

确定词素重要性分析模型的方法及装置_腾讯科技(深圳)有限公司_201410063194.X

一种基于文本词素切分的检索方法及系统_武汉斗鱼网络科技有限公司_201610881111.7

词素分析装置和词素分析方法_富士通株式会社_201810686874.5

一种基于文本词素切分的检索方法及系统_武汉斗鱼网络科技有限公司_201610881111.7

确定词素重要性分析模型的方法及装置_腾讯科技（深圳）有限公司_201410063194.X

用于构建极性词素数据库以及确定词的极性的方法和装置_富士通株式会社_201010257635.1

词素分析装置以及词素分析方法_冲电气工业株式会社_200610154216.9

切分相关技术

一种分切机的切分轮调节装置_广东兴艺数字印刷股份有限公司_202410189083.7

一种可切分茶饼的茶壶_蒋金燕_202321930568.4

模切装置及模切分条一体机_广东利元亨智能装备股份有限公司_202320820905.8

一种基于最细粒度切分的数据索引方法及系统_山东鲁软数字科技有限公司_202010779832.3

一种有边框表格的精准单元格切分识别与重构方法_上海精密计量测试研究所_202311762168.1

一种汽车雨刮臂生产用切分装置_杭州叙诚汽车零部件有限公司_202410189788.9

一种连续式鲜杏去核切分装置_河北农业大学_202322475508.4

一种18mm、20mm轧带肋钢筋2线切分通用孔型生产方法_首钢水城钢铁(集团)有限责任公司_202111059591.6

订单切分的方法和装置_北京京邦达贸易有限公司_201911121384.1

一种堆叠芯片切分方法以及相关装置_珠海硅芯科技有限公司_202410042676.0

方法相关技术

曝光方法、曝光装置、以及物品的制造方法_佳能株式会社_202311346914.9

定子及其制造方法_LG麦格纳电子动力总成有限公司_202110012057.3

通信方法及装置_华为技术有限公司_202010617172.9

通信方法及装置_华为技术有限公司_202211296381.3

模型剪枝方法、人脸识别模型训练方法及人脸识别方法_苏州元脑智能科技有限公司_202311803044.3

信息处理方法_丰田自动车株式会社_202311358127.6

通信方法及装置_华为技术有限公司_202311024020.8

蓄电设备的检查方法及制造方法_丰田自动车株式会社_202010574534.0

能力确定方法、上报方法、装置、设备及存储介质_北京小米移动软件有限公司_202280001087.7

冰箱及其控制方法_LG电子株式会社_202080061858.2

龙图腾网&IPTOP

【发明授权】一种基于文本词素切分的检索方法及系统_武汉斗鱼网络科技有限公司_201610881111.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务