【发明授权】一种基于C++语言的混合型中文文本分词方法_山谷网安科技股份有限公司_202110077065.6

导航：龙图腾网> 最新专利技术> 一种基于C++语言的混合型中文文本分词方法_山谷网安科技股份有限公司_202110077065.6

申请/专利权人：山谷网安科技股份有限公司

申请日：2021-01-20

公开（公告）日：2024-04-16

公开（公告）号：CN113033193B

主分类号：G06F40/289

分类号：G06F40/289;G06F40/284;G06F40/126;G06F40/216;G06F9/50

优先权：

专利状态码：有效-授权

法律状态：2024.04.16#授权;2021.07.13#实质审查的生效;2021.06.25#公开

摘要：本发明提供一种基于C++语言的混合型中文文本分词方法。该方法中，一个给定的文本数据的分词过程包括第一次分词过程和第二次分词过程；第一次分词过程的文本数据读取顺序和第二次分词过程的文本数据读取顺序相反；其中，第一次分词过程或第二次分词过程包括以下步骤：步骤1：加载词语词库和词频词库，并建立双数组tire树；步骤2：按照约定的文本数据读取顺序从给定的文本数据中读取一行数据，然后对当前行数据进行分词；步骤3：判断给定的文本数据是否已经读取完毕，若没有，则返回步骤2；若读取完毕，则执行步骤4；步骤4：判断给定的文本数据的分词过程是否结束，若结束，则比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果。

主权项：1.一种基于C++语言的混合型中文文本分词方法，其特征在于，一个给定的文本数据的分词过程包括第一次分词过程和第二次分词过程；第一次分词过程的文本数据读取顺序和第二次分词过程的文本数据读取顺序相反；内存分配采用jemalloc；其中，第一次分词过程或第二次分词过程包括以下步骤：步骤1：加载词语词库和对应的词频词库，并建立双数组tire树；步骤2：按照约定的文本数据读取顺序从给定的文本数据中读取一行数据，然后对当前行数据进行分词；步骤2中，对当前行数据进行分词，包括：步骤2.1：按照约定的文本数据读取顺序读取当前行数据中的一个字符；步骤2.2：判断读取的当前字符是否为UTF-8字符：若是，则执行步骤2.3；若不是，则执行步骤2.4；步骤2.3：判断当前字符的UTF-8编码范围，确定当前字符的长度；将包括当前字符在内及其前面的所有连续UTF-8字符与预先建立的双数组tire树进行比较，并判断是否已经匹配到叶子节点：若已经匹配到叶子节点，则将当前匹配结果存储至分词结果中，然后执行步骤2.7；若未匹配到叶子节点，则将当前匹配结果存储至临时分词结果变量中，然后执行步骤2.7；步骤2.4：判断读取的当前字符是否为英文字符：若是，则执行步骤2.5；若不是，则执行步骤2.6；步骤2.5：先将当前英文字符之前的匹配结果存储至分词结果中，然后将当前英文字符存储至字符串变量中，并继续读取下一个字符直至读取到非英文字符或者当前行数据的结尾为止，然后将所述字符串变量中存储的所有字符转存至分词结果中，并执行步骤2.7；步骤2.6：若读取的当前字符不属于UTF-8字符且也不属于英文字符，则确定当前字符为ASCII字符，则先将当前ASCII字符之前的匹配结果存储至分词结果中，然后将当前ASCII字符存储至特殊字符串变量中，并继续读取下一个字符直至读取到非ASCII字符或者当前行数据的结尾为止，然后将所述特殊字符串变量中存储的所有字符转存至分词结果中，并执行步骤2.7；步骤2.7：更新读取位置；步骤2.8：判断当前读取位置是否为当前行数据的结尾，若不是结尾，则返回步骤2.1以继续读取下一个字符；若是结尾，则执行步骤3；步骤3：判断给定的文本数据是否已经读取完毕，若没有，则返回步骤2；若读取完毕，则执行步骤4；步骤4：判断给定的文本数据的分词过程是否结束，若结束，则比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果。

全文数据：

权利要求：

百度查询：山谷网安科技股份有限公司一种基于C++语言的混合型中文文本分词方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

下一篇：一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

相关技术

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

一种弹力按摩鞋_温岭市成奇鞋业有限公司_202322137663.5

一种方便拆装的瓦楞机用瓦楞辊_浙江永暉瓦楞辊有限公司_202322675014.0

一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

一种网格化终端旋转装置_北京国旺盛源智能终端科技有限公司_202322619930.2

一种水泵节能增压装置_陕西海利智慧能源科技有限公司_202322218413.4

一种车载冰箱移动组件_一汽解放汽车有限公司_202322605238.4

一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

电子设备_深圳市嘉晋实业有限公司_202322601396.2

一种带防撞装置的压力机工作台_扬州蔚来机械装备制造有限责任公司_202322611255.9

一种药材脱皮机_安徽亳药福泰药业有限公司_202322752517.3

语言相关技术

基于Rust语言实现SESC驱动的半导体设备通信方法_无锡芯享信息科技有限公司_202410173945.7

一种基于java语言的通用DLT645协议解析方法及设备_成都汉度科技有限公司_202410162410.X

一种基于预训练语言模型的ICD自动编码方法_中南大学_202410165651.X

结构化查询语言SQL系统的监控方法、装置及电子设备_北京奇艺世纪科技有限公司_202110534846.3

基于自然语言对话的表数据处理方法_无锡容智技术有限公司_202310935795.4

基于图神经网络的汉越跨语言观点对象识别分析方法_昆明理工大学_202210532418.1

一种基于自然语言处理的智能育儿系统和装置_云启智慧科技有限公司_202311245094.4

一种自然语言文本和数学语言文本的混合词嵌入方法_华中师范大学_202210469691.4

对话式大语言模型监督训练评价系统_南京大经中医药信息技术有限公司_202410121885.4

用于语言翻译的方法、装置、设备和可读介质_京东城市(北京)数字科技有限公司_202410059666.8

文本相关技术

一种文本推荐方法、系统、存储介质和设备_济南大学_202111016193.6

一种基于深度学习的文本生成图像学习方法_大连理工大学_202111183091.3

文本检测方法、装置、计算机设备和存储介质_腾讯科技(深圳)有限公司_202011020108.9

一种文本行图片的解码方法、装置和设备_北京有竹居网络技术有限公司_202110558943.6

基于宏微观特征的中文文本笔迹鉴别方法、装置及存储介质_大连海事大学_202011643169.0

文本意图识别方法、装置、设备和存储介质_平安科技(深圳)有限公司_202010033742.X

文本细粒度情感分类方法、系统、装置及存储介质_华南理工大学_202010560649.4

一种基于文本的实体识别方法及相关装置_广东工业大学_202010844442.X

一种相似文本内容的识别方法、装置及存储介质_广州腾讯科技有限公司_201810595368.5

基于注意力机制的幽默文本分类方法、装置、设备、介质_中国平安人寿保险股份有限公司_202111433978.3

中文相关技术

基于宏微观特征的中文文本笔迹鉴别方法、装置及存储介质_大连海事大学_202011643169.0

基于信息增强实现两步中文事件精准检测的方法、装置、处理器及其计算机可读存储介质_公安部第三研究所_202111528511.7

一种改进中文自动文本摘要自注意力计算的方法_北京工业大学_202011226337.6

基于多模态地理文本预训练的中文地址解析方法及系统_以萨技术股份有限公司_202410093592.X

一种中文民航空中交通管制语音识别方法及系统_厦门大学_202110467893.0

一种基于C++语言的混合型中文文本分词方法_山谷网安科技股份有限公司_202110077065.6

基于AI PaaS平台的中文文本向量化模型的交互数据管理系统_知学云(北京)科技股份有限公司_202410070601.3

一种中文作文AI句评流水线输出方法、装置及存储介质_北京和气聚力教育科技有限公司_202410294625.7

中文教学用挂板_哈尔滨信息工程学院_202321742796.9

基于视觉Transformer的中文文本识别方法_中国人民解放军国防科技大学_202410005609.1

龙图腾网&IPTOP

【发明授权】一种基于C++语言的混合型中文文本分词方法_山谷网安科技股份有限公司_202110077065.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务