【发明授权】一种面向社交网络不规则短文本的粤语分词方法_西安交通大学_202011236593.3

导航：龙图腾网> 最新专利技术> 一种面向社交网络不规则短文本的粤语分词方法_西安交通大学_202011236593.3

申请/专利权人：西安交通大学

申请日：2020-11-09

公开（公告）日：2024-04-12

公开（公告）号：CN112307759B

主分类号：G06F40/289

分类号：G06F40/289;G06F40/284;G06F40/242;G06F40/216;G06F40/126;G06F16/951;G06F16/955;G06Q50/00

优先权：

专利状态码：有效-授权

法律状态：2024.04.12#授权;2021.02.23#实质审查的生效;2021.02.02#公开

摘要：本发明涉及一种面向社交网络不规则短文本的粤语分词方法，属于自然语言处理领域。本发明的面向粤语语境的短文本清洗和分词的方法，具体包括四个功能模块，分别为支持用户自定义的短文本清洗模块、粤语联合语料库构建模块、短文本扫描和初步切分模块、未登录词处理及分词结果输出模块。本发明解决了现有技术中没有考虑到面向社交网络不规则短文本的粤语分词方法，提出了满足用户自身不同应用场景的个性化数据清洗模型，建立了面向社交网络的粤语联合语料库，设计了基于构建的联合语料库的分词模型，同时综合考虑了文本中出现未登录词的处理方案，提出对应的综合处理模型，最终在连登论坛平台爬取的短文本数据中验证，分词准确率达87％。

主权项：1.一种面向社交网络不规则短文本的粤语分词方法，其特征在于，包括如下步骤：步骤1，利用支持用户自定义的短文本清洗模块对原始语料进行编码统一，然后基于用户文本清洗需求进行后续的数据清洗；步骤2，利用粤语联合语料库构建模块对语料库进行设计和更新，以得到适用于粤语语境的联合语料库；步骤3，基于步骤2得到的联合语料库，利用短文本扫描和初步切分模块对步骤1清洗后的文本进行词图扫描寻找成词情况，基于分词构造有向无环图；并利用动态规划进行逆向最大匹配，寻找最大概率路径下的切分组合，形成初步分词切分组合；步骤4，利用未登录词处理及分词结果输出模块对得到的初步分词切分组合进行判断，若切分词不为未登录词，则将其作为最终切分组合；若切分词为未登录词，则构建词汇模型，利用所述联合语料库训练得到的概率表，对未登录词进行序列标注后利用Viterbi算法进行求解，得到一个概率最大的分词序列，对待分词的句子重新组合，得到最终切分组合，最后根据用户对于输出结果形式的需求进行输出；其中，所述步骤3包括以下步骤：步骤3.1，对步骤1清洗后的文本进行词图扫描，生成句子中汉字所有可能成词情况；步骤3.2，在步骤3.1中得到所有的成词情况中，在句子中构造分词的有向无环图，对切分词a,b进行记录和标注，其中a代表分词起始的字，b为可能的分词终止的字；步骤3.3，利用步骤3.2切分好的词语，对该词语查找该词语在联合语料库中出现的频率，然后根据动态规划查找最大概率路径的方法，逆向匹配计算句子的最大概率，得到最大概率的切分组合，即初步分词切分组合；所述步骤3.1中，对步骤1清洗后的N个文本，依次按顺序读取，每一个短文本Si由m个字Zi,j组成，其中i代表短文本编号，j代表字的编号，实现对文本进一步的切分，基于联合语料库进行词图扫描，具体步骤如下：Step1：设置词典最长查找长度L；Step2：在短文本Si中从头遍历每一个字Zi,j，初试位置为Zi,1，随后在短文本Si中生成以Zi,1为开头的成词可能，即挑选Zi,jZi,j+1，在联合语料库中查找匹配，若查找到该匹配，则转step3，若不存在该匹配，则将Zi,1作为单字成词输出，遍历文本的指针后移，转到Step2；Step3：将Zi,j+3扩充到Zi,j+1Zi,j+2，将Zi,j+1Zi,j+2Zi,j+3在联合语料库中寻找匹配，若查找到该匹配，则转step4，若未找到该匹配，则将Zi,j+1Zi,j+2作为成词输出，遍历文本的指针后移，转到Step2；step4：继续向后扩充，直至Zi,j+m，使得Zi,j+1Zi,j+2…Zi,j+m在联合语料库中无法寻找到该匹配，则将Zi,j+1Zi,j+2…Zi,j+m-1作为成词输出，遍历文本的指针后移，转到Step2；所述步骤3.3中，利用有向无环图来表示各字从前到后的成词情况，利用a,b对切分词进行记录和标注，a为分词起始的字Zi,j，b为可能的分词终止的字Zi,j+p组成的集合；所述步骤3.3中，动态规划查找最大概率路径的方法，公式如下： P′zn＝lgPzn2 W*＝argminPZ4其中，公式1中zn表示出现的第n个词，freq[zn]表示该词词频，Pzn表示每一个词出现的概率等于该词词频除以所有词的词频之和，如果词频为0，则当做词频为1来处理；公式2中P′zn表示对Pzn取对数概率，即在每个词概率的基础上取对数；公式3中PZ为整体概率路径，即由z1,z2,z3,…,zn共同组成的概率路径，表示对每个词的概率进行叠乘，公式4表示最终对整体概率路径进行计算，因步骤二所取对数运算，所以对PZ求其最小值，得到可能性最大的路径对应的划分，作为分词结果。

全文数据：

权利要求：

百度查询：西安交通大学一种面向社交网络不规则短文本的粤语分词方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

下一篇：一种抑菌保暖女式羊绒大衣_安庆初颖数字科技有限公司_202322077610.9

相关技术

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

一种抑菌保暖女式羊绒大衣_安庆初颖数字科技有限公司_202322077610.9

一种用于污水处理的自动化污水处理设备_江苏欧跃环保科技有限公司_202322615536.1

一种对氟甲苯制备用精馏设备_湖北联昌新材料有限公司_202322580010.4

一种带分励脱扣器组件的电子式断路器结构_杭州程翔电气有限公司_202322618372.8

一种洗涤设备_重庆海尔洗衣机有限公司_202321535727.0

一种新型箱式变电站户外壳体_武汉市合力电器有限公司_202322574997.9

一种勺式高精度防堵塞药剂计量添加装置_浙江威尔博环保科技有限公司_202322743530.2

磨豆压力咖啡机自动压粉机构_浙江比依电器股份有限公司_202322521989.8

自动装盒设备_杭州永创智能设备股份有限公司_202322265646.X

一种砂浆稠度仪_宜昌市科信水电工程质量检测有限公司_202322336666.1

一种能自动清洗的鸡养殖笼_海南省农业科学院三亚研究院(海南省实验动物研究中心)_202420555494.9

短文相关技术

短文本过滤方法、装置、介质及计算机设备_深圳市优必选科技有限公司_201811594130.7

融合领域知识和深度学习的领域短文本命名实体识别方法_中国电子科技集团公司第五十四研究所_202311685756.X

基于主题增强词表示的短文本分类方法和系统_合肥工业大学_202311818547.8

基于多头注意力机制与多模型融合的短文本情感分析方法_南京信息职业技术学院_202311859328.4

基于文档重排序的短文档列表交集查询方法_昆明理工大学_202311751449.7

一种基于网信领域短文本的观点挖掘方法_国家计算机网络与信息安全管理中心_202110357064.7

一种基于多信息融合的短文本命名实体消歧方法_北京石油化工学院_202410025322.5

一种短文本语义相似度识别方法、装置、设备及介质_浙江精创教育科技有限公司_202410045370.0

一种基于融合向量的短文本相似度计算方法_国家计算机网络与信息安全管理中心_202311359555.0

一种短文本语义相似度度量方法、系统及装置_厦门快商通科技股份有限公司_202110892292.4

不规则相关技术

一种不规则形状零件的拉直工具_沈阳富创精密设备股份有限公司_202322711716.X

一种不规则河道断面流量用测量装置_昆明市生态环境科学研究院_202322487212.4

基于多维规则的动态布局_甲骨文国际公司_201910916138.9

规则模型的安全性检测方法、装置、设备及系统_支付宝(杭州)信息技术有限公司_202010908621.5

一种车内安全规则文件生成方法以及装置_北京天融信网络安全技术有限公司_202011274890.7

一种精确识别恶意网络通讯的规则引擎实现方法_神州网云(北京)信息技术有限公司_202111082727.5

规则模型的安全性检测方法、装置、设备及系统_支付宝(杭州)信息技术有限公司_202010908605.6

交互式扩展机器学习生成的规则和推荐_SAP欧洲公司_202211533412.2

一种不规则袋装中式香肠堆叠基架_重庆德佳肉类科技发展有限公司_202321774939.4

一种不规则袋装中式香肠自动叠堆机械手臂_重庆德佳肉类科技发展有限公司_202321815210.7

粤语相关技术

一种粤语词组分词处理方法及系统_珠海博维网络信息有限公司_202311763030.3

一种粤语词组分词处理方法及系统_珠海博维网络信息有限公司_202311763030.3

粤语语音合成方法、设备以及计算机可读存储介质_腾讯音乐娱乐科技(深圳)有限公司_202310471322.3

基于粤语村落文化的交互叙事方法及系统_广东工业大学_202311032125.8

一种基于图卷积网络和外部知识嵌入的粤语谣言检测方法_四川大学_202310526765.8

一种基于Convformer的粤语句子级唇语识别方法_湘潭大学_202310347019.2

一种粤语新闻视频中自动裁剪含主播的视听数据集的方法_东南大学_202211132338.3

一种基于视觉信息的粤语语音识别增强方法_湘潭大学_202210636176.0

一种针对粤语的语音合成模型的训练方法及语音合成方法_广东电力信息科技有限公司_202210322437.1

一种基于深度语义感知图卷积网络的粤语谣言检测方法_四川大学_202210371266.1

龙图腾网&IPTOP

【发明授权】一种面向社交网络不规则短文本的粤语分词方法_西安交通大学_202011236593.3

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务