买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种面向社交网络不规则短文本的粤语分词方法_西安交通大学_202011236593.3 

申请/专利权人:西安交通大学

申请日:2020-11-09

公开(公告)日:2024-04-12

公开(公告)号:CN112307759B

主分类号:G06F40/289

分类号:G06F40/289;G06F40/284;G06F40/242;G06F40/216;G06F40/126;G06F16/951;G06F16/955;G06Q50/00

优先权:

专利状态码:有效-授权

法律状态:2024.04.12#授权;2021.02.23#实质审查的生效;2021.02.02#公开

摘要:本发明涉及一种面向社交网络不规则短文本的粤语分词方法,属于自然语言处理领域。本发明的面向粤语语境的短文本清洗和分词的方法,具体包括四个功能模块,分别为支持用户自定义的短文本清洗模块、粤语联合语料库构建模块、短文本扫描和初步切分模块、未登录词处理及分词结果输出模块。本发明解决了现有技术中没有考虑到面向社交网络不规则短文本的粤语分词方法,提出了满足用户自身不同应用场景的个性化数据清洗模型,建立了面向社交网络的粤语联合语料库,设计了基于构建的联合语料库的分词模型,同时综合考虑了文本中出现未登录词的处理方案,提出对应的综合处理模型,最终在连登论坛平台爬取的短文本数据中验证,分词准确率达87%。

主权项:1.一种面向社交网络不规则短文本的粤语分词方法,其特征在于,包括如下步骤:步骤1,利用支持用户自定义的短文本清洗模块对原始语料进行编码统一,然后基于用户文本清洗需求进行后续的数据清洗;步骤2,利用粤语联合语料库构建模块对语料库进行设计和更新,以得到适用于粤语语境的联合语料库;步骤3,基于步骤2得到的联合语料库,利用短文本扫描和初步切分模块对步骤1清洗后的文本进行词图扫描寻找成词情况,基于分词构造有向无环图;并利用动态规划进行逆向最大匹配,寻找最大概率路径下的切分组合,形成初步分词切分组合;步骤4,利用未登录词处理及分词结果输出模块对得到的初步分词切分组合进行判断,若切分词不为未登录词,则将其作为最终切分组合;若切分词为未登录词,则构建词汇模型,利用所述联合语料库训练得到的概率表,对未登录词进行序列标注后利用Viterbi算法进行求解,得到一个概率最大的分词序列,对待分词的句子重新组合,得到最终切分组合,最后根据用户对于输出结果形式的需求进行输出;其中,所述步骤3包括以下步骤:步骤3.1,对步骤1清洗后的文本进行词图扫描,生成句子中汉字所有可能成词情况;步骤3.2,在步骤3.1中得到所有的成词情况中,在句子中构造分词的有向无环图,对切分词a,b进行记录和标注,其中a代表分词起始的字,b为可能的分词终止的字;步骤3.3,利用步骤3.2切分好的词语,对该词语查找该词语在联合语料库中出现的频率,然后根据动态规划查找最大概率路径的方法,逆向匹配计算句子的最大概率,得到最大概率的切分组合,即初步分词切分组合;所述步骤3.1中,对步骤1清洗后的N个文本,依次按顺序读取,每一个短文本Si由m个字Zi,j组成,其中i代表短文本编号,j代表字的编号,实现对文本进一步的切分,基于联合语料库进行词图扫描,具体步骤如下:Step1:设置词典最长查找长度L;Step2:在短文本Si中从头遍历每一个字Zi,j,初试位置为Zi,1,随后在短文本Si中生成以Zi,1为开头的成词可能,即挑选Zi,jZi,j+1,在联合语料库中查找匹配,若查找到该匹配,则转step3,若不存在该匹配,则将Zi,1作为单字成词输出,遍历文本的指针后移,转到Step2;Step3:将Zi,j+3扩充到Zi,j+1Zi,j+2,将Zi,j+1Zi,j+2Zi,j+3在联合语料库中寻找匹配,若查找到该匹配,则转step4,若未找到该匹配,则将Zi,j+1Zi,j+2作为成词输出,遍历文本的指针后移,转到Step2;step4:继续向后扩充,直至Zi,j+m,使得Zi,j+1Zi,j+2…Zi,j+m在联合语料库中无法寻找到该匹配,则将Zi,j+1Zi,j+2…Zi,j+m-1作为成词输出,遍历文本的指针后移,转到Step2;所述步骤3.3中,利用有向无环图来表示各字从前到后的成词情况,利用a,b对切分词进行记录和标注,a为分词起始的字Zi,j,b为可能的分词终止的字Zi,j+p组成的集合;所述步骤3.3中,动态规划查找最大概率路径的方法,公式如下: P′zn=lgPzn2 W*=argminPZ4其中,公式1中zn表示出现的第n个词,freq[zn]表示该词词频,Pzn表示每一个词出现的概率等于该词词频除以所有词的词频之和,如果词频为0,则当做词频为1来处理;公式2中P′zn表示对Pzn取对数概率,即在每个词概率的基础上取对数;公式3中PZ为整体概率路径,即由z1,z2,z3,…,zn共同组成的概率路径,表示对每个词的概率进行叠乘,公式4表示最终对整体概率路径进行计算,因步骤二所取对数运算,所以对PZ求其最小值,得到可能性最大的路径对应的划分,作为分词结果。

全文数据:

权利要求:

百度查询: 西安交通大学 一种面向社交网络不规则短文本的粤语分词方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。