买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】中文词库的构建方法、中文词库及应用_中南大学_202110310939.8 

申请/专利权人:中南大学

申请日:2021-03-23

公开(公告)日:2024-02-13

公开(公告)号:CN112989798B

主分类号:G06F40/211

分类号:G06F40/211;G06F40/284;G06F40/289

优先权:

专利状态码:有效-授权

法律状态:2024.02.13#授权;2021.07.06#实质审查的生效;2021.06.18#公开

摘要:本发明公开了一种中文词库的构建方法、中文词库及应用,方法包括:S1.1.对语料集进行预处理,将语料集中的每个句子划分为分句词,基于多叉树方法由所述分句词生成精简词词库;S1.2.计算所述精简词词库中词的完整性概率,构建细分领域精简词词库,所述细分领域精简词词库中的词为所述完整性概率小于预设阈值的词;S1.3.对于每个句子的分句词,以所述细分领域精简词词库中的词作为分界线,将所述分句词进行分割,以分割后得到词生成细分领域模式匹配词库。具有词库构建方便、高效,特征提取可靠等优点。

主权项:1.一种中文词库的构建方法,其特征在于,包括如下步骤:S1.1.对语料集进行预处理,将语料集中的每个句子划分为分句词,基于多叉树方法由所述分句词生成精简词词库;S1.2.计算所述精简词词库中词的完整性概率,构建细分领域精简词词库,所述细分领域精简词词库中的词为所述完整性概率小于预设阈值的词;S1.3.对于每个句子的分句词,以所述细分领域精简词词库中的词作为分界线,将所述分句词进行分割,以分割后得到词生成细分领域模式匹配词库;所述步骤S1.1包括:S1.1.1.通过正则表达式匹配方法除去语料集的句子中的预设不相关内容;S1.1.2.对语料集中的句子进行分割得到分句词,去重后生成分句词词库;S1.1.3.通过所述分句词词库中分句词之间的包含与被包含的层级对应关系构建多叉树,去重后生成多叉树词库;S1.1.4.从所述多叉树词库中选择满足预设标准的词,去重后生成精简词词库;步骤S1.1.4中,所述预设标准包括如下任一项:该词为所述多叉树根节点上的词;或者:该词为节点数大于1的多叉树根节点上的词;或者:该词为多叉树根节点上的词,且该词在语料集中出现次数大于1的词;或者:该词为多叉树根节点上的词作为完整的分句词,该完整的分句词不包含于其它分句词内,且该完整的分句词在语料集中出现次数大于1的词;步骤S1.2中所述完整性概率为,所述精简词词库中的词作为完整的分句词在所述语料集中出现的次数与其在所述语料集中出现的总次数的比值;所述完整的分句词指该词不包含在其它分句词内。

全文数据:

权利要求:

百度查询: 中南大学 中文词库的构建方法、中文词库及应用

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。