买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于混合模型和聚类算法的电力专业词库构建方法_国网山西省电力公司晋城供电公司_202110874173.6 

申请/专利权人:国网山西省电力公司晋城供电公司

申请日:2021-07-30

公开(公告)日:2024-03-08

公开(公告)号:CN113609844B

主分类号:G06F40/242

分类号:G06F40/242;G06F40/284;G06F16/35;G06Q50/06

优先权:

专利状态码:有效-授权

法律状态:2024.03.08#授权;2021.11.23#实质审查的生效;2021.11.05#公开

摘要:本发明涉及人工智能领域,具体涉及一种基于混合模型和聚类算法的电力专业词库构建方法。将电力文本和平行语料进行预处理,再通过分词模型进行分词,其中互信息和左右熵算法和TextRank算法对结巴分词结果进行词语组合,TF‑IDF算法和Word2Vec词聚类算法对结巴分词结果提取文本关键词,信息熵分词算法直接对文本分词,上述结果汇总、对比得到特征语料词;从特征语料词中挑选电力专业词汇作为种子词;同时用导出来的电力文本词库作为候选词对电力文本分词,然后使用word2vec算法把词变为词向量;聚类得到相似词,然后规则过滤获得电力专业词库。本发明使用一个聚类模型能够过滤掉大部分非电力领域专业词语,专业词语较为完整。

主权项:1.一种基于混合模型和聚类算法的电力专业词库构建方法,其特征在于,包括以下步骤:步骤一、将电力文本和非电力专业的平行语料进行预处理,去掉空格、标点符号和无实体意义词,获得合格输入文本数据;步骤二、对电力文本和平行语料通过分词模型进行分词,获得电力文本词库和平行语料词库,电力文本词库通过与平行语料词库对比得到特征语料词;步骤三、从特征语料词中挑选电力专业词汇作为种子词;同时用步骤二导出来的电力文本词库对电力文本分词,然后使用word2vec算法把词变为词向量;步骤四、词向量和种子词输入聚类模型,聚类得到相似词,然后规则过滤掉非电力专业词汇,最终获得电力专业词库;步骤二中,所述分词模型中,基于Jieba分词并通过TF-IDF统计模型、Word2Vec词聚类模型、TextRank模型和左右信息熵和互信息熵模型得到词集1,通过频数、凝固度和自由度来建立词集2,最后合并两个词集得到最终词库。

全文数据:

权利要求:

百度查询: 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。