【发明授权】一种基于混合模型和聚类算法的电力专业词库构建方法_国网山西省电力公司晋城供电公司_202110874173.6

申请/专利权人：国网山西省电力公司晋城供电公司

申请日：2021-07-30

公开（公告）日：2024-03-08

公开（公告）号：CN113609844B

主分类号：G06F40/242

分类号：G06F40/242;G06F40/284;G06F16/35;G06Q50/06

优先权：

专利状态码：有效-授权

法律状态：2024.03.08#授权;2021.11.23#实质审查的生效;2021.11.05#公开

摘要：本发明涉及人工智能领域，具体涉及一种基于混合模型和聚类算法的电力专业词库构建方法。将电力文本和平行语料进行预处理，再通过分词模型进行分词，其中互信息和左右熵算法和TextRank算法对结巴分词结果进行词语组合，TF‑IDF算法和Word2Vec词聚类算法对结巴分词结果提取文本关键词，信息熵分词算法直接对文本分词，上述结果汇总、对比得到特征语料词；从特征语料词中挑选电力专业词汇作为种子词；同时用导出来的电力文本词库作为候选词对电力文本分词，然后使用word2vec算法把词变为词向量；聚类得到相似词，然后规则过滤获得电力专业词库。本发明使用一个聚类模型能够过滤掉大部分非电力领域专业词语，专业词语较为完整。

主权项：1.一种基于混合模型和聚类算法的电力专业词库构建方法，其特征在于，包括以下步骤：步骤一、将电力文本和非电力专业的平行语料进行预处理，去掉空格、标点符号和无实体意义词，获得合格输入文本数据；步骤二、对电力文本和平行语料通过分词模型进行分词，获得电力文本词库和平行语料词库，电力文本词库通过与平行语料词库对比得到特征语料词；步骤三、从特征语料词中挑选电力专业词汇作为种子词；同时用步骤二导出来的电力文本词库对电力文本分词，然后使用word2vec算法把词变为词向量；步骤四、词向量和种子词输入聚类模型，聚类得到相似词，然后规则过滤掉非电力专业词汇，最终获得电力专业词库；步骤二中，所述分词模型中，基于Jieba分词并通过TF-IDF统计模型、Word2Vec词聚类模型、TextRank模型和左右信息熵和互信息熵模型得到词集1，通过频数、凝固度和自由度来建立词集2，最后合并两个词集得到最终词库。

全文数据：

权利要求：

百度查询：国网山西省电力公司晋城供电公司一种基于混合模型和聚类算法的电力专业词库构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

下一篇：一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

相关技术

管带纠偏装置_武汉巨沣工程技术有限公司_202322765867.3

一种吸音降噪窗帘面料_江苏洲际家居科技有限公司_202322672664.X

涨紧机构及包含该机构的内模组件_江苏江扬建材机械有限公司_202322625490.1

一种精密小磨床用物料固定装置_昆山法尔霆机电科技有限公司_202322612017.X

无功补偿柜柜体_广东澳江电气有限公司_202322547060.2

一种危废行业可快速更换的水封出渣系统_渤瑞环保股份有限公司_202322016372.0

电机转子定位工装_洛阳航特机电技术有限公司_202322258362.8

用于电厂冷却塔内壁及淋水构架的修复涂层结构及冷却塔_北京易晟元环保工程有限公司_202321781851.5

磨豆压力咖啡机自动压粉机构_浙江比依电器股份有限公司_202322521989.8

一种纺织纱线缠绕架_江苏金銮纺织科技股份有限公司_202322120043.0

一种新型带束层鼓防错灯标装置_赛轮(沈阳)轮胎有限公司_202322401683.9

一种不锈钢带输送机构_佛山市南海区东励森金属制品有限公司_202322463638.6

龙图腾网&IPTOP

【发明授权】一种基于混合模型和聚类算法的电力专业词库构建方法_国网山西省电力公司晋城供电公司_202110874173.6

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务