申请/专利权人:国网山西省电力公司晋城供电公司
申请日:2021-07-30
公开(公告)日:2024-03-08
公开(公告)号:CN113609844B
主分类号:G06F40/242
分类号:G06F40/242;G06F40/284;G06F16/35;G06Q50/06
优先权:
专利状态码:有效-授权
法律状态:2024.03.08#授权;2021.11.23#实质审查的生效;2021.11.05#公开
摘要:本发明涉及人工智能领域,具体涉及一种基于混合模型和聚类算法的电力专业词库构建方法。将电力文本和平行语料进行预处理,再通过分词模型进行分词,其中互信息和左右熵算法和TextRank算法对结巴分词结果进行词语组合,TF‑IDF算法和Word2Vec词聚类算法对结巴分词结果提取文本关键词,信息熵分词算法直接对文本分词,上述结果汇总、对比得到特征语料词;从特征语料词中挑选电力专业词汇作为种子词;同时用导出来的电力文本词库作为候选词对电力文本分词,然后使用word2vec算法把词变为词向量;聚类得到相似词,然后规则过滤获得电力专业词库。本发明使用一个聚类模型能够过滤掉大部分非电力领域专业词语,专业词语较为完整。
主权项:1.一种基于混合模型和聚类算法的电力专业词库构建方法,其特征在于,包括以下步骤:步骤一、将电力文本和非电力专业的平行语料进行预处理,去掉空格、标点符号和无实体意义词,获得合格输入文本数据;步骤二、对电力文本和平行语料通过分词模型进行分词,获得电力文本词库和平行语料词库,电力文本词库通过与平行语料词库对比得到特征语料词;步骤三、从特征语料词中挑选电力专业词汇作为种子词;同时用步骤二导出来的电力文本词库对电力文本分词,然后使用word2vec算法把词变为词向量;步骤四、词向量和种子词输入聚类模型,聚类得到相似词,然后规则过滤掉非电力专业词汇,最终获得电力专业词库;步骤二中,所述分词模型中,基于Jieba分词并通过TF-IDF统计模型、Word2Vec词聚类模型、TextRank模型和左右信息熵和互信息熵模型得到词集1,通过频数、凝固度和自由度来建立词集2,最后合并两个词集得到最终词库。
全文数据:
权利要求:
百度查询: 国网山西省电力公司晋城供电公司 一种基于混合模型和聚类算法的电力专业词库构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。