买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于word2vec模型构建词网的方法和装置_浪潮云信息技术股份公司_202010703335.5 

申请/专利权人:浪潮云信息技术股份公司

申请日:2020-07-21

公开(公告)日:2024-04-05

公开(公告)号:CN111859924B

主分类号:G06F40/242

分类号:G06F40/242;G06F40/289;G06F40/30

优先权:

专利状态码:有效-授权

法律状态:2024.04.05#授权;2020.11.17#实质审查的生效;2020.10.30#公开

摘要:本发明提供一种基于word2vec模型构建词网的方法和装置,属于词网构建技术领域,本发明包括词网数据清洗功能、词网模型构建功能与词网数据动态添加功能。通过对科技产出的关键词、摘要、名称数据结合相关停用词进行切词分词处理等数据清洗处理形成基本词库,然后针对基本词库采取word2vec网络模型对数据进行编码以及空间定位操作,通过持续迭代训练将数据收敛,最终形成词网数据库。在已构建词网数据库的基础上,支持动态加入相关词的功能。通过对新词的关联属性与词网中已有词进行对比,并计算新词的空间向量平均值,得到新词在词网空间中的相对位置,最终实现词网数据的更新。

主权项:1.一种基于word2vec模型构建词网的方法,其特征在于,基于自然语言处理技术,经过对数据通过停用词、切词、词频统计一系列操作对数据进行清洗,通过word2vec网络模型对词进行挖掘和训练,结合词向量建立词与词间的关联关系,通过持续迭代不断丰富词网的网络结构,并且针对新进词,通过与词网比对更新词网;其中,(1)在词网数据清洗组件中,输入数据源采用科技产出数据,选取近十年的文本数据,统一格式后存入数据库进行统一处理,在数据库中对源数据的摘要以及关键词进行提取,利用jieba全模式切词,将摘要中所有的可以成词的词语扫描出来,并使用特定的关键词网进行更加细致的筛选,与数据关键词合并,得到相关联的字符组,引入停用词表对字符组停用词进行初步清洗,将初步清洗后的数据引入深度清洗流程,进行大小写规范,低频词筛除与替换,建立词组索引,清洗无效数据,将数据编码统计词频存入词网数据库,并组成清洗后的有效数据进行关联关系提取形成数组并划分训练集与测试集,将所有集合存入训练数据库;(2)在词网模型构建组件中,引入word2vec网络模型中的CBOW模型,将高维度的one-hot词向量嵌入到低维并赋予其语义相似性,运用CBOW类train的核心方法,实现了CBOW的前向传播过程和反向传播算法;CBOW类train的核心方法需要传入中心词的one-hot向量和它one-hot向量表示的语境列表,传入one-hot向量事实上也就是传入索引值;运用设置的初始嵌入向量维度,关联词范围最小值与最大值,负采样数以及迭代次数,构建序贯模型,添加嵌入层,这些样本将以id的形式输入到以很小的随机权重值初始化的通用嵌入层,每个样本都会被嵌入层转化为特定形式的空间向量;之后将每一段样本生成的向量矩阵送入lambda层,计算所有向量平均值;均值数据再经过激活函数为softmax的全连接层,将输出向量的最大值以概率形式标注得到具有最大概率值的目标词以便提取这些目标词的空间位置;(3)词网数据动态添加组件中,新兴词汇入网在已得到词网中根据新新词汇与新兴词汇出现的文本进行之前的数据处理操作,完成数据清洗与分词采取词向量平均的方式将生僻词与新兴词汇动态添加进词网数据库,丰富词网容量;首先对新进数据进行关键词提取,得到相关联的词组,在已经训练好的词网数据中找到该关联词组的位置,并对已出现密集度高的关键词进行空间向量平均值计算,得到新兴词汇在空间中的相对位置,并根据此相对位置确定新兴词汇所在领域,并与输入领域进行对比,若无问题,将此词汇与词汇相对位置存入词网数据,若领域有偏差则重新提取高密度关键词阈值;全部词汇写入完成后将数据归档,结束此组件。

全文数据:

权利要求:

百度查询: 浪潮云信息技术股份公司 一种基于word2vec模型构建词网的方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。