【发明授权】一种基于word2vec模型构建词网的方法和装置_浪潮云信息技术股份公司_202010703335.5

导航：龙图腾网> 最新专利技术> 一种基于word2vec模型构建词网的方法和装置_浪潮云信息技术股份公司_202010703335.5

申请/专利权人：浪潮云信息技术股份公司

申请日：2020-07-21

公开（公告）日：2024-04-05

公开（公告）号：CN111859924B

主分类号：G06F40/242

分类号：G06F40/242;G06F40/289;G06F40/30

优先权：

专利状态码：有效-授权

法律状态：2024.04.05#授权;2020.11.17#实质审查的生效;2020.10.30#公开

摘要：本发明提供一种基于word2vec模型构建词网的方法和装置，属于词网构建技术领域，本发明包括词网数据清洗功能、词网模型构建功能与词网数据动态添加功能。通过对科技产出的关键词、摘要、名称数据结合相关停用词进行切词分词处理等数据清洗处理形成基本词库，然后针对基本词库采取word2vec网络模型对数据进行编码以及空间定位操作，通过持续迭代训练将数据收敛，最终形成词网数据库。在已构建词网数据库的基础上，支持动态加入相关词的功能。通过对新词的关联属性与词网中已有词进行对比，并计算新词的空间向量平均值，得到新词在词网空间中的相对位置，最终实现词网数据的更新。

主权项：1.一种基于word2vec模型构建词网的方法，其特征在于，基于自然语言处理技术，经过对数据通过停用词、切词、词频统计一系列操作对数据进行清洗，通过word2vec网络模型对词进行挖掘和训练，结合词向量建立词与词间的关联关系，通过持续迭代不断丰富词网的网络结构，并且针对新进词，通过与词网比对更新词网；其中，（1）在词网数据清洗组件中，输入数据源采用科技产出数据，选取近十年的文本数据，统一格式后存入数据库进行统一处理，在数据库中对源数据的摘要以及关键词进行提取，利用jieba全模式切词，将摘要中所有的可以成词的词语扫描出来，并使用特定的关键词网进行更加细致的筛选，与数据关键词合并，得到相关联的字符组，引入停用词表对字符组停用词进行初步清洗，将初步清洗后的数据引入深度清洗流程，进行大小写规范，低频词筛除与替换，建立词组索引，清洗无效数据，将数据编码统计词频存入词网数据库，并组成清洗后的有效数据进行关联关系提取形成数组并划分训练集与测试集，将所有集合存入训练数据库；（2）在词网模型构建组件中，引入word2vec网络模型中的CBOW模型，将高维度的one-hot词向量嵌入到低维并赋予其语义相似性，运用CBOW类train的核心方法，实现了CBOW的前向传播过程和反向传播算法；CBOW类train的核心方法需要传入中心词的one-hot向量和它one-hot向量表示的语境列表，传入one-hot向量事实上也就是传入索引值；运用设置的初始嵌入向量维度，关联词范围最小值与最大值，负采样数以及迭代次数，构建序贯模型，添加嵌入层，这些样本将以id的形式输入到以很小的随机权重值初始化的通用嵌入层，每个样本都会被嵌入层转化为特定形式的空间向量；之后将每一段样本生成的向量矩阵送入lambda层，计算所有向量平均值；均值数据再经过激活函数为softmax的全连接层，将输出向量的最大值以概率形式标注得到具有最大概率值的目标词以便提取这些目标词的空间位置；（3）词网数据动态添加组件中，新兴词汇入网在已得到词网中根据新新词汇与新兴词汇出现的文本进行之前的数据处理操作，完成数据清洗与分词采取词向量平均的方式将生僻词与新兴词汇动态添加进词网数据库，丰富词网容量；首先对新进数据进行关键词提取，得到相关联的词组，在已经训练好的词网数据中找到该关联词组的位置，并对已出现密集度高的关键词进行空间向量平均值计算，得到新兴词汇在空间中的相对位置，并根据此相对位置确定新兴词汇所在领域，并与输入领域进行对比，若无问题，将此词汇与词汇相对位置存入词网数据，若领域有偏差则重新提取高密度关键词阈值；全部词汇写入完成后将数据归档，结束此组件。

全文数据：

权利要求：

百度查询：浪潮云信息技术股份公司一种基于word2vec模型构建词网的方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种天然气管道不停输开孔装置_盐城新奥燃气有限公司_202322202238.X

下一篇：一种用于负极材料粉尘除尘器_天津燃洁斯工业设备有限公司_202322051874.7

相关技术

一种天然气管道不停输开孔装置_盐城新奥燃气有限公司_202322202238.X

一种用于负极材料粉尘除尘器_天津燃洁斯工业设备有限公司_202322051874.7

电池壳清洗用旋转框架安装槽的限位结构_无锡金杨丸伊电子有限公司_202322328357.X

一种高效散热电源_广州市力为电子有限公司_202322175013.X

一种双卧轴连续式混凝土搅拌装置_广安金都混凝土有限公司_202322291527.1

一种火车集卡装卸装置_杭州奥拓机电股份有限公司_202322190678.8

一种组合式高低压配电柜_靖江市靖开电力电器有限公司_202322564432.2

一种具备快接功能的汽车线束_天津博尔特科技有限公司_202322504460.5

一种玉米种植用病虫害防治装置_黄金双_202322446508.1

一种叠瓦电池片检测用工装_江苏龙恒新能源有限公司_202322351795.8

一种耐泥沙高密封性水泵控制阀_国电龙达电力设备(天津)有限责任公司_202322437322.X

摄像头安装组件和应用其的仪表屏_深圳市航盛电子股份有限公司_202322569773.9

构建相关技术

主动安全网络及构建方法_北京北信源软件股份有限公司_202210505613.5

数据库应用界面自动构建方法_慧新全智工业互联科技(青岛)有限公司_202410022812.X

虚拟形象构建方法、装置、设备和存储介质_北京百度网讯科技有限公司_202310233774.8

以废旧轮胎构建的高速公路防撞结构_山东高速交建集团济南养护科技有限公司_202322225556.8

一种乳腺癌模型猪的构建方法及应用_南京启真基因工程有限公司_202110187956.7

一种卫星管理任务的构建方法及相关设备_北京航天驭星科技有限公司_202310124807.5

一种北方寒冷地区建筑屋顶水池防冻系统及其构建方法_中国建筑设计研究院有限公司_202311478224.9

一种数字化环境下可靠性构建方法_北京机电工程研究所_202011617960.4

一种慢性病临床决策支持系统及构建方法_盐城市第三人民医院_202311426483.7

一种构建植物miRNA遗传调控通路的方法_北京林业大学_202311097229.7

词相关技术

热词抑制_谷歌有限责任公司_201980034189.7

基于代表词对的RESTful API文档主题分布提取方法_浙江工业大学_202110570270.6

可定制的低延时命令词识别方法及装置_普强时代(珠海横琴)信息技术有限公司_202110865579.8

一种基于深度学习和词袋模型的闭环检测方法_北京工业大学_202110024649.7

一种自然语言文本和数学语言文本的混合词嵌入方法_华中师范大学_202210469691.4

一种针对语音关键词分类网络的对抗样本攻击方法_东南数字经济发展研究院_202011196711.2

一种基于词粒度的自然语言模型的训练方法与系统_智者四海(北京)技术有限公司_202110588758.1

多个唤醒词检测_亚马逊科技公司_202280058218.5

推荐联想词的方法、计算设备和存储介质_武汉星纪魅族科技有限公司_202410063758.3

一种热度递增的热词获取系统_北京睿企信息科技有限公司_202311300672.X

网相关技术

一种网片焊接装置_佛山市顺德区东博筛网贸易有限公司_202322254259.6

一种微网储能变流器_深圳亿兰科电气有限公司_202321913332.X

一种通电式山林防兽网_威海兴海源网具有限公司_202322125837.6

一种塑料网切割设备_江苏盛展新材料科技有限公司_202322110684.8

一种大型地网在线监测装置_云南标普电气检测技术有限公司_202322105205.3

一种网环生态护岸结构_中国电建集团华东勘测设计研究院有限公司_202322725836.5

一种车载以太网连接器_湖南徕木电子有限公司_202322392837.2

一种主机连网POS机连线系统_泉州蓝晶投资集团有限公司_202322641068.5

一种便于更换防尘网的百叶通风窗_靖江市瑞能空调设备有限公司_202322655098.1

一种新能源光伏用环保型环网开关设备_一仁电力设备有限公司_202311470892.7

龙图腾网&IPTOP

【发明授权】一种基于word2vec模型构建词网的方法和装置_浪潮云信息技术股份公司_202010703335.5

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务