买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于Word2Vec模型的WordNet中词语相似度计算方法_曲阜师范大学_201911128515.9 

申请/专利权人:曲阜师范大学

申请日:2019-11-18

公开(公告)日:2023-06-09

公开(公告)号:CN111027315B

主分类号:G06F40/284

分类号:G06F40/284;G06F40/30;G06F40/247

优先权:

专利状态码:有效-授权

法律状态:2023.06.09#授权;2020.05.12#实质审查的生效;2020.04.17#公开

摘要:本发明公开了一种基于Word2Vec模型的WordNet中词语相似度计算方法,该相似度计算方法先从WordNet名词数据集data.noun中提取标号集,然后使用Word2Vec模型训练提取的标号集,然后使用Word2Vec模型从训练过的标号集中提取计算用单词对所对应的标号,然后基于提取的计算用单词对所对应的标号生成标号的词向量,最后基于该词向量计算词语的相似度。该相似度计算方法能够高效准确地计算词语相似度,受人的主观影响比较小,能很好地反映客观事实。

主权项:1.一种相似度计算方法,该计算方法用于计算WordNet中词语的相似度,其特征在于,所述计算方法包括如下步骤:步骤1:从WordNet名词数据集data.noun中提取标号集;所述WordNet名词数据集data.noun包含多个原始数据行,每个所述原始数据行对应一同义词集,每个所述原始数据行的具体形式为{a1b1c1d1c2e1c2e2},其中,a1为头标号,b1为第一同义词集,c1为与第一同义词集b1有上位关系的关系符号表示,d1为上位词集标号,c2为与第一同义词集b1有下位关系的关系符号表示,e1、e2均为下位词集标号;步骤2:使用Word2Vec模型训练上述步骤1中提取的所述标号集;步骤3:选取计算用单词对,使用Word2Vec模型从经上述步骤2训练过的所述标号集中提取该计算用单词对所对应的标号;步骤4:基于上述步骤3中提取的所述计算用单词对所对应的标号,使用Word2Vec模型生成标号的词向量;步骤5:基于上述步骤4中所生成的所述词向量,使用Word2Vec模型计算词语的相似度;其中,所述步骤1进一步包括如下步骤:步骤1.1:针对所述多个原始数据行中的一个原始数据行进行提取,依次提取该一个原始数据行的头标号a1、上位词集标号d1、下位词集标号e1及下位词集标号e2;步骤1.2:将上述步骤1.1中提取的各标号汇集在一起,获得中间数据行{a1d1e1e2};步骤1.3:对上述步骤1.2中获得的所述中间数据行{a1d1e1e2}进行如此处理:除头标号a1外,在上位词集标号d1、下位词集标号e1及下位词集标号e2的后面均插入一头标号a1,得到一标号集数据行{a1d1a1e1a1e2a1};步骤1.4:针对所述多个原始数据行中的其余原始数据行重复上述步骤1.1至步骤1.3,分别得到其各自对应的一标号集数据行{a1d1a1e1a1e2a1},最终,共获得多个标号集数据行;步骤1.5:将上述步骤1.4中最终获得的所述多个标号集数据行汇集在一起,获得所述标号集。

全文数据:

权利要求:

百度查询: 曲阜师范大学 一种基于Word2Vec模型的WordNet中词语相似度计算方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。