买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种利用主元分析计算汉语词向量的方法_北京计算机技术及应用研究所;北京航天爱威电子技术有限公司_202110942291.6 

申请/专利权人:北京计算机技术及应用研究所;北京航天爱威电子技术有限公司

申请日:2021-08-17

公开(公告)日:2024-04-19

公开(公告)号:CN113627176B

主分类号:G06F40/284

分类号:G06F40/284;G06F17/16

优先权:

专利状态码:有效-授权

法律状态:2024.04.19#授权;2021.11.26#实质审查的生效;2021.11.09#公开

摘要:本发明涉及一种利用主元分析计算汉语词向量的方法,属于语言处理领域。本发明选择汉语中有代表性的词语,作为主元分析的基准;将汉字用数值组成的向量表示;用汉语词中的汉字点阵向量组合成词本身的合成向量,词也变换成数值向量形式;计算基准词汇的全部词的平均合成向量;基准词汇中各个词的合成向量减去平均合成向量后,互乘,得到词之间差异的协方差矩阵;得到协方差矩阵的特性;根据协方差矩阵特性,计算一个对词的合成向量进行变换的矩阵;对于任意汉语词的合成向量,减去平均合成向量后,乘以投影矩阵,得到词的词向量。本发明计算简单,可以避免汉语词向量化时常见的“未登录词”问题,在汉语的自然语言处理中具有重要的应用价值。

主权项:1.一种利用主元分析计算汉语词向量的方法,其特征在于,该方法包括如下步骤:S1、选择基准汉语词汇,选择汉语中有代表性的词语,作为主元分析的基准;S2、获取汉语词中每个汉字点阵向量,将汉字用数值组成的向量表示,便于计算机进一步处理;S3、计算各个汉语词的合成向量,用汉语词中的汉字点阵向量组合成词本身的合成向量,词也变换成数值向量形式;S4、计算基准词汇的平均合成向量,计算基准词汇的全部词的平均合成向量;S5、计算基准词汇的协方差矩阵,基准词汇中各个词的合成向量减去平均合成向量后,互乘,得到词之间差异的协方差矩阵;S6、计算协方差矩阵的本征值和本征向量,得到协方差矩阵的特性;S7、计算汉语词合成向量的投影矩阵,根据协方差矩阵特性,计算一个对词的合成向量进行变换的矩阵;S8、计算汉语词的词向量,对于任意汉语词的合成向量,减去平均合成向量后,乘以投影矩阵,得到词的词向量;其中,所述步骤S1具体包括:选择M个汉语词Wk,k=1,2,…,M,包括只有1个汉字的词,以及由多个汉字组成的词;所述步骤S2具体包括:获取词Wk中每个汉字Cki的点阵向量MCki,点阵大小为d×d,点阵中的元素取值为1和0;将每个汉字点阵的元素按行或列顺序排列成一个1行、D列的向量a1,a2,…,aD,D=d×d,其中,ai=1或ai=0,i=1,2,…,D;所述步骤S3具体包括:对于一个由n个字组成的汉语词Wk,词的合成向量MWk是词中各个汉字点阵向量MCki的加权和,MWk=w1×MCk1+w2×MCk2+…+wn×MCkn,每个汉字Cki的权重wi的计算方法为:

全文数据:

权利要求:

百度查询: 北京计算机技术及应用研究所;北京航天爱威电子技术有限公司 一种利用主元分析计算汉语词向量的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。