买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于随机游走的词义排歧和词义学习方法_广东外语外贸大学_201910976701.1 

申请/专利权人:广东外语外贸大学

申请日:2019-10-15

公开(公告)日:2024-01-30

公开(公告)号:CN110750644B

主分类号:G06F16/35

分类号:G06F16/35;G06F40/30;G06F18/2411;G06F18/214

优先权:

专利状态码:有效-授权

法律状态:2024.01.30#授权;2020.02.28#实质审查的生效;2020.02.04#公开

摘要:本发明涉及自然语言处理技术领域,具体涉及一种基于随机游走的词义排歧和词义学习方法,其特征在于:采用如下步骤:步骤一、采用随机游走方法指对待标数据进行分类;步骤二、判断是否需要构造新类,若需要,则构造一个新类并考虑是否和以前的类进行合并;然后再进行随机游走分类。如果没有必要产生新类,则意味着结束;步骤三、对未标注的数据进行词义判定;它将词义排岐和词义学习抽象为一个更一般的基于部分指导的词义学习问题,为词义学习增加一部分指导,同时为词义排岐减少一部分指导;其从应用上说,有助于提高词义处理系统的鲁棒性、有助于建造义项级别的词汇资源,包括检测现有词汇语义资源的一致性、补充和丰富现有的词汇资源。

主权项:1.一种基于随机游走的词义排歧和词义学习方法,其特征在于:采用如下步骤:步骤一、采用随机游走方法指对待标数据进行分类;具体方法如下:输入:义项G,包含数据集X,标记数据XL及其标记YL和非标记数据XU;M0为初始义项-数据间的成员矩阵;输出:M为最终义项-数据间的成员矩阵;XU的标记YU;1初始化矩阵M0;2M=RMM0;3对于任一i,其中初始化时,对于矩阵M0,其中标记数据对应的义项位置设为1,其余义项位置以及非标记数据均设为0,RMM0可用下面的公式1表示:Mt=cWMt-1+1-cM01其中:W是邻接矩阵,c是参数概率;步骤一采用基于向量内积的方法来定义数据之间的相似度;步骤二、判断是否需要构造新类,若需要,则构造一个新类并考虑是否和以前的类进行合并,然后再进行随机游走分类;如果没有必要产生新类,则意味着结束;步骤二中根据分类结果的清晰度来判断是否需要构造新类;判断是否要构造新类,需要先构造一个新类,然后判断该类在整个分类体系中是否有必要构造,种子数据是为新类选择的,选择那些在现有分类中处于模糊状态的数据点;根据该数据点对应不同义项的概率来选择,选择最大概率与第二大概率差别最小的数据作为种子,选择种子数据后,把每一个种子数据作为训练数据,运行随机游走方法,我们就得到一个新的分类结果,如果这个分类结果比加入新类前的分类结果清晰,这个新类的产生就是必要的;否则就是不必要的;根据矩阵M定义,以目标函数来刻划一个分类结果的清晰度,其定义如公式 其中,K是义类的个数,N是所有数据包括标记和未标数据的个数,Mi,j指第j个数据属于第i个义类的概率;当Mi,j趋近0或1的时候,公式的值也趋近于0,这意味着当数据要么属于某义类,要么不属于某义类,其值就越低,反之,当数据介于某些义类之间,公式的值就越高;步骤三、对未标注的数据进行词义判定。

全文数据:

权利要求:

百度查询: 广东外语外贸大学 一种基于随机游走的词义排歧和词义学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。