买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于长短时记忆网络的语义分析方法及系统_卓世未来(天津)科技有限公司_202410077058.X 

申请/专利权人:卓世未来(天津)科技有限公司

申请日:2024-01-19

公开(公告)日:2024-04-16

公开(公告)号:CN117610579B

主分类号:G06F40/30

分类号:G06F40/30;G06F40/284;G06N3/0442;G06N3/08;G06F18/25

优先权:

专利状态码:有效-授权

法律状态:2024.04.16#授权;2024.03.15#实质审查的生效;2024.02.27#公开

摘要:本发明涉及语义分析技术领域,具体涉及基于长短时记忆网络的语义分析方法及系统,该方法包括:通过收集不同各歧义词不同义项的语料构建各歧义词的语料库;根据各语句各词语在各义项中出现的频率构建词语在义项中的特征词权重;根据各义项各语句中义项词汇出现的次数以及词语在义项中的特征词权重得到语句的歧义性;根据语句中词语与歧义词之间的距离、词语在义项中的特征词权重以及语句的歧义性得到语句的义项特征向量;根据语句的义项特征向量以及语句中各词语的向量得到语句的融合矩阵;根据语句的融合矩阵采用LSTM神经网络输出歧义词的语义分类。本发明准确反映了语句与歧义词之间的关系,同时能够处理长文本内容的语义消歧。

主权项:1.基于长短时记忆网络的语义分析方法,其特征在于,该方法包括以下步骤:通过收集各歧义词不同义项的语料构建各歧义词的语料库,所述语料库包括该歧义词的各义项的语句;对于各歧义词的语料库,对语料库中的各语句进行分词、去停用词操作得到各词语;对于各义项各词语,根据词语在各义项中出现的频率构建词语在义项中的特征词权重系数;将词语在义项中的特征词权重系数与预设放大系数的乘积作为词语在义项中的特征词权重;根据词语在义项中的特征词权重得到义项的义项词汇;根据各义项各语句中义项词汇出现的次数以及词语在义项中的特征词权重构建语句的义项矩阵;根据语句的义项矩阵中各元素的分布情况得到语句的歧义性;对于语句中各词语,根据语句中词语与歧义词之间的距离得到语句中词语的距离权重;根据语句中各词语的距离权重、词语在义项中的特征词权重以及语句的歧义性得到语句对于义项的义项特征;将语句在各义项中的义项特征组成语句的义项特征向量;采用词嵌入技术得到语句中各词语的向量;根据语句的义项特征向量以及语句中各词语的向量得到语句的融合矩阵;根据语句的融合矩阵采用LSTM神经网络输出歧义词的语义分类;所述根据语句中各词语的距离权重、词语在义项中的特征词权重以及语句的歧义性得到语句对于义项的义项特征,包括:根据语句中的义项词汇的距离权重以及特征词权重得到语句对于义项的重要程度;计算语句的歧义性与重要程度的乘积;将语句中属于义项的义项词汇组成语句的词汇集合,计算语句的词汇集合中的元素数量与语句的词语数量的比值作为第一比值,计算语句的词汇集合中的元素数量与义项的义项词汇数量的比值作为第二比值,将所述第一比值与所述第二比值的乘积作为以自然常数为底数的指数函数的指数;将所述指数函数的计算结果与所述乘积的和值作为语句对于义项的义项特征;所述根据语句的义项特征向量以及语句中各词语的向量得到语句的融合矩阵,包括:将语句所有词语的向量组成大小的矩阵,其中r为语句中词语数量,m为义项数量;将所述矩阵与语句的义项特征向量进行融合得到大小的融合矩阵。

全文数据:

权利要求:

百度查询: 卓世未来(天津)科技有限公司 基于长短时记忆网络的语义分析方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。