买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于语义文档表达的文本相似度量方法_山东山大鸥玛软件股份有限公司_202010256057.3 

申请/专利权人:山东山大鸥玛软件股份有限公司

申请日:2020-04-02

公开(公告)日:2020-07-24

公开(公告)号:CN111444700A

主分类号:G06F40/194(20200101)

分类号:G06F40/194(20200101);G06F40/289(20200101);G06F40/35(20200101);G06N3/04(20060101)

优先权:

专利状态码:失效-发明专利申请公布后的驳回

法律状态:2022.02.25#发明专利申请公布后的驳回;2020.08.18#实质审查的生效;2020.07.24#公开

摘要:本发明提供一种基于语义文档表达的文本相似度量方法,包括:获取待比较的两个文本,对每个文本的句子分别进行分词预处理;将两个文本预处理后的词汇进行映射,生成词向量;通过卷积神经网络模型CNN和双向长短时记忆循环网络模型BiLSTM对每个文本均进行处理,提取出每个文本的CNN句子语义特征和BiLSTM句子语义特征;对每个文本的每个句子语义特征均通过注意机制模型捕获关注特征,生成权重向量,计算权重和,生成CNN语义表示向量和BiLSTM语义表示向量,将每个文本各自的两个语义表示向量分别进行拼接,生成词汇语义关联特征向量;根据两个文本的词汇语义关联特征向量构建相似度计算函数,计算出两个文本句子的相似度。

主权项:1.一种基于语义文档表达的文本相似度量方法,其特征在于,包括如下步骤:S1.获取待比较的第一文本及第二文本,对每个文本的句子分别进行分词预处理,并去除标点符号;S2.将第一文本及第二文本预处理后得到每个词进行映射,生成词向量,所述词向量与卷积神经网络模型CNN及双向长短时记忆循环网络模型BiLSTM匹配;S3.通过卷积神经网络模型CNN和双向长短时记忆循环网络模型BiLSTM对每个文本均进行处理,提取出每个文本的CNN句子语义特征向量和BiLSTM句子语义特征向量;S4.针对每个文本的每个句子语义特征均通过注意机制模型捕获关注特征,生成权重向量,计算权重和,生成CNN语义表示向量和BiLSTM语义表示向量,再将每个文本各自的两个语义表示向量分别进行拼接,生成词汇语义关联特征向量;S5.根据第一文本及第二文本的文本的词汇语义关联特征向量构建相似度计算函数,计算出第一文本及第二文本句子的相似度。

全文数据:

权利要求:

百度查询: 山东山大鸥玛软件股份有限公司 一种基于语义文档表达的文本相似度量方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。