买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于BTM主题模型和Doc2vec的文本相似度计算方法_西北工业大学_202110824750.0 

申请/专利权人:西北工业大学

申请日:2021-07-21

公开(公告)日:2024-03-12

公开(公告)号:CN113591473B

主分类号:G06F40/289

分类号:G06F40/289;G06F18/22;G06N3/04;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.03.12#授权;2021.11.19#实质审查的生效;2021.11.02#公开

摘要:本发明公开了一种基于BTM主题模型和Doc2vec的文本相似度计算方法,首先进行数据预处理与基础模型训练,使用大规模语料库对基础Doc2vec模型进行训练,对待检测的文本数据,进行分词处理,用于下一阶段Doc2vec模型的数据输入;其次进行模型的数据训练处理,使用分词后的数据对Doc2vec模型进行训练,得到文本向量集合,同时使用BTM主题模型对待检测文本数据进行训练,得到文本主题集合。最后进行数据相似度的计算,在文本向量集合基础上,结合文本主题信息,得到主题向量集合,将文本向量与主题向量进行融合得到表征数据的距离向量,针对距离向量使用余弦相似度计算公式计算得到数据相似度值。本发明提出的检测模型提升了计算效率与文本之间相似度计算的准确度。

主权项:1.一种基于BTM主题模型和Doc2vec的文本相似度计算方法,其特征在于,包括以下步骤:步骤1:模型定义与数据预处理;首先对如表1所示的基础Doc2vec模型参数进行定义,再使用语料库对Doc2vec基础模型进行训练;对于待检测的文本数据d{d1,d2,...,dn},使用分词工具,对待检测文本数据进行分词处理,处理后的数据项用于进行下一阶段的模型训练处理;表1Doc2vec基础模型参数 步骤2:模型训练;使用处理后的数据项对经过语料库训练后的Doc2vec模型再次进行训练,得到数据的文本向量集合{vd1,vd2,...,vdn};构建BTM主题模型,使用BTM主题模型对待检测文本数据进行文本主题信息的检测,得到文本主题数据集合{t1,t2,...,tn};步骤3:相似度计算;在文本向量集合的基础上,结合文本主题数据集合进行向量数据筛选,得到主题向量集合,随后将主题向量信息与文本向量信息结合,计算得到文本相似度,相似度计算的具体过程如下:步骤3-1:对每个文本主题中的高频词进行权重标注,将高频词出现的概率设定为主题权重,并且与文本向量集合中对应该文本主题的文本向量进行结合,得到主题向量集合,计算公式如下所示: 其中,vdi表示该文本主题的向量表示,表示主题权重,h为主题向量总数,m为主题向量序号;步骤3-2:使用式2将文本向量与主题向量相结合,用两个向量之间的的距离来表征数据项的特征,disvdi,vti=|vdi-vti|2步骤3-3:针对两个数据项的文本向量与主题向量,使用余弦相似度计算公式,计算公式如式3: 得到两个文本数据项之间的相似度值。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于BTM主题模型和Doc2vec的文本相似度计算方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。