【发明授权】一种基于BTM主题模型和Doc2vec的文本相似度计算方法_西北工业大学_202110824750.0

导航：龙图腾网> 最新专利技术> 一种基于BTM主题模型和Doc2vec的文本相似度计算方法_西北工业大学_202110824750.0

申请/专利权人：西北工业大学

申请日：2021-07-21

公开（公告）日：2024-03-12

公开（公告）号：CN113591473B

主分类号：G06F40/289

分类号：G06F40/289;G06F18/22;G06N3/04;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.03.12#授权;2021.11.19#实质审查的生效;2021.11.02#公开

摘要：本发明公开了一种基于BTM主题模型和Doc2vec的文本相似度计算方法，首先进行数据预处理与基础模型训练，使用大规模语料库对基础Doc2vec模型进行训练，对待检测的文本数据，进行分词处理，用于下一阶段Doc2vec模型的数据输入；其次进行模型的数据训练处理，使用分词后的数据对Doc2vec模型进行训练，得到文本向量集合，同时使用BTM主题模型对待检测文本数据进行训练，得到文本主题集合。最后进行数据相似度的计算，在文本向量集合基础上，结合文本主题信息，得到主题向量集合，将文本向量与主题向量进行融合得到表征数据的距离向量，针对距离向量使用余弦相似度计算公式计算得到数据相似度值。本发明提出的检测模型提升了计算效率与文本之间相似度计算的准确度。

主权项：1.一种基于BTM主题模型和Doc2vec的文本相似度计算方法，其特征在于，包括以下步骤：步骤1：模型定义与数据预处理；首先对如表1所示的基础Doc2vec模型参数进行定义，再使用语料库对Doc2vec基础模型进行训练；对于待检测的文本数据d{d1,d2,...,dn}，使用分词工具，对待检测文本数据进行分词处理，处理后的数据项用于进行下一阶段的模型训练处理；表1Doc2vec基础模型参数步骤2：模型训练；使用处理后的数据项对经过语料库训练后的Doc2vec模型再次进行训练，得到数据的文本向量集合{vd1,vd2,...,vdn}；构建BTM主题模型，使用BTM主题模型对待检测文本数据进行文本主题信息的检测，得到文本主题数据集合{t1,t2,...,tn}；步骤3：相似度计算；在文本向量集合的基础上，结合文本主题数据集合进行向量数据筛选，得到主题向量集合，随后将主题向量信息与文本向量信息结合，计算得到文本相似度，相似度计算的具体过程如下：步骤3-1：对每个文本主题中的高频词进行权重标注，将高频词出现的概率设定为主题权重，并且与文本向量集合中对应该文本主题的文本向量进行结合，得到主题向量集合，计算公式如下所示：其中，vdi表示该文本主题的向量表示，表示主题权重，h为主题向量总数，m为主题向量序号；步骤3-2：使用式2将文本向量与主题向量相结合，用两个向量之间的的距离来表征数据项的特征,disvdi,vti＝|vdi-vti|2步骤3-3：针对两个数据项的文本向量与主题向量，使用余弦相似度计算公式，计算公式如式3：得到两个文本数据项之间的相似度值。

全文数据：

权利要求：

百度查询：西北工业大学一种基于BTM主题模型和Doc2vec的文本相似度计算方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种带角度弹性垫圈的热处理方法及热处理装置_贵州航天精工制造有限公司_202111464284.6

下一篇：光催化装置嵌入沉砂池协同降解辣椒素污水与除砂_山东建筑大学_202111505610.3

相关技术

一种带角度弹性垫圈的热处理方法及热处理装置_贵州航天精工制造有限公司_202111464284.6

光催化装置嵌入沉砂池协同降解辣椒素污水与除砂_山东建筑大学_202111505610.3

一种风机通风量检测方法及装置_北京农业信息技术研究中心_202110665511.5

具有高吞吐量的多反射质谱仪_莱克公司_202011284023.1

用于运行机动车的方法、调节装置和机动车_奥迪股份公司_202110617439.9

帏中香风味纸张的制备方法_扬州市祥华新材料科技有限公司_202211345365.9

一种外导体压接装置_江苏博之旺自动化设备有限公司_202111235070.1

一种特殊螺纹上扣扭矩的分类识别方法及识别设备_中国石油天然气股份有限公司_202110576266.0

基于数字镜像的变电站自动化设备状态诊断方法和系统_北京四方继保工程技术有限公司_202210022507.1

一种富氦气藏区带的评价方法、装置、设备及介质_中国石油天然气股份有限公司_202311208279.8

基于对抗样本的人体康复运动数据增强方法_大连海事大学_202110864746.7

验证转化回传数据方法、装置、计算机设备和存储介质_上海数禾信息科技有限公司_202311042515.3

龙图腾网&IPTOP

【发明授权】一种基于BTM主题模型和Doc2vec的文本相似度计算方法_西北工业大学_202110824750.0

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务