买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于doc2vec的文本匹配方法、装置及电子设备_上海硬通网络科技有限公司_202010492263.4 

申请/专利权人:上海硬通网络科技有限公司

申请日:2020-06-02

公开(公告)日:2024-03-15

公开(公告)号:CN111708863B

主分类号:G06F16/33

分类号:G06F16/33

优先权:

专利状态码:有效-授权

法律状态:2024.03.15#授权;2020.10.27#实质审查的生效;2020.09.25#公开

摘要:本申请公开了一种基于doc2vec的文本匹配方法、装置及电子设备,所述方法包括:根据doc2vec模型,对目标文本集中任一目标文本进行n次向量转换,获取目标向量集;其中,目标向量集包括n个目标向量;将各目标文本对应的各目标向量集与根据输入文本生成的句子向量做相似度匹配,提取与句子向量匹配度最高的目标向量集对应的目标文本作为匹配文本。与现有技术相比,本申请通过对目标文本做n次向量生成后,将根据各目标文本形成的各目标向量集与输入文本生成的句子向量做相似度匹配从而确定匹配文本的方式,降低非确定性输出的目标向量的影响,使得利用doc2vec在多个目标文本中匹配最优文本时,不会因为doc2vec种子的随机性导致误匹配。

主权项:1.一种基于doc2vec的文本匹配方法,其特征在于,包括:根据doc2vec模型,对目标文本集中各目标文本均进行n次向量转换,获取各目标向量集;其中,所述目标向量集包括n个目标向量,n的取值范围为10~20;在所述根据doc2vec模型,对数据库的目标文本集中任一目标文本进行n次向量转换之前,还包括:对输入文本进行文本分类,确定所述输入文本在数据库中对应的文本类别后,提取在所述文本类别下的目标文本集;对所述输入文本进行文本分类,确定所述输入文本在所述数据库中对应的文本类别,包括:将所述输入文本与所述输入文本的终端预存的历史文本集进行文本匹配,获取所述历史文本集中与所述输入文本的相似度最高的历史文本;其中,所述历史文本通过获取所述终端的历史输入记录生成;根据与所述输入文本的相似度最高的历史文本在所述数据库中对应的文本类别,确定所述输入文本的文本类别;将各所述目标向量集与根据输入文本生成的句子向量做相似度匹配,提取与所述句子向量匹配度最高的所述目标向量集对应的目标文本作为匹配文本;所述将各所述目标向量集与根据输入文本生成的句子向量做相似度匹配,提取与所述句子向量匹配度最高的所述目标向量集对应的目标文本作为匹配文本,包括:获取所述目标向量集的n个目标向量分别与所述句子向量进行相似度匹配后的n个分值,按分值高低赋予不同权重,其中,分值越高,赋予的权重越高;对所述n个分值进行加权平均,生成匹配分值;从各所述目标文本对应的各所述匹配分值中获取最大的匹配分值,提取与所述最大的匹配分值对应的目标文本作为所述匹配文本;对n个分值进行加权平均,包括:提取所述n个分值中大于预设阈值的k个分值进行加权平均,生成所述匹配分值,其中,k≤n。

全文数据:

权利要求:

百度查询: 上海硬通网络科技有限公司 基于doc2vec的文本匹配方法、装置及电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。