买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于搜索语句的搜索方法、装置、设备及存储介质_平安国际智慧城市科技股份有限公司_202210081578.9 

申请/专利权人:平安国际智慧城市科技股份有限公司

申请日:2022-01-24

公开(公告)日:2024-04-23

公开(公告)号:CN114329225B

主分类号:G06F16/9535

分类号:G06F16/9535;G06F16/9538;G06F40/194;G06F40/284;G06F40/295;G06F40/30;G06F18/22

优先权:

专利状态码:有效-授权

法律状态:2024.04.23#授权;2022.04.29#实质审查的生效;2022.04.12#公开

摘要:本发明涉及大数据领域,公开了一种基于搜索语句的搜索方法、装置、设备及存储介质。所述方法包括:获取搜索语句和文本数据集,分别对其分词以及编码,得到至少一个搜索关键词向量和多个文本分词向量,对向量进行命名实体识别和语义角色预测;基于搜索关键词向量和文本分词向量,计算搜索语句与文本数据集中每条文本数据之间的文本相似度,并分别基于命名实体识别和语义角色预测的结果,计算其实体相似度和语义角色相似度,进而根据文本相似度、语义角色相似度以及实体相似度计算其全局相似度;按照全局相似度的大小对文本数据对应的网页链接降序显示。本发明通过文本维度、实体维度以及语义角色维度对搜索语句进行数据匹配,搜索更加准确。

主权项:1.一种基于搜索语句的搜索方法,其特征在于,所述基于搜索语句的搜索方法包括:获取用户输入的搜索语句和预设搜索资源池中的文本数据集,分别对所述搜索语句和所述文本数据集中的每条文本数据进行分词,以及分别对分词的结果进行向量化编码,分别得到至少一个搜索关键词向量和多个文本分词向量;对所述至少一个搜索关键词向量和所述多个文本分词向量进行命名实体识别;对所述至少一个搜索关键词向量和所述多个文本分词向量进行语义角色预测;基于所述至少一个搜索关键词向量和所述多个文本分词向量,计算所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度,并基于命名实体识别的结果,计算所述搜索语句与所述文本数据集中每条文本数据之间的实体相似度,以及基于语义角色预测的结果,计算所述搜索语句与所述文本数据集中每条文本数据之间的语义角色相似度;基于预设的计算规则,对所述搜索语句与所述文本数据集中每条文本数据之间的文本相似度、语义角色相似度以及实体相似度中的至少一种相似度进行计算,得到所述搜索语句与所述文本数据集中每条文本数据之间的全局相似度;获取每条所述文本数据对应的网页链接,按照所述全局相似度的大小,对所述网页链接进行降序排序,并将排序结果在终端输出显示;所述对所述至少一个搜索关键词向量和所述多个文本分词向量进行命名实体识别包括:获取预设的初始训练数据集,并基于所述至少一个搜索关键词向量和所述多个文本分词向量构建待识别数据集;以所述初始训练数据集为第一轮训练数据集,对预设的命名实体识别模型进行第一轮监督训练;基于第一轮监督训练后的命名实体识别模型对所述待识别数据集进行命名实体识别与标注,得到弱标注的待识别数据集;从本轮得到的弱标注的待识别数据集中提取子集,并将该子集加入所述初始训练数据集中,得到第二轮训练数据集,并基于第二轮训练数据集对第一轮监督训练后的命名实体识别模型再次进行监督训练,如此进行多轮训练,直至所述命名实体识别模型收敛时,输出当前轮次中待识别数据集的实体识别与标注的结果;所述对所述至少一个搜索关键词向量和所述多个文本分词向量进行语义角色预测包括:基于预设的词性分析模型,依次对目标向量进行正序词性分析和逆序词性分析,并根据分析的结果确定目标向量对应分词的词性类型,其中,所述目标向量包括所述至少一个搜索关键词向量和所述多个文本分词向量;根据所述目标向量对应分词的词性类型,在预设的词性向量库中查找所述目标向量对应分词的词性向量;基于预设的角色分析模型,依次对所述目标向量对应分词的词性向量进行正序语义角色分析和逆序语义角色分析,并根据分析的结果确定所述搜索关键词向量的语义角色类型和每个所述文本分词向量的语义角色类型。

全文数据:

权利要求:

百度查询: 平安国际智慧城市科技股份有限公司 基于搜索语句的搜索方法、装置、设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。