首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于语义分析的海量文本检索匹配方法_浙江大学_202410386961.4 

申请/专利权人:浙江大学

申请日:2024-04-01

公开(公告)日:2024-05-03

公开(公告)号:CN117972025A

主分类号:G06F16/33

分类号:G06F16/33;G06F40/30;G06F16/35;G06F18/22

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.05.21#实质审查的生效;2024.05.03#公开

摘要:本发明属于文本检索匹配技术领域,具体涉及一种基于语义分析的海量文本检索匹配方法,通过从检索平台的关联知识库中筛选出符合当前输入请求问题主题词的备选文本数据,并对备选文本数据按照共性进行组集划分,进而依据共性特征分组进行文本预处理,实现了将海量文本检索效率提升落脚在文本预处理上,由此借由提高文本预处理效率来提高信息检索效率,并在预处理后对文本数据进行层级类型解析,进而依据层级类型选择适配相似度算法,从而由适配相似度算法对文本数据进行语义匹配,实现了文本匹配的针对性操作,不仅能够提高匹配准确性和适应性,还有助于提高匹配的效率和性能,并减少计算资源的消耗。

主权项:1.一种基于语义分析的海量文本检索匹配方法,其特征在于,包括以下步骤:S1、接收检索指令,并提取检索平台内当前输入的请求问题,并对请求问题进行主题词提炼;S2、将检索平台关联知识库中存储的各条文本数据标记的主题与请求问题的主题词进行比对,从中筛选出符合请求问题主题词的文本数据,作为备选文本数据;S3、将备选文本数据进行分组,得到若干组集,并对各组集进行共性特征标识;S4、按照各组集对应的共性特征对相应组集内的备选文本数据进行预处理,得到处理后各组集对应的备选文本数据;S5、获取各组集内各备选文本数据对应的内容可信性、上传时间和历史访问频繁度,由此确定各组集的文本匹配顺序;S6、对各组集内对应的备选文本数据进行层级类型解析,得到各条备选文本数据对应的层级类型;S7、基于各条备选文本数据对应的层级类型选取适配相似度算法;S8、依据各组集的文本匹配顺序依次调取相应组集内的备选文本数据,并将调取的备选文本数据利用适配相似度算法与请求问题进行文本匹配,得到各备选文本数据的语义相似度;S9、基于各组集内各备选文本数据的语义相似度选取请求问题对应的检索结果,并在检索输出框进行输出显示。

全文数据:

权利要求:

百度查询: 浙江大学 一种基于语义分析的海量文本检索匹配方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。