申请/专利权人:中国建设银行股份有限公司
申请日:2022-10-19
公开(公告)日:2023-01-13
公开(公告)号:CN115599885A
主分类号:G06F16/33
分类号:G06F16/33;G06F16/31;G06F40/284;G06F40/289
优先权:
专利状态码:在审-实质审查的生效
法律状态:2023.02.07#实质审查的生效;2023.01.13#公开
摘要:本文涉及金融科技领域,尤其涉及文档全文检索方法、装置、计算机设备、存储介质及产品,方法包括:获取初始文档,对所述初始文档进行切片后得到切片文档;确定所述切片文档的编号;根据预先建立的文档关键词提取模型,确定所述切片文档中的关键词;根据所述切片文档的编号及所述关键词,建立倒序索引表;根据所述倒序索引表,检索初始文档中包含的关键词。本方案通过将文件进行分页切分,以每页为维度进行分词处理,内存占用大幅减少,同时能多分页并行处理,加快抽取关键词处理速度。结合深度学习模型,准确快速获取文档中的关键词,配合分组和索引,支持托管档案大文件的快速全文检索。
主权项:1.一种文档全文检索方法,其特征在于,所述方法包括:获取初始文档,对所述初始文档进行切片后得到切片文档;确定所述切片文档的编号;根据预先建立的文档关键词提取模型,确定所述切片文档中的关键词;根据所述切片文档的编号及所述关键词,建立倒序索引表;根据所述倒序索引表,检索初始文档中包含的关键词。
全文数据:
权利要求:
百度查询: 中国建设银行股份有限公司 文档全文检索方法、装置、计算机设备、存储介质及产品
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。