买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】一种基于NLP算法实现数据资产精准搜索方法_北京科杰科技有限公司_202210275470.3 

申请/专利权人:北京科杰科技有限公司

申请日:2022-03-21

公开(公告)日:2022-09-20

公开(公告)号:CN115080602A

主分类号:G06F16/2452

分类号:G06F16/2452;G06F16/2453;G06F16/2455;G06F16/248;G06F16/242;G06F16/22;G06F16/28

优先权:

专利状态码:有效-授权

法律状态:2023.05.26#授权;2022.10.11#实质审查的生效;2022.09.20#公开

摘要:本发明公开了一种基于NLP算法实现数据资产精准搜索方法,对数据资产的自然语言进行检索,将数据作为一种资产,进行关系的自动维护、模型生成、智能检索等。针对大数据产生的资产目录和资产目录中的字段血缘关系、标签、指标等都有高效的检索和命中率。同时对于一些查询较热的TopN数据也能有效地进行建立。使用reids缓存,快速的响应同类关键词查询的结果,大大的缩短了查询链路的长度和对关系数据库的压力。

主权项:1.一种基于NLP算法实现数据资产精准搜索方法,其特征在于,具体过程为:一、资产元数据的生成:二、索引的构建:(1)元数据索引的构建:采集模块根据定时的采集任务对资产元数据进行拉取,拉取方式分为全量拉取和增量拉取,对于新增的表采用全量拉取,对于已存在的表采用增量拉取,然后对于每个字段内容均进行去空值和去数值,保留关键字,作为元数据的索引;(2)数据的索引构建:1)对于已存在的表,同步构建服务进行数据的增量拉取;以码表术语库以及访问次数最多的关键字作为关键字库,对字段进行关键字的提取;提取完成后,对所有关键字进行去重,生成字典,通过同步构建服务写入到es,作为数据的索引;2)对于新增的表,然后同步构建服务进行全量拉取,以码表术语库以及访问次数最多的关键字作为关键字库,对字段进行关键字的提取;提取完成后,对所有关键字进行去重,生成字典,通过同步构建服务写入到es,作为数据的索引;三、数据资产检索NLP2SQL服务从输入入口接收到要检索的内容,然后通过映射码表后生成查询的sql语句;NLP2SQL服务通过词法分析解析自然语言,生成机器可执行的sql语句;NLP服务检索先查找redis缓存,如果缓存中存在要检索的历史数据,缓存命中,NLP服务得到命中的数据结果返回;如果全部命中,则直接结束检索;返回的数据结果包含:资产数据所在的库、表以及关键字所在的字段的位置,字段与其它库、表中的映射血缘关系,字段与标签的映射关系,字段与指标的映射关系;如果reids缓存结果没有全部命中,还需要继续从es库中按照索引获取数据结果;如果索引未命中,表示该关键字不存在es库中,检索完毕,如果索引命中,则返回数据结果;返回的数据结果整理后返回到NLP2SQL的前端进行列表展示;用户在进行列表的详细信息查询时,涉及到资产数据详情的查询时需要从数据中台再次申请资产数据,按照资产数据所在的库、表、行位置使用presto对hive进行查询;查询的结果形成topN热点数据被缓存到redis中,每隔设定的时间段同步到es库中。

全文数据:

权利要求:

百度查询: 北京科杰科技有限公司 一种基于NLP算法实现数据资产精准搜索方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。