买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明公布】智慧司法数据采集方法及系统_长河信息股份有限公司_202311239420.0 

申请/专利权人:长河信息股份有限公司

申请日:2023-09-22

公开(公告)日:2024-02-13

公开(公告)号:CN117557208A

主分类号:G06Q10/10

分类号:G06Q10/10;G06Q50/18;G06F16/31;G06F40/216;G06F16/335

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.03.01#实质审查的生效;2024.02.13#公开

摘要:本发明公开了智慧司法数据采集方法及系统,涉及数据采集领域,所述方法包括以下步骤:Step1:建立本地数据存储库,并按照预定周期进行云端备份;Step2:采集实施端获取司法数据地址,并对地址合法性进行验证,向通过验证的司法数据地址,进行访问权限的申请,等待授权;Step3:获取通过授权的司法数据地址,按获取时间逐个进行采集目标的排序;Step4:对采集目标进行属性定义,划分采值区间,按照所定义属性和排序信息,依次向司法数据地址展开采集操作;该方法通过针对所需要数据进行预定义策略,实现大规模数据的批量索引,通过智能识别并暂时屏蔽含有误导或者错误信息的数据来源,确保在数据采集过程中算力资源的最大化利用,从而实现系统算力的优化分配。

主权项:1.智慧司法数据采集方法,其特征在于,包括以下步骤:Step1:建立本地数据存储库,并按照预定周期进行云端备份;Step2:采集实施端获取司法数据地址,并对地址合法性进行验证,向通过验证的司法数据地址,进行访问权限的申请,等待授权;Step3:获取通过授权的司法数据地址,按获取时间逐个进行采集目标的排序;Step4:对采集目标进行属性定义,划分采值区间,按照所定义属性和排序信息,依次向司法数据地址展开采集操作;Step5:通过TF-IDF模型,为文本选出若干个候选关键词,通过特征工程,对文本候选关键词进行特征提取,将所提取特征作为LightGBM算法参数,预测当前候选关键词是否为关键词,分析概率;Step6:选择超出预设概率的词作为文本关键词,进行标记后输出;Step7:分析标记结果,选择标记结果高于或等于采集阈值的文本,进行文本数据的集中输出,递交至暂存区;Step8:获取定义属性,选择是否更换定义属性,在暂存区内进行二次验证,标记违背获取逻辑的文本数据,经过查验后选择是否剔除。

全文数据:

权利要求:

百度查询: 长河信息股份有限公司 智慧司法数据采集方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。