买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种基于HDFS的公告数据存储方法及其装置_上证所信息网络有限公司_201911090968.7 

申请/专利权人:上证所信息网络有限公司

申请日:2019-11-09

公开(公告)日:2024-02-02

公开(公告)号:CN110866068B

主分类号:G06F16/27

分类号:G06F16/27;G06F16/22;G06F16/182

优先权:

专利状态码:有效-授权

法律状态:2024.02.02#授权;2020.03.31#实质审查的生效;2020.03.06#公开

摘要:本发明涉及数据存储技术领域,具体来说是一种基于HDFS的公告数据存储方法及其装置,包括如下步骤:步骤S101:对公告数据进行归档;步骤S102:根据设定的周期将公告数据从网络存储器同步至HDFS;步骤S103:对归档的公告数据进行缓存;步骤S104:根据下载请求对公告数据进行检索。本发明同现有技术相比,其优点在于:通过对海量公告数据进行归档,同时将数据从NAS(网络存储器)同步到HDFS(Hadoop分布式文件系统),然后针对公告数据的特点,对归档数据设计缓存,并根据下载请求对公告数据进行检索,解决了现有存储方法在处理上市公司公告数据时的效率低下问题。

主权项:1.一种基于HDFS的公告数据存储方法,其特征在于所述的方法包括如下步骤:步骤S101:对公告数据进行归档;步骤S102:根据设定的周期将公告数据从网络存储器同步至HDFS;1根据要执行同步的归档日期参数对公告文件进行过滤,计算出本次任务要同步的文件列表target_file.list;生成失败文件列表failed_file.list,此文件初始为空文件;同时判断是否存在已完成文件列表completed_file.list文件,如果不存则创建该文件,否则不做操作;2开始同步,记录任务开始信息,并记录本次同步任务的开始时间,预计同步的文件个数,文件名;3读取文件,判断文件是否已经完成同步:从target_file.list中按序取出文件,并判断该文件是否存在于completed_file.list,若存在,则记录下时间和文件名,并标记“跳过”,跳转到步骤6;否则继续执行;4执行同步:将该文件由本地NAS同步到远端HDFS;5判断同步是否成功:若rsync返回的执行代码为0,则向completed_file.list写入该文件名,在rsync.log中记录下时间和文件名,并标记“同步成功”;若不为0,则在failed_file.list中写入该文件名,并在rsync.log中记录下时间和文件名,并标记“失败”以及报错码;6检查target_file.list是否已经读完,若没有读完跳转到步骤3,读完则继续执行;7记录同步结束信息:在rsync.log中记录下结束时间和本次同步的时间开销、同步的文件数量、成功文件的数量和报错的文件数量;步骤S103:对归档的公告数据进行缓存;步骤S104:根据下载请求对公告数据进行检索。

全文数据:

权利要求:

百度查询: 上证所信息网络有限公司 一种基于HDFS的公告数据存储方法及其装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。