买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】电镜数据转储方法、存储介质和装置_清华大学_201811035834.0 

申请/专利权人:清华大学

申请日:2018-09-06

公开(公告)日:2021-04-16

公开(公告)号:CN109460184B

主分类号:G06F3/06(20060101)

分类号:G06F3/06(20060101)

优先权:

专利状态码:有效-授权

法律状态:2021.04.16#授权;2019.04.05#实质审查的生效;2019.03.12#公开

摘要:本发明提供一种电镜数据转储方法、存储介质和装置,包括:步骤11:预设转储进程数为copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,并配置源端服务器与目标端服务器之间的链路带宽不低于目标带宽;步骤13:在源端服务器创建copynum个并行进程,每个进程用于将第一预设目录下的一个待传输文件传输至第二预设目录下;监控copynum个进程,当任一进程结束后,再创建一个新的进程用于传输第一预设目录下另一个待传输文件,直至第一预设目录下的所有待传输文件均传输完毕。基于本发明提供的电镜数据转储方法,可以实现对电镜数据的快速转储,以支持对电镜数据的大数据管理。

主权项:1.一种电镜数据转储方法,其特征在于,所述方法用于将源端存储系统第一预设目录下的电镜数据文件转储到目标端存储系统的第二预设目录,所述源端存储系统挂载于源端服务器,所述目标端存储系统挂载于目标端服务器,所述方法包括:步骤11:预设转储进程数为copynum,根据所述copynum确定所述源端服务器与目标端服务器的目标带宽,并配置所述源端服务器与目标端服务器之间的链路带宽不低于所述目标带宽;步骤13:在所述源端服务器创建copynum个并行进程,每个进程用于将所述第一预设目录下的一个待传输文件传输至所述第二预设目录下;监控所述copynum个并行进程,当任一进程结束后,再创建一个新的进程用于传输所述第一预设目录下另一个待传输文件,直至所述第一预设目录下的所有待传输文件均传输完毕;所述在所述源端服务器创建copynum个并行进程包括:使用rsync命令在所述源端服务器创建copynum个并行进程。

全文数据:电镜数据转储方法、存储介质和装置技术领域本发明涉及计算机领域,特别涉及一种电镜数据转储方法、存储介质和装置。背景技术随着硬件技术的进步,应用冷冻电镜技术解析生物大分子的结构正在成为一个崭新的结构生物学研究方向。近年来,不少研究团队基于冷冻电镜技术在国际顶级学术期刊Nature、Science、Cell等发表了数十篇高分辨率的关于蛋白质三维结构解析成果,对生命科学的发展产生了重大影响,而冷冻电镜在这其中发挥着举足轻重的作用。为了重构出高精度的分子结构,冷冻电镜需要拍摄大量二维的高分辨率图像,由于冷冻电镜在拍摄过程中很难避免诸如欠焦等问题,从而会导致丢失一些图像信息,为了避免有效信息的丢失,冷冻电镜通常会在不同的欠焦水平和不同的角度下拍摄大量高分辨率的二维图像加以合成,以弥补单一图像丢失的信息,最终利用所拍摄的大量的高分辨率的二维图像,通过相关的三维重构软件如Relion等重构出高分辨率的分子结构。然而,在重构三维分子结构的过程中,为了构建精确的高分辨率的三维分子结构,冷冻电镜需要从不同的角度拍摄大量的高分辨率的二维图像,细微的角度变化均需要拍摄大量的二维图像,在电镜满负荷工作的情况下,每天会产生数几十TB的电镜数据,以清华大学生命学院电镜平台Titan为例,每台Titan的拍摄速率7GB分钟,即每分钟产生7GB左右的图像数据,这样一台电镜在一天中就能产生7GB分钟*60分钟小时*24小时=10.08TB的数据,从而导致每年将消耗高达4PB的存储容量。大数据治理,是目前普遍存在的一大问题。对数据分而治之,即对数据进行分门别类式的个性化管理,是数据管理的基本出发点和原则。比如,对冷数据、非重点数据进行数据转储或迁移操作,使之沉淀到低速、低成本、大容量存储系统中,以读写时间为代价换取存储空间和成本的最大收益。事实上,这种代价是完全可以被接受的。但是另一方面,实现大数据治理,首先需要解决如何将大容量的电镜数据从一个存储系统转移到另一个存储系统?发明内容有鉴于此,本发明提供一种电镜数据转储方法、存储介质和装置,可以解决将大容量的电镜数据从一个存储系统快速转移到另一个存储系统的问题。本发明提供一种电镜数据转储方法,该方法用于将源端存储系统第一预设目录下的电镜数据文件转储到目标端存储系统的第二预设目录,源端存储系统挂载于源端服务器,目标端存储系统挂载于目标端服务器,包括:步骤11:预设转储进程数为copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,并配置源端服务器与目标端服务器之间的链路带宽不低于目标带宽;步骤13:在源端服务器创建copynum个并行进程,每个进程用于将第一预设目录下的一个待传输文件传输至第二预设目录下;监控copynum个进程,当任一进程结束后,再创建一个新的进程用于传输第一预设目录下另一个待传输文件,直至第一预设目录下的所有待传输文件均传输完毕。本发明还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行上述的电镜数据转储方法中的步骤。本发明还提供一种电镜数据转储装置,包括处理器和上述的非瞬时计算机可读存储介质。本发明电镜数据转储方法,并行转储效率高,用时少,可以实现对电镜数据的快速或极速转储,对提高电镜数据解析的高通量能力具有良好的效果,能满足电镜数据的用户使用需求和管理需求,具有较好的应用前景和推广价值。附图说明图1为本发明电镜数据转储方法的流程图;图2为本发明电镜数据转储系统的结构图;图3为本发明电镜数据转储方法的第一实施例;图4为本发明电镜数据转储方法的第二实施例;图5为本发明电镜数据转储装置的结构图。具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用来区别类似的对象,而不必用于描述特定的顺序和先后次序。应该理解,这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。在实际工作中,电镜数据存储面临的主要挑战是:成倍数增长的电镜原始数据和过程数据,对存储系统容量、用户配额分配管理策略带来了极大的挑战,并间接影响到科研效率和整体进度。具体包括以下层面:1.数据量弹性大:冷冻电镜领域是当前特别活跃的一个科研领域,各种软硬件技术革新层出不穷;同一套原始数据结合不同的分析流程会产生多种过程和结果数据,数据规模会日趋庞大而复杂;课题组与课题组之间,课题组与校外机构合作研究时会产生大量的数据副本,虽可同时满足数据共享便利性和原始数据完整性等多样化需求,却也为存储系统带来容量压力。因此,电镜采集的数据具备很大的弹性。在存储系统合理化使用和数据副本管理方面缺乏更高效、更经济的管理策略。2.数据管理相关信息孤立分散、缺乏基于内容的感知:大部分电镜数据由科研人员自行管理,尚无统一的管理策略,大量离线数据的日常管理占用了课题组过多精力。同时,管理员基于系统优化目的对数据进行调整、迁移,此类信息如何更加快捷、准确地面向科研人员发布,也是一个有待解决的问题。3.管理滞后:管理员用户权限与数据权限分离,平台管理者难以挖掘用户使用规律并深入配合科研业务需求及时调整平台管理策略和长期运营规划,应对解决方案一定程度上存在滞后性,在辅助科研成果高效产出过程中缺少主动性。4.手工数据迁移任务太繁重:缺乏有效的自动化或半自动化工具软件或脚本,管理员对数据的迁移任务工作量太繁重,并容易导致操作事故。本发明针对上述第4个问题,提出一种电镜数据转储方法,该方法用于将源端存储系统第一预设目录下的电镜数据文件转储到目标端存储系统的第二预设目录,源端存储系统挂载于源端服务器,目标端存储系统挂载于目标端服务器,如图1所示,该方法包括:步骤11:预设转储进程数为copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,并配置源端服务器与目标端服务器之间的链路带宽不低于目标带宽。为了实现转储,本发明构建了如图2所示的转储系统,包括101源端存储系统、102目标端存储系统、103源端服务器和104目标端服务器,101源端存储系统挂载于103源端服务器,102目标端存储系统挂载于104目标端服务器,103源端服务器与104目标端服务器通过可扩容光纤和或电缆连接,例如可采用一个或多条单模光纤连接。步骤11还设置了转储进程数copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,例如copynum=50时,copynum×单进程带宽=目标带宽,单进程带宽可以通过测试数据得到,假设计算得到的目标带宽为160G,一条单模光纤的带宽为40G,则源端服务器与目标端服务器至少需配置4条单模光纤,如图2所示。步骤13:在源端服务器创建copynum个并行进程,每个进程用于将第一预设目录下的一个待传输文件传输至第二预设目录下;监控copynum个进程,当任一进程结束后,再创建一个新的进程用于传输第一预设目录下另一个待传输文件,直至第一预设目录下的所有待传输文件均传输完毕。例如,第一预设目录为:ShareEM2018TitanD3418。第二预设目录为:@40.40.103.12:ShareTransferbak,其中@40.40.103.12为目标端服务器的IP地址。则步骤13一种实现方式,如下述代码所示:其中第100行的代码将第一下预设目录下的一个待传输文件*cor2*.mrc赋值给i,第102行代码是使用rsync–av命令启动一个进程将待传输文件i传输到第二预设目录,第103行至105行代码是监控进程池,如果进程池的进程总数rsync_num大于等于50,则一直执行第105行代码刷新当前进程总数rsync_num,如果否,则返回第100行代码。上述本发明电镜数据转储方法,采用并行转储,效率高、用时少,可以实现对电镜数据的快速或极速转储,对提高电镜数据解析的高通量能力具有良好的效果,能满足电镜数据的用户使用需求和管理需求,具有较好的应用前景和推广价值。rsync本身是一个同步命令,本发明将rsync与进程相结合构建并行传输框架,同时动态监控进程池,使得本发明图1的方法可以有序高效的运转。现有的每个电镜数据文件*cor2*.mrc大小、格式都较为统一,也使得图1的方案运行时面对进程切换也可以有序进行、避免冲突。进一步地,如图3所示,在步骤13之后还包括步骤14。步骤14:判断第一预设目录下是否存在传输失败的文件,如果是,则将传输失败的文件标记为待传输文件,返回步骤13,如果否,则转储任务完成。例如,可以通过比较第一预设目录和第二预设目录下的文件名称和文件大小确定第一预设目录是否存在传输失败的文件,然后将传输失败的文件标记为待传输文件,传输成功的文件标记为已传输文件。鉴于电镜数据文件之间存在较高的相似度,相邻数据文件之间的波动非常少,丢失部分数据,例如一个目录下的5%的数据,并不影响数据重构结果,因此步骤14判断是否存在传输失败的文件时,也可以放宽要求,在少量文件未同步成功的情况下,也可以认为该目录转储成功。传输校验除了采用步骤14的方法之外,还可以采用现有技术的其他方法,本发明对此不做限定。可选地,如图4所示,步骤11之后以及步骤13之前还包括:步骤12:验证用户信息,通过验证后执行步骤13。为了简化认证,避免用户繁琐输入用户信息,可选地,可使用无密码身份验证技术,无密码身份验证技术包括sshpass、ssh等。例如在第100行代码之前执行:99sshwyk@40.40.103.12“mkdirShareTransferbak${WORKDIR}”其中WORKDIR为用户信息,包括用户名和密码,执行第99行代码后,用户首次登录时,会记录用户信息到“WORKDIR”,下次再登录时,就可以免密码登录,简化认证。为了方便用户交互或了解转储任务的时间信息,还可以记录步骤13开始的时间和步骤14结束的时间,例如在步骤13第100行代码之前显示当前系统时间,在步骤14中退出任务之前显示当前系统时间,或者每个待传输文件传输完后,显示该文件名和当前系统时间。本发明还提供一种非瞬时计算机可读存储介质,非瞬时计算机可读存储介质存储指令,指令在由处理器执行时使得处理器执行上述的电镜数据转储方法中的步骤。本发明还提供一种电镜数据转储装置,包括处理器和上述的非瞬时计算机可读存储介质。如图5所示,本发明的电镜数据转储装置用于将源端存储系统第一预设目录下的电镜数据文件转储到目标端存储系统的第二预设目录,源端存储系统挂载于源端服务器,目标端存储系统挂载于目标端服务器,包括:初始化设置模块:预设转储进程数为copynum,根据copynum确定源端服务器与目标端服务器的目标带宽,并配置源端服务器与目标端服务器之间的链路带宽不低于目标带宽;转储模块:在源端服务器创建copynum个并行进程,每个进程用于将第一预设目录下的一个待传输文件传输至第二预设目录下;监控copynum个进程,当任一进程结束后,再创建一个新的进程用于传输第一预设目录下另一个待传输文件,直至第一预设目录下的所有待传输文件均传输完毕。可选地,在转储模块之后还包括:校验模块:判断第一预设目录下是否存在传输失败的文件,如果是,则将传输失败的文件标记为待传输文件,返回转储模块,如果否,则转储任务完成。进一步地,确定第一预设目录是否存在传输失败的文件包括:通过比较第一预设目录和第二预设目录下的文件名称和文件大小确定第一预设目录是否存在传输失败的文件。可选地,初始化设置模块之后以及转储模块之前还包括:用户登录模块:验证用户信息,通过验证后执行转储模块。进一步地,验证用户信息包括:使用无密码身份验证技术验证用户信息。可选地,记录转储模块开始的时间和校验模块结束的时间。可选地,在源端服务器创建copynum个并行进程包括:使用rsync命令在源端服务器创建copynum个并行进程。进一步地,rsync命令为rsync-av。需要说明的是,本发明的电镜数据转储装置的实施例,与电镜数据转储方法的实施例原理相同,相关之处可以互相参照。以上所述仅为本发明的较佳实施例而已,并不用以限定本发明的包含范围,凡在本发明技术方案的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

权利要求:1.一种电镜数据转储方法,其特征在于,所述方法用于将源端存储系统第一预设目录下的电镜数据文件转储到目标端存储系统的第二预设目录,所述源端存储系统挂载于源端服务器,所述目标端存储系统挂载于目标端服务器,所述方法包括:步骤11:预设转储进程数为copynum,根据所述copynum确定所述源端服务器与目标端服务器的目标带宽,并配置所述源端服务器与目标端服务器之间的链路带宽不低于所述目标带宽;步骤13:在所述源端服务器创建copynum个并行进程,每个进程用于将所述第一预设目录下的一个待传输文件传输至所述第二预设目录下;监控所述copynum个进程,当任一进程结束后,再创建一个新的进程用于传输所述第一预设目录下另一个待传输文件,直至所述第一预设目录下的所有待传输文件均传输完毕。2.根据权利要求1所述的方法,其特征在于,所述步骤13之后还包括:步骤14:判断所述第一预设目录下是否存在传输失败的文件,如果是,则将所述传输失败的文件标记为待传输文件,返回步骤13,如果否,则转储任务完成。3.根据权利要求2所述的方法,其特征在于,所述确定所述第一预设目录是否存在传输失败的文件包括:通过比较所述第一预设目录和第二预设目录下的文件名称和文件大小确定所述第一预设目录是否存在传输失败的文件。4.根据权利要求1所述的方法,其特征在于,所述步骤11之后以及所述步骤13之前还包括:步骤12:验证用户信息,通过验证后执行步骤13。5.根据权利要求4所述的方法,其特征在于,所述验证用户信息包括:使用无密码身份验证技术验证用户信息。6.根据权利要求2所述的方法,其特征在于,记录步骤13开始的时间和步骤14结束的时间。7.根据权利要求1所述的方法,其特征在于,所述在所述源端服务器创建copynum个并行进程包括:使用rsync命令在所述源端服务器创建copynum个并行进程。8.根据权利要求7所述的方法,其特征在于,所述rsync命令为rsync-av。9.一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,其特征在于,所述指令在由处理器执行时使得所述处理器执行如权利要求1至8中任一所述的电镜数据转储方法中的步骤。10.一种电镜数据转储装置,其特征在于,包括处理器和如权利要求9所述的非瞬时计算机可读存储介质。

百度查询: 清华大学 电镜数据转储方法、存储介质和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。