买专利,只认龙图腾
首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】一种防止隐私泄漏的数据脱敏方法_四川长虹智慧健康科技有限公司_201810796961.6 

申请/专利权人:四川长虹智慧健康科技有限公司

申请日:2018-07-19

公开(公告)日:2020-11-17

公开(公告)号:CN109033873B

主分类号:G06F21/62(20130101)

分类号:G06F21/62(20130101);G16H10/60(20180101)

优先权:

专利状态码:有效-授权

法律状态:2020.11.17#授权;2019.01.11#实质审查的生效;2018.12.18#公开

摘要:本发明涉及大数据领域,公开了一种防止隐私泄漏的数据脱敏方法。具体包括以下过程:根据数据库的不同数据表之间的相同索引字段,去除显性关联;针对数据表之间的索引字段,定义密码学函数,进行关联ID的处理;根据密码学函数计算关联ID值,将关联ID值写入后,进行数据访问。本发明的技术方案主要采用了密码学的思路,对数据表之间的关联字段进行算法处理,去除数据库不同表、不同数据之间与用户信息之间的强关联耦合,使得即使在获取用户数据库超级权限的情况下,也无法知道各数据、信息之间的关联,获得的数据与用户无法确认关系,从而实现了数据的隐私保护。该方法可以有效防止由于平台攻击、内鬼等造成的数据库直接访问而导致的隐私泄漏。

主权项:1.一种防止隐私泄漏的数据脱敏方法,其特征在于,具体包括以下过程:步骤1,根据数据库的不同数据表之间的相同索引字段,去除显性关联;步骤2,针对去除显性关联后的数据表之间的索引字段定义密码学函数,进行关联ID的处理;步骤3,根据密码学函数计算关联ID值,将关联ID值写入后,进行数据访问;所述步骤1的具体过程为:步骤11,通过数据库的不同数据表的相同索引字段进行索引关联;步骤12,将不同数据库之间的相同索引字段分别进行定义,使不同表格之间的索引字段值完全不同;所述步骤2的具体过程为:步骤21,针对数据表之间的索引字段,定义密码学函数ID=fM1、M2…Mn、R、…Key;其中,ID为该表格的索引关联ID,M1、M2,...,Mn为与用户相关的数据特征,R为随机数,Key为本次运算选用的密钥,f为有限域的加密函数或者单向散列算法;步骤22,通过密码学函数的计算,使每个数据表的索引字段与数据表本身的索引字段值完全不同。

全文数据:一种防止隐私泄漏的数据脱敏方法技术领域[0001]本发明涉及大数据领域,特别是一种防止隐私泄漏的数据脱敏方法。背景技术[0002]随着智能化、网络化的发展,信息时代,就是数据采集的时代。数据有目的的采集、整理、加工、分析、利用,是大数据时代的明显特征。[0003]数据采集的方式,可以传感器自动采集,可以通过智能设备自动采集,也可以通过app、用户浏览网页等模式后台进行。目前数据采集的内容,已经涉及到了个人的方方面面。数据已经成为了我们一切信息应用的基石。数据的采集,一方面为个人带来极大的便利,同时也带来的潜在的隐私泄漏的风险。[0004]在医疗健康领域,目前基本上都己经实现了以电子病历为基础的数字化医院时代。医院信息化己形成以电子病历为基础、以病人信息为中心的高度集成化的医院信息管理系统。电子病历是现代医疗机构开展高效、优质的临床诊疗、科研以及医疗管理工作所必需的重要临床信息资源,也是居民健康档案的主要信息来源。标准化电子病历及以其为核心的新一代医院信息系统建设是实现区域范围以居民个人为主线的临床信息共享和医疗机构互联互通、协同服务的前提基础,不仅能保证居民健康档案“数出有源、数出有据”,还能有助于落实、规范临床路径,实现医疗过程监管,提高医疗救治水平与应急指挥能力。一个标准的电子病历系统或者类似的医疗信息化系统,包括了非常多的用户信息,包括:[0005]1患者基本信息。例如人口信息、社会经济信息、亲属信息、社会保障信息以及生物学信息等[0006]2基本健康信息。包括现病史、既往病史、免疫史、过敏史、月经史、家族史、残疾情况等[0007]⑶卫生事件摘要。包括患者历次医疗机构就诊所发生的服务活动。[0008]⑷费用记录[0009]5门急诊诊疗记录。包括门急诊病历、门急诊处方、检查检验记录等6住院记录。包括病程记录、医嘱、处置记录、护理记录等[0010]7健康体检记录。以健康监测、预防保健为主要目的的常规健康体检记录。[0011]这些数据一般由相关的机构采集后,以数据库等方式,存入相关的数据中心,为用户日后的治疗、预防保健等提供强大的支撑,同时也为医院的科研、决策支持等提供数据的支持。数据在给患者和医疗机构提供便利的同时,也为患者或者用户带来了隐私泄漏的风险。例如,医疗信息的数据库中,包含用户联系方式、身份证、住址、家庭成员等隐私信息,也包含用户一些敏感的个人健康隐私信息,例如,HIV、肝炎等,一旦泄漏,将会对用户造成非常大的影响。[0012]数据或者隐私泄漏包含主要的三种途径:1、个人设备、口令等丢失,导致个人信息泄漏。例如,个人的手机丢失,或者某个app的口令丢失,第三方获取后进入,导致个人的信息泄漏;2、平台、数据等入侵导致大批量数据泄漏。现有的数据中心、信息系统等,都已经和网络进行了联通,外部入侵者一旦进入平台、系统,很容易批量导出、甚至拷贝走数据库文件,窃取用户信息;3、内鬼窃取。内部的网络管理人员、运维人员、数据库管理员、第三方系统开发人员等,都可以非常容易的接触到数据库,成为泄漏的重要威胁。[0013]目前的数据库,一般用户的信息,采用分表存储的方式,不同的表之间,通过某个字段进行关联。要确保数据库被复制、访问后不导致数据泄漏,最好的方式是对数据库进行加密,但是数据库加密后,会带来新的问题,例如,无法进行快速检索、无法进行数据统计分析、无法进行数据的挖掘等,还会导致数据库的访问速度大大降低,增加额外的部署成本。发明内容[0014]本发明所要解决的技术问题是:针对上述存在的问题,提供了一种防止隐私泄漏的数据脱敏方法。[0015]本发明采用的技术方案如下:一种防止隐私泄漏的数据脱敏方法,具体包括以下过程:步骤1,根据数据库的不同数据表之间的相同索引字段,去除显性关联;步骤2,针对数据表之间的索引字段,定义密码学函数,进行关联ID的处理;步骤3,根据密码学函数计算关联ID值,将关联ID值写入后,进行数据访问。[0016]进一步的,所述步骤1的具体过程为:步骤11,通过数据库的不同数据表的相同索引字段进行索引关联;步骤12,将不同数据库之间的相同索引字段分别进行定义,使不同表格之间的索引字段值完全不同。[0017]进一步的,所述步骤2的具体过程为:步骤21,针对数据表之间的索引字段,定义密码学函数10=以1\〇、1«2.".1«11、1?、.....1^7;其中,10为该表格的索引关联10麗、12,...,1^为与用户相关的数据特征,R为随机数,Key为本次运算选用的密钥,f为有限域的加密函数或者单向散列算法;步骤22,通过密码学函数的计算,使每个数据表的索引字段与数据表本身的索引字段值完全不同。[0018]进一步的,所述步骤3的具体过程为:步骤31,正向查询时,根据密码学函数ID=fM1、M2….Mn、R、〜..Key,计算关联ID值;步骤32,写入计算好的关联ID值,作为该数据表的索引字段值;步骤33,进行数据访问,反向查询所需数据特征。[0019]与现有技术相比,采用上述技术方案的有益效果为:[0020]1本发明的技术方案主要采用了密码学的思路,对数据表之间的关联字段进行算法处理,去除数据库不同表、不同数据之间与用户信息之间的强关联耦合,使得即使在获取用户数据库超级权限的情况下,也无法知道各数据、信息之间的关联,获得的数据与用户无法确认关系,从而实现了数据的隐私保护。该方法可以有效防止由于平台攻击、内鬼等造成的数据库直接访问而导致的隐私泄漏。[0021]⑵该方法除了能防止隐私数据的泄漏,同时,该方式对数据的挖掘、使用,没有影响,实现了安全与性能、数据利用之间的平衡同时也满足了对数据的挖掘、建模、统计分析、人工智能、决策支持等大数据应用的需求。做到了安全保护与数据使用的平衡。[0022]3本方法适合于所有涉及到用户数据采集的领域,包括医疗健康、电子商务、移动应用、互联网服务等领域。具体实施方式[0023]下面结合实施例对本发明做进一步描述。[0024]数据库的结构,对数据库的性能和效率有非常大的影响,特别是在数据量非常大的情况下。一个应用数据库,或者数据中心,一般包括若干个数据表,每个数据表由若干个不同的字段组成,表之间的关联,一般通过某些字段或者外键来进行关联。例如一个医院健康档案数据库,该数据库包括4个数据表一个真实的数据库有若干个表,此处仅以简单的内容来举例),数据表1为基本信息表,其中包括人员的ID编号、昵称、姓名、身份证号等,数据表2为联系方式表,记录了与用户相关的手机号、电子邮件、家庭住址以及其它和家庭隐私相关的数据。数据表3为个人建档档案表,记录了该用户的医疗卡号、血型、过敏史、慢性病、传染病等历史的情况。数据表4为体检表,里面保存了用户HIV筛查、乙肝筛查等需要重点保密的数据。数据表1通过人员ID定义为RY_ID,可以关联到表2该用户的个人和家庭的联系方式、住址等,通过该ID还可以关联到用户的表3健康档案,获取用户的历史病史病历、家族史等情况,通过表3的档案ID定义为DA_ID,可以获取到表4用户的体检表的情况。如果某人正常或者非正常获得数据库访问权限,通过该方式可以获取数据表中用户所有的隐私信息,对用户隐私的泄漏造成潜在的危害。但是如果我们将数据表中的关联ID人员ID、档案ID等去除,则这些数据变得毫无关联,仅是些与某个人无关的纯数据,即使数据泄漏,也不会造成隐私的泄漏,同时,数据仍然可以开展正常的利用。[0025]—种防止隐私泄漏的数据脱敏方法,具体包括以下过程:[0026]步骤1,根据数据库的不同数据表之间的相同索引字段,去除显性关联;[0027]其中,所述步骤1的具体过程为:步骤11,通过数据库的不同数据表的相同索引字段进行索引关联;数据表1与数据表2之间,是通过RY_ID进行索引关联的,即数据表1的RY_ID和数据表2的RY_ID值是相同的,通过这个相同的ID,进行基本信息与联系方式的关联,形成完整的信息。同理,数据表1与数据表2、数据表2与数据表3、数据表3与数据表4之间,也是相同的机制进行索引关联;步骤12,将不同数据库之间的相同索引字段分别进行定义,使不同表格之间的索引字段值完全不同,并且无规律可循。定义数据表2的RY_ID为RY_ID2,数据表3的RY_ID为RY_ID3,数据表4的DA_ID为DA_ID4甚至定义为名称完全不相关的字段名称),并且对他们相应的值进行重新定义,g卩RY_ID乒RY_ID2乒RY_ID3,DA_ID乒DA_ID4。[0028]步骤2,针对数据表之间的索引字段,定义密码学函数,进行关联ID的处理;[0029]其中,所述步骤2的具体过程为:步骤21,针对数据表之间的索引字段,定义密码学函数ID=fMl、M2.".Mn、R、."..Key。其中,ID为该表格的索引关联ID,M1、M2,…,Mn为与用户相关的数据特征,可作为身份特征的信息,或者与索引表用户信息相关的数据特征,例如,姓名、身份证、社保卡等信息,也可以是用户的ID,M的数量和内容,根据需要灵活选择;R为随机数,可选,使用后可确保同一用户的每条记录的ID号均不相同;Key为本次运算选用的密钥,可选;f为有限域的加密函数或者单向散列算法,如果考虑数据表的正向连接所以,不支持反向,则可以使用散列函数;如果要考虑正向和反向的连接索引,则可以选择对称或者非对称加密算法,例如AES、SM4、RSA、ECC等算法。步骤22,通过密码学函数的计算,使每个数据表的索引字段与数据表本身的索引字段值完全不同。在增加随机数的情况下,可以做到用户的不同数据记录之间,也完全没有任何关系,在不掌握密钥和算法的情况下,任何人不能通过数据库的数据,直接分析获取用户的相关信息。[0030]步骤3,根据密码学函数计算关联ID值,将关联ID值写入后,进行数据访问。[0031]其中,所述步骤3的具体过程为:步骤31,正向查询时,根据密码学函数[0032]ID=fMl、M2....Mn、R、.....Key,[0033]也就是根据已知条件Ml、M2"..Mn、R、…..Key,计算关联ID值。步骤32,写入计算好的关联ID值,作为该数据表的索引字段值。步骤33,如果是已知某个记录,要进行数据访问,反查是谁的数据,则可使用M1、M2…_Mn、R^rVlD^ey,计算出关键字M,使用}^进行确定和查询。[0034]以数据表2为例,以访问表2的数据为例:假设我们定义的索引函数为[0035]RY—ID2=fXM\\SFZHM、Key[0036]假设f为AES算法,\\为字符组合运算,则我们要查找一个张三,51013019560704341的人,则他的ID为[0037]RY_ID2=AES张三51013019560704341,Key[0038]将该获得的值RY_ID2写入数据表2中。在正向查询时,可通过相同的计算获得该用户的数据RY_ID2。在反向查询该数据谁的数据时,则只需要计算AESRY_ID2,Key,就可以计算出该用户信息为张三5101301956070434。[0039]用本实施例的技术方案,将数据库的关联信息去除,可确保用户信息与用户数据的不相干,在极端数据泄漏的情况下,也可达到保护用户隐私的目的。同时,通过算法的选择、参数的选择,根据需要还可以实现数据之间的去耦合,也可以实现数据信息的恢复。在保护用户隐私情况下,为数据的利用提供了技术条件。该方法在安全与数据的利用之间取得了一个平衡。[0040]本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。

权利要求:1.一种防止隐私泄漏的数据脱敏方法,其特征在于,具体包括以下过程:步骤1,根据数据库的不同数据表之间的相同索引字段,去除显性关联;步骤2,针对数据表之间的索引字段,定义密码学函数,进行关联ID的处理;步骤3,根据密码学函数计算关联ID值,将关联ID值写入后,进行数据访问。2.如权利要求1所述的防止隐私泄漏的数据脱敏方法,其特征在于,所述步骤1的具体过程为:步骤11,通过数据库的不同数据表的相同索引字段进行索引关联;步骤12,将不同数据库之间的相同索引字段分别进行定义,使不同表格之间的索引字段值完全不同。3.如权利要求2所述的防止隐私泄漏的数据脱敏方法,其特征在于,所述步骤2的具体过程为:步骤21,针对数据表之间的索引字段,定义密码学函数ID=fM1、M2….Mn、R、〜..1^;其中,10为该表格的索引关联10,1;11、1^2,...,111为与用户相关的数据特征,1?为随机数,Key为本次运算选用的密钥,f为有限域的加密函数或者单向散列算法;步骤22,通过密码学函数的计算,使每个数据表的索引字段与数据表本身的索引字段值完全不同。4.如权利要求3所述的防止隐私泄漏的数据脱敏方法,其特征在于,步骤31,正向查询时,根据密码学函数ID=fMl、M2.••.Mn、R、…..Key,计算关联ID值;步骤32,写入计算好的关联ID值,作为该数据表的索引字段值;步骤33,进行数据访问,反向查询所需数据特征。

百度查询: 四川长虹智慧健康科技有限公司 一种防止隐私泄漏的数据脱敏方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。