常用数据脱敏架构和方法

发布时间:

2023-03-27 16:37

常用数据脱敏架构和方法

Informatica数据脱敏

所谓数据脱敏 D a t a M a s k i n g ) 是对个人身份识别数据(personal identifiable data)、个人敏感数据(personal sensitive data)和商业敏感数据(commercially sensitive data)进行伪装,以便用于生产系统以外的地方[3]。数据脱敏不是新的技术,当前也有很多成熟的商用解决方案可以选择,如Oracle的Data Masking组件[4]、IBM的InfoSphere OptimData Privacy产品[5]、Informatica的Informatica DataMasking产品[6]等,其中Informatica的产品可以实现对异构数据的脱敏处理。针对特定的生产环境(如异构系统),也可以自己创建脱敏平台或系统进行脱敏处理。脱敏后数据的服务对象,可以是企业内部统计分析、企业生产系统的开放、测试环境,也可以是外部第三方。当然,面向不同的服务对象,针对其服务要求,脱敏的级别和方法也有不同。

 

 

 

从架构的角度看,数据脱敏有2种常用架构:

 

1)动态(On the Fly/Dynamic)数据脱敏架构。指数据脱敏规则应用于在将数据从源数据库(生产库)导出到目标数据库(脱敏后数据库)的过程中进行脱敏处理,或者在生产系统产生实际数据的同时,也同步产生用于其他环境的脱敏数据。这种架构有2个好处:脱敏目标库可以获得实时性很高的数据;

 

 

 

在生产系统外不存在非脱敏数据,减少安全风险。这种架构产生的问题是,脱敏处理会对生产系统产生一定的压力;脱敏策略可定制性不强,一旦投入持续生产就不能调整,否则会影响现有业务;脱敏应用会对源数据库到目标数据库链路安全和稳定性有较高要求;该架构一般都要求脱敏工具和生产库管理软件紧密耦合,限制可用工具的选择范围。

 

 

 

2)静态(Static)数据脱敏架构。通过对源数据库的克隆来进行脱敏操作,形成目标数据库。脱敏规则可以在第三方实体上执行,也可以在目标数据库上执行。因为面对的是生产数据的镜像,这种架构可以根据需要调整脱敏规则,灵活性更高;脱敏工具的选择范围也更大;相对动态架构,静态架构对生产系统的压力更小。这种架构的风险是,因为涉及到第三方平台或目标数据库存储源数据,安全风险会增加;此架构获取的脱敏数据实时性相对动态架构偏低。

 

 

 

具体的数据脱敏方法,主要有以下6种:

 

1)替代。指用伪装数据完全替换源数据中的敏感数据,一般替换用的数据都有不可逆性,以保证安全。替代是最常用的数据脱敏方法,具体操作上有常数替代(所有敏感数据都替换为唯一的常数值)、查表替代(从中间表中随机或按照特定算法选择数据进行替代)、参数化替代(以敏感数据作为输入,通过特定函数形成新的替代数据)等。具体选择的替代算法取决于效率、业务需求等因素间的平衡。替代方法能够彻底的脱敏单类数据,但往往也会使相关字段失去业务含义,对于查表替代而言,中间表的设计非常关键。

 

 

 

2)混洗。主要通过对敏感数据进行跨行随机互换来打破其与本行其他数据的关联关系,从而实现脱敏。混洗可以在相当大范围内保证部分业务数据信息(如有效数据范围、数据统计特征等),使脱敏后数据看起来跟源数据更一致,与此同时也牺牲了一定的安全性。一般混洗方法用于大数据集合、且需要保留待脱敏数据特定特征的场景;对于小数据集,混洗形成的目标数据有可能通过其他信息被还原,在使用的时候需要特别慎重。

 

 

 

3)数值变换。指对数值和日期类型的源数据,通过随机函数进行可控的调整(例如对于数值类型数据随机增减20%;对于日期数据,随机增减200天),以便在保持原始数据相关统计特征的同时,完成对具体数值的伪装。数值变化通过调整变动幅度可以有效控制目标数据的统计特征和真实度,是常用的脱敏方法。

 

 

 

4)加密。指对待脱敏数据进行加密处理,使外部用户只看到无意义的加密后数据,同时在特定场景下,可以提供解密能力,使具有密钥的相关方可以获得原数据。加密的方法存在一定的安全风险(密钥泄露或加密强度不够);加密本身需要一定的计算能力,对于大数据集来源会产生很大资源开销;一般加密后数据与原始数据格式差异较大,“真实性”较差。一般情况下,加密的数据脱敏方式应用不多。

 

 

 

5)遮挡(Mask Out)。指对敏感数据的部分内容用掩饰符号(如“X、*”)进行统一替换,从而使得敏感数据保持部分内容公开。这种方法可以在很大程度上脱敏的同时,保持原有数据感观,也是一种广泛使用的方法。

 

 

 

6)空值插入/删除。指直接删除敏感数据或将其置为NULL值。在条件允许的情况下,这种方法最直接。

 

 

 

总体而言,数据脱敏的方法有以上6个类别。在具体应用时,可以根据业务需求,结合可用计算资源情况,进行灵活选择。

推荐新闻