数据脱敏方法选择框架

发布时间:

2023-03-27 16:37

数据脱敏方法选择框架

Informatica数据脱敏

数据脱敏的最大难点在于平衡隐私保护和数据挖掘需求,从某种意义上,运营商必须要致力保护的隐私内容(具体某个用户的具体位置、社会关系、访问内容等)可能也正是外部第三方希望通过挖掘得到的内容。基于上述对运营商大数据应用特点的分析,结合具体应用场景,在选择脱敏方法时应该考虑以下6个因素:

 

 

 

1)应用对数据可用性的要求,即脱敏后的数据满足分析应用需要的程度。如果脱敏后的数据完全无法用于目标分析,其也不具备使用价值。在特定的应用场景中,可能需要残留部分非关键信息(如手机号码部分字段、手机位置等)才能满足分析需求。

 

 

 

2)应用对数据真实性的要求。这里的真实性是指脱敏后的数据对原有数据逻辑特征、统计分布特征的保留程度。绝大部分应用,特别是数据服务类应用对数据统计分布特征都有明确要求;同时对于复杂业务,其相关信息可能跨表跨库,数据间的逻辑特征也必须予以保留。

 

 

 

3)应用对数据时效性的要求,即脱敏后数据需要在哪个时段内提供才有进一步分析挖掘的意义。

 

 

 

4)应用对数据可重现性的要求,即相同参数配置下,相同源数据脱敏后的数据是否必须一致。

 

 

 

5)脱敏方法资源占用。需要结合源数据量、源数据间行内同步、表内同步、跨表同步、跨库同步要求,考虑不同脱敏方法对计算资源、存储资源的需求。资源占用对数据时效性也会有潜在影响。

 

 

 

6)脱敏方法可配置性。是否可以结合需求,通过对脱敏方法的配置生成个性化的脱敏后数据。

 

 

 

上述几个要素中,脱敏方法资源占用主要需考虑企业内部的资源约束,除此以外都和具体应用相关。

 

 

数据脱敏仅仅是运营商企业内部信息安全管理的一个环节,现有的脱敏方法既要服务于企业业务发展,也要遵从整体的IT安全治理要求,脱敏方案的制定和方法的选择需要业务需求单位(包括第三方)、IT安全监管单位和数据实际管控单位协同才能取得预期的成果。

推荐新闻