PrimiHub一款由密码学专家团队打造的开源隐私计算平台,专注于分享数据安全、密码学、联邦学习、同态加密等隐私计算领域的技术和内容。
无论是静态数据存储、数据使用,还是数据传输,任何时候保护数据的安全都是至关重要的,本文将介绍目前两种常见的数据混淆方法——数据脱敏和数据加密。
什么是数据脱敏以及它是如何工作的?
数据脱敏是将敏感数据转化为虚假或掩码数据的过程,这些数据看起来与真实数据相似。脱敏不会暴露任何真实信息,如果被截获对攻击者来说也是无用的。
数据脱敏是一项具有挑战性的工作。脱敏后的数据集必须保持与原始未脱敏数据集的复杂性和独特特征相同,以便查询和分析仍然能够产生相同的结果。这意味着脱敏数据必须在系统和数据库之间保持引用完整性。例如,个人的社会保险号必须脱敏为相同的社会保险号,以保留主键和外键以及关系。需要注意的是,并非每个数据字段都需要脱敏。
数据脱敏的类型
根据数据类型,可以使用多种数据脱敏技术来混淆数据,包括以下几种:
数据脱敏的三种主要类型如下:
什么是数据加密以及它是如何工作的?
加密被认为是确保数据的安全和隐私的终极保障。它提供了机密性,构成了机密性、完整性和可用性安全三元素中的一部分。如果加密数据丢失、被窃取或未经授权访问,它将保持毫无意义。
数据,或明文,使用加密算法和加密密钥,一旦加密,加密数据,或密文,会呈现为乱码和不可读。要将密文重新查看为明文,必须使用正确的加密密钥对数据进行解密。加密可保护数据在静态存储和传输中。静态存储的示例包括存储在文件、数据库中或存档在备份磁带上的情况。数据在传输时是指将数据发送到另一个位置,例如通过网络发送到另一个设备。
最常用的加密方法是对称加密和非对称加密:
对称加密使用相同的秘密密钥来加密和解密数据,并保护数据在静态存储中。AES-128和AES-256被用来保护敏感信息,因为它们被认为对暴力破解攻击是安全的。虽然AES-256比AES-128更强大,但需要更多的处理能力,速度较慢。当电源或延迟是一个问题时,比如在移动设备或物联网设备上,AES-128是首选的选项。
非对称加密使用两个相互依赖的密钥:一个公钥和一个私钥。当数据使用公钥加密时,只有相关的私钥可以解密,反之亦然。RSA是最流行的非对称加密算法。它适用于在信任边界之间传输数据时进行保护。由于RSA需要大量资源,通常使用AES进行数据加密,只有AES密钥通过RSA加密保护。
敏感数据应始终保持加密,即使在处理和分析时也是如此。然而,软件开发人员和数据科学家可能会发现难以处理加密数据。基本任务可能难以执行,例如,如果出生日期被加密,就无法根据年龄筛选用户。
数据脱敏克服了这些问题,因为它保持了个人可识别信息(PII)的私密性。它通过生成一个特征上准确但虚构的数据集来减少对真实数据的使用和风险。黑客无法对数据集进行逆向工程或使用它来识别个人。
数据脱敏与数据加密
它们的关键区别如下:
加密通常用于保护敏感数据的存储和传输,而数据脱敏则使组织能够在使用数据集时,不必暴露真实数据。无论选择哪种方法,确保加密密钥和数据脱敏算法的保护至关重要,以防止未经授权的访问。
许多法规和标准,如GDPR、HIPAA、PCI DSS和CCPA等,都要求组织确保个人身份信息(PII)的安全和隐私。尽管这些法规和标准对于数据处理和保护至关重要,但它们对于那些希望从数据中提取价值或与他人共享数据的公司来说,也带来了一定挑战。
无论是加密还是数据脱敏,都帮助企业降低了敏感数据被泄露的风险,从而有助于满足合规性要求。目前,许多组织已经开始采用增强隐私技术,这些技术利用密码学和统计学方法来混淆敏感数据,使其能够安全地与多个方共享和进行分析。这些方法不仅有助于维护合规性,还允许组织充分利用数据的潜力,而不必担心数据安全性的问题。
原文地址:Data masking vs. data encryption: How do they differ?
原文作者:Michael Cobb
翻译 & 整理:开放隐私计算 & PrimiHub