为什么业务需要数据脱敏?
在企业环境中,数据几乎总是超出生产系统:测试/开发、BI、DWH、数据湖、RAG、文档 AI、服务支持、承包商、集成商和内部沙箱。这是风险最常出现的地方:真实的客户、员工、付款、合同、医疗信息或商业条款开始存在于控制较少、副本较多和用户范围更广的环境中。
需要屏蔽和匿名化不仅是为了遵守要求。这是一种更快地发布版本、人工智能试点和分析的方法,无需对每次上传进行持续的手动批准。一个好的项目回答了一个简单的管理问题:哪些数据可以安全使用,哪些数据需要替换,哪些数据足以限制访问,以及哪些真实记录根本不应该离开生产。
关键术语说明
| 学期 | 这在实践中意味着什么 | 何时申请 |
|---|---|---|
| 数据脱敏 | 用安全类似物替换敏感值:隐藏或转换部分号码、全名、地址、帐户或合同。 | 测试/开发、支持、演示、报告、上传给承包商。 |
| 人格解体 | 转换个人数据,以便在没有附加信息的情况下无法识别特定人员。在俄罗斯背景下,它与 152-FZ 和 Roskomnadzor 的要求有关。 | 分析、研究、数据集市、模型训练、数据集共享。 |
| 假名化 | 标识符被别名替换,但如果有单独的键或映射表可用,则可以恢复关系。 | 需要可逆性的场景:调查、协调、流程支持。 |
| 代币化 | 敏感值被替换为令牌,原始值存储在安全环境中。 | 支付数据、客户端 ID、集成、API。 |
| 综合数据 | 人工创建的记录在结构和分布上与真实记录相似,但不是特定人员的数据。 | 开发、测试、培训、负载场景、演示。 |
此类项目中经常出现的缩写: PDn - 个人数据, ISPD — 个人数据信息系统, DWH — 公司数据仓库, BI — 业务分析, RAG - 检索增强生成,一种人工智能根据企业资源做出响应的方法, DLP — 数据丢失预防、泄漏控制、 DAM/DBF — 数据库活动监控/数据库防火墙,监控和保护数据库。
风险出现的地方
开发与测试
生产数据库的副本最终会出现在安全性较低的环境中,开发人员、测试人员、承包商和 CI/CD 流程都可以访问它。
分析和 DWH
数据来自 CRM、ERP、1C、SAP、个人账户和文件存储。展示柜越丰富,被重新识别的风险就越高。
人工智能和RAG
文档、请求、日志和知识库片段可能包含个人数据、商业秘密、内部价格、合同条款和封闭法规。
承包商和支持
外部团队通常需要真实的数据进行诊断,但不需要真实的护照、电话号码、账户、地址和个人数据。
俄罗斯和国际实践
在俄罗斯,基本背景是由 152-FZ“关于个人数据”、ISPDn 保护要求和俄罗斯 FSTEC 指令,包括 FSTEC 第 21 号命令。对于去个性化,重要的是要考虑 Roskomnadzor 2025 年 6 月 19 日第 140 号命令 关于个人数据匿名化的要求。如果环境涉及关键信息基础设施,则增加187-FZ和CII要求。
在国际实践中有用 NIST Privacy Framework, NIST SP 800-188 通过去识别化, NIST SP 800-122 关于 PII 保护、材料 ENISA 关于假名化 和 EDPB Guidelines 01/2025。我们使用这些方法作为实用框架:重新识别风险评估、数据最小化、密钥分离、访问控制、可审计程序和规则定期审查。
RESTART 交付什么
查找敏感数据
我们收集系统、表格、文档、日志、API、文件存储和数据所有者的地图。我们分别关注生产、测试/开发、DWH、BI、AI 和承包商。
场景分类
我们确定哪里需要真实数据,哪里屏蔽就足够了,哪里需要假名化、标记化、去个性化或合成集。
设计规则
我们描述字段、转换算法、可逆性、密钥存储、异常、角色、日志、质量标准和残余风险。
我们融入到架构中
我们准备 HLD/LLD、集成、角色、法规、试点、验收、运营和与网络安全、数据、DevSecOps、ERP 和 AI 环境的连接。
人工智能作为加速器,而不是自动驾驶仪
人工智能可以显着加快项目速度:在文档、表格、日志和代码中查找可能的个人数据;对领域进行分类;强调重新识别的风险;提出屏蔽规则;检查RAG索引、提示、响应和日志中是否包含敏感片段。在测试/开发中,人工智能帮助生成在结构和分布上与真实数据集相似的合成数据集。
但最终的决定不能交给模型。转换规则、匿名化的可接受性、剩余风险和访问方式必须得到数据所有者、网络安全、律师和架构师的确认。 RESTART 的作用是让人工智能成为有用的调查和控制工具,而不是无法控制的法律或架构结论的来源。
附属技术
技术堆栈取决于任务:静态或动态屏蔽、标记化、数据库保护、DLP、DBF/DAM、用户活动控制、安全测试/开发准备以及与现有存储库的集成。 RESTART并不是从选择一种产品开始:首先记录数据、场景、风险和架构,然后选择仪器环境。
合作伙伴被列为解决方案类的技术骨干。产品的具体构成、版本、许可证、证书和交付条件均在项目前确定。
客户得到什么?
| 人工制品 | 为什么需要它? |
|---|---|
| 敏感数据卡 | 显示个人数据、商业秘密、付款和合同数据的存储位置、所有者是谁以及传输位置。 |
| 场景矩阵 | 按风险级别将生产、测试/开发、BI、DWH、AI、承包商、支持和数据交换分开。 |
| 换算规则 | 它们记录字段、算法、可逆性、密钥、异常、质量和残余风险。 |
| 实施架构 | 描述 HLD/LLD、集成、角色、日志、循环、试点和操作。 |
| Evidence pack | 为网络安全、审计、合规性和内部审计提供证据基础。 |
| Roadmap | 帮助您从最高风险和最高价值的场景开始,而不会将项目变成无休止的库存。 |
第一步
实际的开始是对一两个循环进行简短检查:例如,生产 → 测试/开发、公司文档的 RAG 试点或包含个人和合同数据的 BI/DWH 展示。现阶段重要的是不要承诺“一切都完全匿名”,而是要快速了解真实的流量、领域、所有者、风险和限制。
首次诊断后,您可以选择一条路线:屏蔽试点、测试/开发准备策略、AI/RAG 规则、连接供应商解决方案、最终确定 DWH 流程或成熟的 ISPD 保护项目。
在实验室测试掩蔽
屏蔽和匿名化最好在一组受控数据上进行测试:您需要确保保留业务逻辑、测试通过、分析不会中断,并且真实的个人数据不会进入测试/开发、承包商或人工智能脚本。网络安全实验室帮助在扩展之前测试这些条件。
常见问题
屏蔽能否取代个人数据保护?
不,这是技术和组织机制之一。我们还需要访问角色、日志、法规、威胁模型、上传控制和明确的数据所有者。
是否可以在测试/开发中使用真实数据?
有时,如果没有这个,就很难测试复杂的业务逻辑,但这种方法必须是合理的、有限的和受控的。使用屏蔽、假名或合成的集合通常更安全。
人格解体总是不可逆转的吗?
情况并非总是如此:在实际语言中,公司混淆了去个性化、假名化和掩盖。因此,在设计中明确说明可逆性、密钥、重新识别风险和可接受的用例非常重要。
这与 RAG 和企业人工智能有何关系?
RAG 和 AI 处理文档、索引、查询和日志。如果来源包含机密信息或商业秘密,则应在试点之前而不是在演示之后设计屏蔽、访问和记录规则。
是否可以在不购买 DLP 或 DBF 的情况下开始?
是的。通常第一步是绘制数据、场景和风险图。之后,是否需要单独的产品、流程的细化、角色的改变、数据库级别的屏蔽或措施的组合就变得清晰起来。
第一阶段会取得怎样的好结果?
清晰的数据图、领域和系统列表、选定的转换方法、限制、试点环境、验收标准和实施路线图。
让我们讨论一下您的环境
描述任务、当前系统、约束和预期结果。我们将提供实用的第一步:诊断、试点、审计、路线图或项目团队。






