数据屏蔽和匿名化

为什么业务需要数据脱敏？

在企业环境中，数据几乎总是超出生产系统：测试/开发、BI、DWH、数据湖、RAG、文档 AI、服务支持、承包商、集成商和内部沙箱。这是风险最常出现的地方：真实的客户、员工、付款、合同、医疗信息或商业条款开始存在于控制较少、副本较多和用户范围更广的环境中。

需要屏蔽和匿名化不仅是为了遵守要求。这是一种更快地发布版本、人工智能试点和分析的方法，无需对每次上传进行持续的手动批准。一个好的项目回答了一个简单的管理问题：哪些数据可以安全使用，哪些数据需要替换，哪些数据足以限制访问，以及哪些真实记录根本不应该离开生产。

关键术语说明

学期	这在实践中意味着什么	何时申请
数据脱敏	用安全类似物替换敏感值：隐藏或转换部分号码、全名、地址、帐户或合同。	测试/开发、支持、演示、报告、上传给承包商。
人格解体	转换个人数据，以便在没有附加信息的情况下无法识别特定人员。在俄罗斯背景下，它与 152-FZ 和 Roskomnadzor 的要求有关。	分析、研究、数据集市、模型训练、数据集共享。
假名化	标识符被别名替换，但如果有单独的键或映射表可用，则可以恢复关系。	需要可逆性的场景：调查、协调、流程支持。
代币化	敏感值被替换为令牌，原始值存储在安全环境中。	支付数据、客户端 ID、集成、API。
综合数据	人工创建的记录在结构和分布上与真实记录相似，但不是特定人员的数据。	开发、测试、培训、负载场景、演示。

此类项目中经常出现的缩写： PDn - 个人数据， ISPD — 个人数据信息系统， DWH — 公司数据仓库， BI — 业务分析， RAG - 检索增强生成，一种人工智能根据企业资源做出响应的方法， DLP — 数据丢失预防、泄漏控制、 DAM/DBF — 数据库活动监控/数据库防火墙，监控和保护数据库。

风险出现的地方

开发与测试

生产数据库的副本最终会出现在安全性较低的环境中，开发人员、测试人员、承包商和 CI/CD 流程都可以访问它。

分析和 DWH

数据来自 CRM、ERP、1C、SAP、个人账户和文件存储。展示柜越丰富，被重新识别的风险就越高。

人工智能和RAG

文档、请求、日志和知识库片段可能包含个人数据、商业秘密、内部价格、合同条款和封闭法规。

承包商和支持

外部团队通常需要真实的数据进行诊断，但不需要真实的护照、电话号码、账户、地址和个人数据。

俄罗斯和国际实践

在俄罗斯，基本背景是由 152-FZ“关于个人数据”、ISPDn 保护要求和俄罗斯 FSTEC 指令，包括 FSTEC 第 21 号命令。对于去个性化，重要的是要考虑 Roskomnadzor 2025 年 6 月 19 日第 140 号命令关于个人数据匿名化的要求。如果环境涉及关键信息基础设施，则增加187-FZ和CII要求。

在国际实践中有用 NIST Privacy Framework, NIST SP 800-188 通过去识别化， NIST SP 800-122 关于 PII 保护、材料 ENISA 关于假名化和 EDPB Guidelines 01/2025。我们使用这些方法作为实用框架：重新识别风险评估、数据最小化、密钥分离、访问控制、可审计程序和规则定期审查。

RESTART 交付什么

查找敏感数据

我们收集系统、表格、文档、日志、API、文件存储和数据所有者的地图。我们分别关注生产、测试/开发、DWH、BI、AI 和承包商。

场景分类

我们确定哪里需要真实数据，哪里屏蔽就足够了，哪里需要假名化、标记化、去个性化或合成集。

设计规则

我们描述字段、转换算法、可逆性、密钥存储、异常、角色、日志、质量标准和残余风险。

我们融入到架构中

我们准备 HLD/LLD、集成、角色、法规、试点、验收、运营和与网络安全、数据、DevSecOps、ERP 和 AI 环境的连接。

人工智能作为加速器，而不是自动驾驶仪

人工智能可以显着加快项目速度：在文档、表格、日志和代码中查找可能的个人数据；对领域进行分类；强调重新识别的风险；提出屏蔽规则；检查RAG索引、提示、响应和日志中是否包含敏感片段。在测试/开发中，人工智能帮助生成在结构和分布上与真实数据集相似的合成数据集。

但最终的决定不能交给模型。转换规则、匿名化的可接受性、剩余风险和访问方式必须得到数据所有者、网络安全、律师和架构师的确认。 RESTART 的作用是让人工智能成为有用的调查和控制工具，而不是无法控制的法律或架构结论的来源。

Secure AI audit RAG飞行员 Document AI Restart AI Enterprise Platform

附属技术

技术堆栈取决于任务：静态或动态屏蔽、标记化、数据库保护、DLP、DBF/DAM、用户活动控制、安全测试/开发准备以及与现有存储库的集成。 RESTART并不是从选择一种产品开始：首先记录数据、场景、风险和架构，然后选择仪器环境。

大马士革

屏蔽、标记化、动态数据保护

加尔达

DLP, DBF, Data Masking, NDR, WAF, Anti-DDoS

合作伙伴被列为解决方案类的技术骨干。产品的具体构成、版本、许可证、证书和交付条件均在项目前确定。

网络安全合作伙伴生态系统数据、BI 和 DWH 152-FZ 和 ISPDn

客户得到什么？

人工制品	为什么需要它？
敏感数据卡	显示个人数据、商业秘密、付款和合同数据的存储位置、所有者是谁以及传输位置。
场景矩阵	按风险级别将生产、测试/开发、BI、DWH、AI、承包商、支持和数据交换分开。
换算规则	它们记录字段、算法、可逆性、密钥、异常、质量和残余风险。
实施架构	描述 HLD/LLD、集成、角色、日志、循环、试点和操作。
Evidence pack	为网络安全、审计、合规性和内部审计提供证据基础。
Roadmap	帮助您从最高风险和最高价值的场景开始，而不会将项目变成无休止的库存。

第一步

实际的开始是对一两个循环进行简短检查：例如，生产 → 测试/开发、公司文档的 RAG 试点或包含个人和合同数据的 BI/DWH 展示。现阶段重要的是不要承诺“一切都完全匿名”，而是要快速了解真实的流量、领域、所有者、风险和限制。

首次诊断后，您可以选择一条路线：屏蔽试点、测试/开发准备策略、AI/RAG 规则、连接供应商解决方案、最终确定 DWH 流程或成熟的 ISPD 保护项目。

讨论数据画像网络安全 Data, BI, DWH DevSecOps 和应用程序安全

在实验室测试掩蔽

屏蔽和匿名化最好在一组受控数据上进行测试：您需要确保保留业务逻辑、测试通过、分析不会中断，并且真实的个人数据不会进入测试/开发、承包商或人工智能脚本。网络安全实验室帮助在扩展之前测试这些条件。

网络安全实验室 Secure AI audit 152-FZ 和 ISPDn

常见问题

屏蔽能否取代个人数据保护？

不，这是技术和组织机制之一。我们还需要访问角色、日志、法规、威胁模型、上传控制和明确的数据所有者。

是否可以在测试/开发中使用真实数据？

有时，如果没有这个，就很难测试复杂的业务逻辑，但这种方法必须是合理的、有限的和受控的。使用屏蔽、假名或合成的集合通常更安全。

人格解体总是不可逆转的吗？

情况并非总是如此：在实际语言中，公司混淆了去个性化、假名化和掩盖。因此，在设计中明确说明可逆性、密钥、重新识别风险和可接受的用例非常重要。

这与 RAG 和企业人工智能有何关系？

RAG 和 AI 处理文档、索引、查询和日志。如果来源包含机密信息或商业秘密，则应在试点之前而不是在演示之后设计屏蔽、访问和记录规则。

是否可以在不购买 DLP 或 DBF 的情况下开始？

是的。通常第一步是绘制数据、场景和风险图。之后，是否需要单独的产品、流程的细化、角色的改变、数据库级别的屏蔽或措施的组合就变得清晰起来。

第一阶段会取得怎样的好结果？

清晰的数据图、领域和系统列表、选定的转换方法、限制、试点环境、验收标准和实施路线图。

让我们讨论一下您的环境

描述任务、当前系统、约束和预期结果。我们将提供实用的第一步：诊断、试点、审计、路线图或项目团队。

联系我们