Маскирование и обезличивание данных

Зачем бизнесу маскирование данных

В enterprise-среде данные почти всегда уходят дальше production-системы: в test/dev, BI, DWH, Data Lake, RAG, Document AI, сервисную поддержку, подрядчиков, интеграторов и внутренние песочницы. Именно там чаще всего появляется риск: реальные клиенты, сотрудники, платежи, договоры, медицинские сведения или коммерческие условия начинают жить в контурах, где меньше контроля, больше копий и шире круг пользователей.

Маскирование и обезличивание нужны не только для выполнения требований. Это способ быстрее запускать релизы, AI-пилоты и аналитику без постоянного ручного согласования каждой выгрузки. Хороший проект отвечает на простой управленческий вопрос: какие данные можно безопасно использовать, где их нужно заменить, где достаточно ограничить доступ, а где реальные записи вообще не должны покидать production.

Термины без тумана

Термин	Что означает на практике	Когда применим
Маскирование данных	Замена чувствительных значений на безопасные аналоги: часть номера, ФИО, адреса, счета или договора скрывается либо преобразуется.	Test/dev, поддержка, демонстрации, отчеты, выгрузки подрядчикам.
Обезличивание	Преобразование персональных данных так, чтобы без дополнительной информации нельзя было определить конкретного человека. В российском контексте связано с 152-ФЗ и требованиями Роскомнадзора.	Аналитика, исследования, витрины данных, обучение моделей, обмен наборами данных.
Псевдонимизация	Идентификаторы заменяются псевдонимами, но связь может быть восстановлена при наличии отдельного ключа или таблицы соответствия.	Сценарии, где нужна обратимость: расследования, сверки, поддержка процессов.
Токенизация	Чувствительное значение заменяется токеном, а оригинал хранится в защищенном контуре.	Платежные данные, клиентские идентификаторы, интеграции, API.
Синтетические данные	Искусственно созданные записи, похожие по структуре и распределениям на реальные, но не являющиеся данными конкретных людей.	Разработка, тестирование, обучение, нагрузочные сценарии, демонстрации.

Сокращения, которые часто встречаются в таких проектах: ПДн — персональные данные, ИСПДн — информационная система персональных данных, DWH — корпоративное хранилище данных, BI — бизнес-аналитика, RAG — Retrieval-Augmented Generation, подход, при котором AI отвечает с опорой на корпоративные источники, DLP — Data Loss Prevention, контроль утечек, DAM/DBF — Database Activity Monitoring / Database Firewall, мониторинг и защита баз данных.

Где возникают риски

Разработка и тестирование

Копия production-базы попадает в менее защищенный контур, где к ней получают доступ разработчики, тестировщики, подрядчики и CI/CD-процессы.

Аналитика и DWH

Данные объединяются из CRM, ERP, 1С, SAP, личных кабинетов и файловых хранилищ. Чем богаче витрина, тем выше риск повторной идентификации.

AI и RAG

Документы, запросы, логи и фрагменты базы знаний могут содержать ПДн, коммерческую тайну, внутренние цены, договорные условия и закрытые регламенты.

Подрядчики и поддержка

Внешней команде часто нужны реалистичные данные для диагностики, но не нужны реальные паспорта, телефоны, счета, адреса и персональные профили.

Российская и международная практика

В России базовый контекст задает 152-ФЗ «О персональных данных», требования к защите ИСПДн и приказы ФСТЭК России, включая приказ ФСТЭК №21. Для обезличивания важно учитывать приказ Роскомнадзора №140 от 19.06.2025 о требованиях к обезличиванию персональных данных. Если контур относится к критической информационной инфраструктуре, добавляется 187-ФЗ и требования по КИИ.

В международной практике полезны NIST Privacy Framework, NIST SP 800-188 по de-identification, NIST SP 800-122 по защите PII, материалы ENISA по псевдонимизации и EDPB Guidelines 01/2025. Мы используем эти подходы как практическую рамку: оценка риска повторной идентификации, минимизация данных, разделение ключей, контроль доступа, проверяемые процедуры и регулярный пересмотр правил.

Что делает РЕСТАРТ

Находим чувствительные данные

Собираем карту систем, таблиц, документов, логов, API, файловых хранилищ и владельцев данных. Отдельно смотрим production, test/dev, DWH, BI, AI и подрядчиков.

Классифицируем сценарии

Определяем, где нужны реальные данные, где достаточно маскирования, где нужна псевдонимизация, токенизация, обезличивание или синтетический набор.

Проектируем правила

Описываем поля, алгоритмы преобразования, обратимость, хранение ключей, исключения, роли, журналы, критерии качества и остаточный риск.

Встраиваем в архитектуру

Готовим HLD/LLD, интеграции, роли, регламенты, пилот, приемку, эксплуатацию и связку с ИБ, Data, DevSecOps, ERP и ИИ-контурами.

AI как ускоритель, а не автопилот

AI может существенно ускорить проект: находить вероятные ПДн в документах, таблицах, логах и коде; классифицировать поля; подсвечивать риск повторной идентификации; предлагать правила маскирования; проверять, не попадают ли чувствительные фрагменты в RAG-индекс, промпты, ответы и журналы. В test/dev AI помогает генерировать синтетические наборы данных, похожие на реальные по структуре и распределениям.

Но итоговое решение нельзя отдавать модели. Правила преобразования, допустимость обезличивания, остаточный риск и режим доступа должны подтверждать владельцы данных, ИБ, юристы и архитекторы. Роль РЕСТАРТ — сделать AI полезным инструментом обследования и контроля, а не источником неконтролируемых юридических или архитектурных выводов.

Secure AI audit RAG-пилот Document AI Restart AI Enterprise Platform

Партнерские технологии

Технологический стек зависит от задачи: статическое или динамическое маскирование, токенизация, защита баз данных, DLP, DBF/DAM, контроль действий пользователей, безопасная подготовка test/dev и интеграция с существующими хранилищами. РЕСТАРТ не начинает с выбора одного продукта: сначала фиксируются данные, сценарии, риски и архитектура, затем подбирается инструментальный контур.

ДАМАСК

маскирование, токенизация, динамическая защита данных

Гарда

DLP, DBF, Data Masking, NDR, WAF, Anti-DDoS

Партнеры указаны как технологическая опора класса решений. Конкретный состав продуктов, версии, лицензии, сертификаты и условия поставки подтверждаются перед проектом.

Партнерская экосистема ИБ Data, BI и DWH 152-ФЗ и ИСПДн

Что получает клиент

Артефакт	Зачем нужен
Карта чувствительных данных	Показывает, где хранятся ПДн, коммерческая тайна, платежные и договорные данные, кто владелец и куда они передаются.
Матрица сценариев	Разделяет production, test/dev, BI, DWH, AI, подрядчиков, поддержку и обмен данными по уровню риска.
Правила преобразования	Фиксируют поля, алгоритмы, обратимость, ключи, исключения, качество и остаточный риск.
Архитектура внедрения	Описывает HLD/LLD, интеграции, роли, журналы, контуры, пилот и эксплуатацию.
Evidence pack	Дает доказательную базу для ИБ, аудита, комплаенса и внутренних проверок.
Roadmap	Помогает начать с наиболее рискованных и ценных сценариев, не превращая проект в бесконечную инвентаризацию.

Первый шаг

Практичный старт — короткое обследование одного-двух контуров: например, production → test/dev, RAG-пилот по корпоративным документам или витрина BI/DWH с персональными и договорными данными. На этом этапе важно не обещать «полное обезличивание всего», а быстро понять реальные потоки, поля, владельцев, риски и ограничения.

После первой диагностики можно выбрать маршрут: пилот маскирования, политика подготовки test/dev, правила для AI/RAG, подключение вендорского решения, доработка DWH-процесса или полноценный проект по защите ИСПДн.

Обсудить контур данных Информационная безопасность Data, BI, DWH DevSecOps и AppSec

Проверка маскирования в лаборатории

Маскирование и обезличивание лучше проверять на контролируемом наборе данных: нужно убедиться, что бизнес-логика сохраняется, тесты проходят, аналитика не ломается, а реальные персональные данные не уходят в test/dev, подрядчикам или ИИ-сценариям. Лаборатория ИБ помогает проверить эти условия до масштабирования.

Лаборатория ИБ Secure AI audit 152-ФЗ и ИСПДн

Частые вопросы

Маскирование заменяет защиту персональных данных?

Нет. Это один из технических и организационных механизмов. Нужны также роли доступа, журналы, регламенты, модель угроз, контроль выгрузок и понятные владельцы данных.

Можно ли использовать реальные данные в test/dev?

Иногда без этого трудно проверить сложную бизнес-логику, но такой подход должен быть обоснован, ограничен и контролируем. Чаще безопаснее использовать маскированные, псевдонимизированные или синтетические наборы.

Обезличивание всегда необратимо?

Не всегда: в практическом языке компании смешивают обезличивание, псевдонимизацию и маскирование. Поэтому в проекте важно явно указать обратимость, ключи, риск повторной идентификации и допустимые сценарии использования.

Как это связано с RAG и корпоративным AI?

RAG и AI работают с документами, индексами, запросами и логами. Если в источниках есть ПДн или коммерческая тайна, правила маскирования, доступа и журналирования нужно проектировать до пилота, а не после демонстрации.

Можно ли начать без покупки DLP или DBF?

Да. Часто первый этап — карта данных, сценариев и рисков. После нее становится понятно, нужен ли отдельный продукт, доработка процессов, изменение ролей, маскирование на уровне БД или комбинация мер.

Что будет хорошим результатом первого этапа?

Понятная карта данных, список полей и систем, выбранные методы преобразования, ограничения, пилотный контур, критерии приемки и roadmap внедрения.

Обсудим ваш контур

Опишите задачу, текущие системы, ограничения и ожидаемый результат. Мы предложим первый практичный шаг: диагностику, пилот, аудит, дорожную карту или проектную команду.

Связаться