Какая, по-вашему, будет просадка ROC AUC на кредитном скоринге, если заменить исходный миллион строк с реальными транзакциями на их идеальную копию из генератора? Два процента? Пять? Правильный ответ — от пятнадцати до тридцати, если вы действительно настроили пайплайн так, чтобы безопасники не уехали писать объяснительные регулятору. Маркетинг стартапов, продающих privacy-safe ML, обожает графики, где распределение сгенерированных фичей сливается с оригиналом один в один. Это продается. Это выглядит как магия. И это прямой путь к уголовному делу, если в датасете лежит врачебная тайна.
Синтетические данные для финтеха и медицины: анатомия утечки
Когда ваш алгоритм — будь то модифицированный табличный GAN или современная диффузионная модель — слишком хорошо повторяет исходный датасет, он перестает обобщать и начинает тупо запоминать. Риск-менеджеры смотрят на красивые проекции, видят математическое совпадение статистических свойств и подписывают релиз. Данные отдаются внутренним аналитикам. А потом простейшая атака membership inference показывает, что нейросеть охотно подтверждает наличие в обучающей выборке конкретного человека с редким заболеванием или аномальным паттерном трат по кредитке. Модель переобучилась на выбросах. Вы не создали синтетику. Вы просто заархивировали сырые клиентские профили в весах генератора. Приватности здесь ноль.
Бенчмарк: когда метрики убивают безопасность
Посмотрим на цифры без маркетингового глянца. Допустим, CDO ставит задачу предсказать вероятность дефолта. На сырых банковских выписках алгоритм выдает Gini на уровне 0.72. Мы прогоняем эти данные через синтезатор, намеренно выкручивая параметр сохранения приватности на минимум. На выходе получаем датасет, который дает Gini 0.70. Бизнес в восторге. Безопасники верят бумагам и дают добро. Иллюзия контроля.
Чтобы реальные транзакции не утекли даже собственной команде R&D, генератор обязан работать с математической гарантией невозврата к исходнику. В индустрии это решается внедрением дифференциальной приватности на этапе обучения самого генератора. Но как только дата-инженер добавляет в градиенты достаточно шума для обеспечения адекватного privacy budget, синтетика начинает превращаться в статистическую кашу. Gini мгновенно падает до 0.55. Модель слепнет. Распределения расползаются. Это физика процесса. Торг неуместен.
Как обучить модель на чувствительных данных без нарушения 152-ФЗ
Полностью заменить историю транзакций или медицинские карты синтетикой не выйдет. Рабочий пайплайн всегда строится на гибридном подходе. Когда мы в Morana Labs катили privacy-safe генерацию для крупного медицинского страховщика, архитектура базировалась на жесткой изоляции. Базовый генератор обучается внутри закрытого контура. Туда нет доступа ни у кого, включая разработчиков модели. Наружу, в песочницу дата-сайентистов, выплевывается только глубоко анонимизированный синтетический датасет с намеренно зарезанным utility. На нем внешняя команда строит архитектуру нейросети, проверяет гипотезы, подбирает гиперпараметры и отлаживает пайплайны. Инженеры могут вертеть фичами как угодно, зная, что ни одна реальная строчка из базы не покинула периметр.
Когда код финальной ML-модели готов, он автоматизированно пробрасывается внутрь защищенного контура. Там он запускается поверх исходных, настоящих данных для итогового обучения. Синтетика в этой схеме нужна для снятия регуляторного риска на долгом этапе исследований и разработки, а не для подмены боевого датасета в проде. Доля синтетики в финальной обучающей выборке может составлять двадцать процентов исключительно для аугментации редких краевых случаев вроде специфического мошенничества. Все остальное время работает хардкорная инфраструктурная изоляция.
Валидация сгенерированного массива — это отдельный класс задач. Вы не можете натравить стандартный статистический тест на два столбца и успокоиться. Необходимо жестко замерять дистанцию до ближайшего реального соседа в многомерном пространстве признаков. Если сгенерированный профиль пациента совпадает с реальным человеком более чем на заданный порог, эта строка безжалостно удаляется из выборки. Синтетический датасет фильтруется через сито privacy-метрик еще до того, как до него дотронется первый дата-сайентист. Это замедляет пайплайн. Это делает подготовку данных дороже. Но это единственный легальный способ утилизировать гигантские массивы сырой информации, от которых корпоративные юристы падают в обморок. Выбирать не приходится.