ИИ-анализ медицинских снимков: регистрация медизделия

Если вы завтра поднимете свой гениальный Python-скрипт с PyTorch на сервере городской больницы и начнете размечать пневмонию без регистрационного удостоверения, вы не инноватор. Вы подследственный.

Почти все стартапы и ML-команды ломаются именно здесь. Они тренируют модели компьютерного зрения на открытых датасетах, выбивают 99% ROC-AUC, приходят к ИТ-директору клиники и искренне не понимают, почему их заворачивают. А заворачивают их потому, что легальный ИИ-анализ медицинских снимков в клинике: как пройти регистрацию медизделия и не получить штраф — это вопрос не красивых метрик, а уголовного кодекса и выживания бизнеса.

Легальный ИИ-анализ медицинских снимков в клинике: как пройти регистрацию медизделия и не получить штраф

В России любая программа (Software as a Medical Device, SaMD), которая интерпретирует медицинские данные для диагностики, лечения или профилактики — это медицинское изделие. И точка. Никаких «мы просто информационная система» или «мы даем рекомендацию». Если ваш софт анализирует пиксели КТ и говорит «здесь может быть опухоль», вы попадаете под класс потенциального риска 2б или 3 (наивысший).

Что это значит на практике? Это значит технические испытания, оценка эксплуатационной документации и клинические испытания. В Росздравнадзоре нет кнопки «собрать и задеплоить». Вам придется доказывать безопасность алгоритма на ретроспективных, а иногда и проспективных клинических данных. Если вы выкатите систему без РУ (регистрационного удостоверения) и на ее основе врач примет неверное решение, клиника получит штраф, а при причинении вреда здоровью пациента — главврач и разработчик пойдут под суд.

Triage: почему ваш F1-score никому не нужен

Врачи ненавидят «черные ящики». Модель выдала «здоров», пациент ушел домой и умер от пропущенного кровоизлияния. Кто сядет? Врач. Модель ответственности не несет, ее в СИЗО не посадишь. Поэтому ИИ внедряется не как финальный диагност, а как ассистент-приоритизатор (triage).

Задача ИИ — не заменить рентгенолога, а пересортировать его рабочий список (worklist). Из сотни рутинных флюорографий модель должна найти пять с пневмотораксом и выкинуть их на самый верх очереди с красным флагом. Kaggle-метрики здесь бесполезны. Реальные метрики в проде выглядят так:

Доля приоритизированных исследований: процент снимков с реальной угрозой, которые алгоритм выдернул со дна PACS-очереди.
P99 latency до диагноза: время от генерации DICOM-файла томографом до прочтения снимка врачом в критических случаях.
Уровень ложноотрицательных срабатываний (False Negatives): метрика, за которую сажают.

Ложноотрицательные в медицине критичны. Если алгоритм triage пропустит патологию, снимок упадет на дно очереди, и уставший врач доберется до него только в конце смены. Трейд-офф тут жестокий, и он решается на этапе калибровки порога срабатывания: мы намеренно задираем чувствительность (Recall), заливая врача ложноположительными срабатываниями (False Positives), лишь бы не пропустить реальную угрозу. Врач будет ругаться на ложную тревогу. Но ругающийся врач — это лучше, чем мертвый пациент.

152-ФЗ и DICOM-анархия: добро пожаловать в серверную

Теперь к архитектуре. Отправить DICOM-файл по REST API в публичное облако — это прямое нарушение 152-ФЗ, раскрытие врачебной тайны и гарантированные проблемы с регуляторами. Особые категории персональных данных не могут летать по публичным сетям без сертифицированного криптошлюза.

«Мы просто анонимизируем DICOM на лету», — говорят джуны. Анонимизация снимков — миф. Вы вычистите стандартные мета-теги, но ФИО и дата рождения пациента могут быть аппаратно вжжены в сами пиксели рентгеновским аппаратом (burned-in annotations). Обнаружить и затереть этот текст надежно на 100% до отправки в облако невозможно.

Вывод один: инференс живет on-premise. Строго внутри защищенного контура клиники.

Когда мы в MoranaLabs катили пайплайн детекции патологий на КТ для одной сети клиник, нам пришлось ставить edge-серверы прямо в их локальные серверные. Никаких внешних API. Железо стоит под лестницей, охлаждается бытовым сплитом, интегрируется с местным PACS-сервером и должно успевать гонять тяжелый 3D-сверточный трансформер, выдавая предсказание за 15 секунд, чтобы не заблокировать очередь исследований.

Для PACS-сервера клиники ваша ML-модель должна притворяться обычным DICOM-узлом. Она должна уметь принимать C-STORE запросы, парсить бинарник, дергать локальный GPU и отдавать результат в виде DICOM Structured Report. Выглядит это примерно так:

from pynetdicom import AE, evt
import torch

def handle_store(event):
    ds = event.dataset
    # Извлечение пикселей с учетом Photometric Interpretation
    tensor_data = extract_pixels_to_tensor(ds)
    
    # Инференс строго на локальном GPU
    with torch.no_grad():
        prediction = local_model(tensor_data)
        
    if prediction.is_critical:
        # Эмулируем HL7/DICOM флаг для приоритизации в рабочей станции врача
        flag_study_for_triage(ds.StudyInstanceUID, priority="HIGH")
        
    return 0x0000 # Статус Success

# Поднимаем слушатель, притворяясь DICOM-хранилищем
ae = AE(ae_title=b"AI_TRIAGE_NODE")
ae.add_supported_context('1.2.840.10008.5.1.4.1.1.2') # CT Image Storage
ae.on_c_store = handle_store

# Слушаем трафик в закрытом контуре клиники
ae.start_server(("10.0.0.15", 11112))

Никто не даст вам доступ к реальным потокам диагностических данных, пока вы не докажете свою безопасность на бумаге и не обеспечите ее в архитектуре. В медицине нет слова «бета-тестирование в проде». Ошибки инференса здесь не откатываются быстрым патчем. Они хоронят людей. Компьютерное зрение начинает приносить пользу в клинике ровно в тот момент, когда инженерия и ML признают главенство процесса, протокола и регуляторики. А не пытаются их хакнуть.

ИИ-анализ медицинских снимков в клинике: как пройти регистрацию медизделия и не получить штраф

Легальный ИИ-анализ медицинских снимков в клинике: как пройти регистрацию медизделия и не получить штраф

Triage: почему ваш F1-score никому не нужен

152-ФЗ и DICOM-анархия: добро пожаловать в серверную

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

СБИС, Диадок, Контур или своя модель: чем отличается распознавание первички

Сколько стоит распознавание документов в 1С: считаем на 3000 накладных в месяц

Распознавание первичных документов в 1С: как перестать вбивать накладные руками

Опишите задачу — ответим как инженеры.