Голосовое заполнение медкарт: ИИ без утечки данных

Врачи-машинистки — это управленческий провал клиники, который руководство упорно маскирует нехваткой времени на приеме. Голосовое заполнение медкарт: как снять с врача 2 часа писанины в день без утечки данных пациентов? Ответ один: перестать играться в публичные облака и развернуть жесткий локальный пайплайн, который работает быстрее, чем терапевт успевает вымыть руки.

Думаете, дефолтный ChatGPT или Яндекс спасет вашу регистратуру? Забудьте. Как только аудиозапись с ФИО, диагнозом «сифилис» и деталями семейного анамнеза улетает за периметр учреждения на сервера стороннего вендора, вы получаете гарантированное нарушение врачебной тайны и 152-ФЗ. Данные о здоровье — это специальная категория персональных данных. Использование публичных API для инференса медицинской первички — это не инновация, это преступная халатность, за которую рано или поздно придет Роскомнадзор. Единственный жизнеспособный вариант для индустрии — строгий on-premise.

Голосовое заполнение медкарт: под капотом ASR и LLM пайплайна

Типичный терапевт тратит до трети времени приема на клавиатуру. Пациент жалуется кушетке, врач смотрит в монитор, пытаясь одной рукой набивать текст, а другой искать назначения в справочнике. Результат предсказуем: выгорание персонала, пробки в коридорах и бессмысленные отписки в ЕМИАС вместо реальной клинической картины. Технически проблема решается через speech-ai, но дьявол кроется в архитектуре системы.

Пайплайн строится на двух тяжеловесных компонентах: модуле автоматического распознавания речи (ASR) и LLM-экстракторе. Базовый Whisper ломается на первой же гастроэнтерологии. Он выдаст вам «сфинктер Одиссея» вместо «сфинктер Одди» и «децибел» вместо «дицинон». Медицинская лексика требует глубокого дообучения акустической модели на специфичных датасетах с высокой частотой профессиональных терминов. Более того, классические sequence-to-sequence архитектуры склонны к галлюцинациям на фоновых шумах — они могут бесконечно повторять одно и то же слово, если услышат гул кондиционера. Поэтому в проде мы часто гибридизируем подходы или используем языковые модели (LM) с жестким словарем поверх акустических признаков, чтобы снизить Word Error Rate (WER) на критической лексике до приемлемых 5-7%.

Но сырой транскрипт — это только половина дела. Врачу не нужна стенограмма приема, ему нужен заполненный протокол. Здесь вступает в игру локальная LLM. Задача модели — не вести диалоги, а агрессивно парсить грязный текст в строго типизированную структуру. Модель класса Llama 3 8B, квантованная до 4 или 8 бит, отлично влезает в память серверной L4 или даже десктопной RTX 4090. При правильном системном промпте и использовании техник constrained generation (генерация по грамматике), нейросеть извлекает из аудиопотока жалобы, анамнез, объективный статус и назначения, отдавая их в формате JSON, готовом для вставки в Медицинскую информационную систему (МИС).

def process_appointment_stream(audio_buffer, asr_engine, llm_pipeline):
    # Выделяем реплики врача и пациента через кластеризацию эмбеддингов
    segments = pyannote_diarization(audio_buffer)
    
    transcript = []
    for seg in segments:
        text = asr_engine.transcribe(
            audio_buffer[seg.start : seg.end],
            hotwords_weight=0.8,
            domain_lexicon="gastroenterology"
        )
        transcript.append(f"{seg.speaker}: {text}")
    
    prompt = build_emr_prompt(" ".join(transcript))
    # Жесткое ограничение генерации по JSON-схеме МИС
    emr_data = llm_pipeline(
        prompt,
        grammar_schema=MIS_PROTOCOL_SCHEMA,
        temperature=0.1
    )
    return emr_data

В этом коде спрятана главная боль любого речевого проекта — диаризация спикеров. В реальности кабинета врач и пациент постоянно перебивают друг друга. Без разделения по голосам LLM неизбежно смешает жалобы пациента на давление с рекомендациями кардиолога, сгенерировав бредовый анамнез. Диаризация решает эту проблему через извлечение векторных представлений (embeddings) спикеров и их спектральную кластеризацию. Мы четко маркируем: вот это говорит врач, а вот это — пациент.

Грязная физика кабинета: шумы и ответственность

Теперь о суровом трейд-оффе, о котором молчат продавцы облачных ИИ-стартапов. Система ломается о физику. Плачущий младенец на фоне, открытое окно на шумный проспект, скрип кресла и дешевый петличный микрофон за тысячу рублей убивают качество распознавания быстрее, чем любые алгоритмические недоработки. Чудес не бывает: garbage in — garbage out. Поэтому на уровне железа внедрение всегда начинается с аппаратных шумоподавителей или направленных микрофонов с узкой диаграммой.

Второй критический момент — юридическая ответственность. ИИ не ставит диагнозы и не лечит. Голосовой ассистент — это лишь продвинутый инструмент транскрибации. Вся ответственность за финальный текст протокола всегда лежит на враче. Существует железобетонное правило внедрения:

Врач обязан вычитывать сформированный документ перед сохранением в МИС.

Если нейросеть ошибется и напишет 100 мг активного вещества вместо 10 мг, а врач нажмет «Подписать не глядя» — под суд пойдет человек, а не сервер. Но даже с учетом обязательной вычитки, метрики эффективности бьют все рекорды. Пробежаться глазами по структурированному тексту и поправить пару опечаток занимает 40-50 секунд. Печать того же объема с нуля отнимает 6-8 минут. Умножьте эту разницу на 20-30 пациентов за смену, и вы получите те самые сэкономленные часы, которые врач может потратить на реальный осмотр, а клиника — на увеличение пропускной способности без потери качества.

Инфраструктура на грани: как это катится в прод

Медицинский хайлоад отличается от обычного веба. Здесь throughput (пропускная способность) и latency (задержка) критичны в моменте. Врач не будет ждать две минуты, пока сервер переварит аудио. Структурированный текст должен появляться в карточке практически синхронно с окончанием диктовки.

У нас в MoranaLabs этот архитектурный вызов решается через выделенные edge-ноды. Мы не гоняем терабайты сырого звука по внутренней сети медцентра на центральный сервер. Инференс-сервер с тензорными ускорителями ставится прямо в серверной клиники и работает по локальному WebSocket-соединению со всеми рабочими станциями. Аудио стримится чанками, ASR работает в потоковом режиме, а LLM запускается по триггеру завершения приема. В результате данные пациентов никогда не покидают физический периметр учреждения, задержка ответа составляет миллисекунды, а система сохраняет полную работоспособность даже при падении внешнего интернет-канала.

Голосовое заполнение медкарт: как снять с врача 2 часа писанины в день без утечки данных пациентов

Голосовое заполнение медкарт: под капотом ASR и LLM пайплайна

Грязная физика кабинета: шумы и ответственность

Инфраструктура на грани: как это катится в прод

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

СБИС, Диадок, Контур или своя модель: чем отличается распознавание первички

Сколько стоит распознавание документов в 1С: считаем на 3000 накладных в месяц

Распознавание первичных документов в 1С: как перестать вбивать накладные руками

Опишите задачу — ответим как инженеры.