Апскейл видео для распознавания: без галлюцинаций ИИ

Девяносто процентов видео с камер наблюдения, которые прогнали через популярные нейросети и принесли в суд или СБ — это техническая фабрикация улик. Апскейл видео нейросетью для распознавания давно превратился в опасную рулетку, где цена ошибки — обвинение невиновного человека или пропуск реального преступника.

«Какая фабрикация? Нейросети сейчас чудеса творят, лица генерируют в 4K. У нас весь парк — дешевые IP-камеры на 1–2 Мп, ночью сплошное мыло и квадраты H.264. Поставим GAN, и оператор все увидит!» — скажете вы.

В этом и кроется главная ловушка индустрии. Улучшить читаемость для скучающего оператора и восстановить математический факт для системы распознавания — это диаметрально противоположные задачи. Генеративный апскейл галлюцинирует по своей природе. Столкнувшись с месивом пикселей вместо номера машины, модель не вытягивает данные из пустоты. Она услужливо дорисовывает правдоподобные, но физически не существующие детали. Из грязного пятна вы получаете идеальную цифру «8» вместо реальной «3». Это юридически ничтожный результат. Если вы внедряете такое на объекте, вы своими руками закладываете бомбу под безопасность.

Вы все еще замеряете качество апскейла метриками PSNR или SSIM? Выкиньте их. Они показывают лишь абстрактную гладкость и математическое сходство пикселей, совершенно не понимая семантики. В суровом проде достоверность измеряется иначе. Нам важны перцептивные метрики вроде LPIPS, жесткий контроль hallucination-rate и синтетические тесты на подмену символов или идентичности лица. Если ваша модель при восстановлении смазанного потока меняет геометрию скул подозреваемого — это мусор, а не улучшение качества видеонаблюдения ИИ.

def is_identity_shifted(orig_crop, upscaled_crop, recognizer, threshold=0.85):
    orig_emb = recognizer.extract_embedding(orig_crop)
    up_emb = recognizer.extract_embedding(upscaled_crop)
    return cosine_similarity(orig_emb, up_emb) < threshold

Детерминированная реставрация: выжимаем recall на edge

«Хорошо, генерация врет. Значит ли это, что реставрация записи с камеры вообще бессмысленна и нам придется менять тысячи камер, ввозя их в обход санкций за миллионы?»

Нет, не значит. Просто нужно перестать играть в магию. Рабочий инструмент для видеонаблюдения — это строгая предобработка под конкретный детектор: деноайз, деблюр и деинтерлейс. Грамотное шумоподавление видеонаблюдения нейросетью работает как математический фильтр, убирая матричный шум и артефакты компрессии, но не создавая новых граней. Именно такой super-resolution для распознавания номеров и лиц имеет смысл. Когда вы подаете очищенный таким образом кадр в систему LPR или face-recognition, recall (полнота распознавания) прыгает на пятнадцать-сорок процентов вверх на реальных грязных кадрах. Детектор цепляется за восстановленные перепады контраста, которые раньше тонули в каше.

Но здесь мы упираемся в суровую физику железа. Забудьте про облака, данные камер не должны покидать периметр объекта. Считать нужно на edge-устройствах, и считать быстро.

Существует два принципиально разных конвейера. Первый — оффлайн-разбор архива. Инцидент уже произошел, запись изъята. Здесь можно использовать тяжелые диффузионные или каскадные модели, тратить секунды на каждый кадр, выкручивать настройки консервативного восстановления и вручную контролировать артефакты.

Второй конвейер — живой поток, где бюджет времени измеряется миллисекундами, а памяти — мегабайтами. Реалтайм-апскейл в инференс-конвейере на краю требует параноидальной оптимизации. Ваша легковесная сверточная сеть обязана летать через TensorRT или нативно компилироваться под NPU регистратора без троттлинга. Шаг влево, шаг вправо — пропуск кадров и слепая зона. Если обработка одного фрейма занимает больше пары десятков миллисекунд, весь ваш пайплайн аналитики складывается как карточный домик.

Правовая реальность и цепочка хранения

«Допустим, мы настроили edge-железо и подняли распознаваемость. Суд эту запись примет?»

Сырое восстановленное видео — нет. Чтобы суд или серьезная служба безопасности приняли материал в работу, вам придется доказать непрерывность цепочки хранения данных. Вы предоставляете не только результат, но и исходный зашифрованный файл с цифровой подписью регистратора. Вы прикладываете хэш-суммы до и после экспорта. Вы обязаны предоставить полный лог обработки: версию нейросети, архитектуру, веса и конфигурацию инференса. Эксперт должен иметь возможность взять ваш исходник, прогнать через ваш же пайплайн и получить побитово идентичный результат. Именно поэтому стохастические генеративные модели здесь под строгим запретом.

Чек-лист здоровой системы предельно прост. Апскейл помогает распознаванию, когда он детерминирован, жестко ограничен по времени инференса и математически не способен сгенерировать новую геометрию объекта. Он фабрикует улики, когда пытается сделать «красиво» за счет генеративных сетей, подгоняя реальность под ожидания оператора. Ваш первый шаг перед внедрением — это всегда слепой протокол замера recall до и после включения фильтров на грязном датасете с ваших собственных камер.

У нас в MoranaLabs пилоты видео-обработки на edge начинаются именно с таких замеров. Мы не меняем парк камер клиента и не рисуем голливудскую картинку. Мы разворачиваем легковесный пайплайн рядом с потоком, аппаратно замеряем метрики галлюцинаций и показываем, на сколько процентов реально вырос захват нарушителей. Жесткая инженерия против красивого обмана.

Апскейл видео нейросетью для распознавания: как восстановить лицо и номер, а не дорисовать чужие

Детерминированная реставрация: выжимаем recall на edge

Правовая реальность и цепочка хранения

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

СБИС, Диадок, Контур или своя модель: чем отличается распознавание первички

Сколько стоит распознавание документов в 1С: считаем на 3000 накладных в месяц

Распознавание первичных документов в 1С: как перестать вбивать накладные руками

Опишите задачу — ответим как инженеры.