Думаете, если залить веса последней YOLOv12x на свежий Jetson, вы сразу получите заявленные 55 mAP на восьми потоках и закроете акт приемки? Реальность ударит по лицу примерно через десять минут работы, когда радиатор разогреется до девяноста градусов, а фреймрейт рухнет до однозначных чисел. Скажу прямо: слепая вера в бенчмарки на датасете COCO — это самый надежный способ похоронить индустриальную видеоаналитику на этапе пилота. Вендоры меряют показатели на серверных монстрах калибра A100 или H100, а вам нужно впихнуть это в пассивное охлаждение на заводе, где облака под строгим запретом из-за 152-ФЗ, а гонять RTSP-трафик наружу не позволяет служба безопасности.
Хотите гарантированно завалить проект? Начните с выбора самой модной архитектуры без оглядки на физику кремния.
YOLOv11 vs YOLOv12 vs RT-DETR на edge-боксе: маркетинг против железа
Индустрия обожает хайп. Вчера все молились на классические сверточные сети, сегодня выкатывают attention-centric архитектуры. YOLOv12 бьет рекорды в статьях, доказывая превосходство механизмов внимания. Проблема в том, что механизмы внимания требуют колоссальной пропускной способности памяти. На мощной десктопной видеокарте это работает прекрасно. На урезанной шине Jetson Orin Nano или промышленного мини-ПК с интегрированной графикой attention-блоки начинают задыхаться, ожидая данных. У нас в Morana Labs добрая половина заказных edge-проектов начинается с того, что мы вычищаем из продакшена тяжеловесные трансформеры, которые предыдущий подрядчик пытался заставить работать в реалтайме.
Старая добрая YOLOv11, построенная на проверенной CNN-базе, на слабом железе утилизирует вычислительные блоки гораздо плотнее. Разница в mAP на синтетическом датасете может составлять пару процентов в пользу двенадцатой версии, но в реальном продакшене одиннадцатая версия выдает стабильные кадры в секунду там, где новинка уходит в жесткий троттлинг.
Если же вы решили поиграть в бескомпромиссную точность и притащили RT-DETR или его развитие RF-DETR, будьте готовы к аппаратному голоду. DETR-архитектуры великолепно справляются с плотными сценами и перекрытиями, избавляя от необходимости крутить параметры NMS. Но их вычислительная сложность ставит крест на обработке восьми камер одним устройством среднего ценового сегмента. На стареньком ускорителе T4 вы еще сможете вытянуть несколько потоков, но попытка запустить это на CPU обернется слайд-шоу со скоростью два кадра в секунду.
Как расплавить Jetson Orin и потерять заказчика
Второй надежный шаг к провалу — выкатить модель в формате FP16 или, что еще хуже, FP32, загрузить все восемь RTSP-потоков в разрешении FullHD и пойти пить кофе. Через десять минут температура кристалла пробьет критическую отметку, частоты упадут вдвое, и система начнет терять кадры. Потеря кадров в трекинге означает срыв траекторий, а в детекции СИЗ — пропущенные нарушения.
Единственный рабочий способ держать тепловой пакет в норме при плотном потоке — это агрессивная INT8-квантизация с последующей компиляцией в TensorRT или ONNX Runtime с аппаратным ускорителем. Да, вы потеряете от половины до одного процента mAP. Но дельта по задержке составит внушительные шестьдесят процентов, а тепловыделение останется в рамках приличия.
from ultralytics import YOLO
model = YOLO("yolo11s.pt")
model.export(
format="engine",
half=False,
int8=True,
data="custom_domain.yaml",
workspace=4,
device="0"
)Этот примитивный шаг игнорируют с пугающей регулярностью, пытаясь компенсировать нехватку производительности закупкой более дорогих железок. GPU сейчас в дефиците, бюджеты режут, и заставлять заказчика покупать T4 туда, где прекрасно справится квантованная модель на Jetson NX — это инженерная импотенция.
Цена ложного срабатывания в ночную смену
Третий способ угробить внедрение — поверить в универсальность предобученных весов. Базовые модели отлично находят людей при дневном свете на стоковых фотографиях. Но на реальном объекте наступает ночь. Включается ИК-подсветка, появляются засветы от фар погрузчиков, дождь заливает объектив, а тени от заборов начинают двигаться.
Тяжеловесная модель из коробки начнет генерировать ложные срабатывания, принимая кусты за нарушителей. Каждое такое срабатывание ночью — это сигнал тревоги на пульт охраны. После десятого ложного вызова оператор просто отключит вашу умную систему. Цена false positive в индустриальном секторе измеряется не долями mAP, а реальными деньгами и доверием к продукту.
В суровой реальности компактная модель вроде YOLOv11s, заботливо дообученная на вашем доменном датасете с аугментацией ночных сцен и шумов камеры, бьет огромную YOLOv12x zero-shot как по точности, так и по скорости. Меньшая модель плюс глубокий тюнинг всегда побеждают грубую силу гигантских архитектур.
Сводная таблица: железо, потоки и деньги
Хватит абстракций, смотрим на цифры. Это усредненные показатели для оптимизированных INT8-моделей на реальных объектах, где обрабатываются восемь RTSP-потоков.
| Модель (доменная) | Железо | Потоков (1080p) | Общий FPS | Реальный mAP50 | Оценка бюджета |
|---|---|---|---|---|---|
| YOLOv11s (INT8) | Jetson Orin Nano 8GB | 8 | ~120 (15 на камеру) | 0.82 | Низкий |
| YOLOv11m (INT8) | Jetson Orin NX 16GB | 8 | ~160 (20 на камеру) | 0.86 | Средний |
| YOLOv12s (INT8) | Jetson Orin NX 16GB | 8 | ~90 (11 на камеру) | 0.87 | Средний |
| RT-DETR-R18 | NVIDIA T4 (Сервер) | 8 | ~100 (12 на камеру) | 0.89 | Высокий |
| YOLOv11n (INT8) | Intel Core i7 (CPU OpenVINO) | 4 (не 8) | ~40 (10 на камеру) | 0.76 | Низкий |
Обратите внимание на падение производительности YOLOv12 из-за узкого места в памяти Jetson. Архитектура требует иных вычислительных балансов. RT-DETR предсказуемо требует взрослого серверного ускорителя, чтобы вытянуть хотя бы двенадцать кадров на канал при восьми потоках. Если у вас на объекте стоят пыльные мини-ПК без дискретной графики, ваш единственный выход — OpenVINO и нано-версии моделей, причем количество каналов придется сократить вдвое.
Нет серебряной пули. Есть жесткие ограничения по тепловому пакету, пропускной способности памяти и цене за канал. Если вы хотите узнать, какую связку железа и модели выбрать для ваших условий, начните с пилота edge-видеоаналитики на одной камере с честным замером FPS и mAP на вашем контуре. Выбирайте инженерию, а не красивые графики из пресс-релизов.