Разметка данных: своя команда, аутсорс или синтетика

Сколько на самом деле стоит один bounding box на фотографии вашего сборочного цеха? Вы думаете, два рубля, потому что так обещает лендинг популярной краудсорсинговой платформы. Реальная цена — это стоимость проваленного внедрения, когда ваш хваленый пайплайн компьютерного зрения ложится под нагрузкой на первом же нестандартном блике от заводской лампы. Разметка данных: своя команда, аутсорс или синтетика — считаем деньги и риски, игнорируя маркетинговые сказки и глядя только на сухую математику. Индустрия молчит о том, что computer-vision сжирает бюджеты не на закупке видеокарт, а на монотонной подготовке датасетов, и именно здесь проекты получают пробоину ниже ватерлинии.

Возьмем типовой бенчмарк: нам нужно разметить сто тысяч примеров. На каждом кадре требуется выделить целевые объекты боксами или полигонами. У бизнеса есть три пути, и каждый из них таит свои капканы.

Аутсорс-платформы продают иллюзию скорости и дешевизны. Вы заливаете архив, пишете инструкцию на полстраницы, и через неделю забираете JSON-файлы с координатами. Стоимость разметки одного бокса у анонимных фрилансеров падает до полутора-трех рублей. Итоговый чек за весь пул в сто тысяч картинок составит около трехсот тысяч рублей. Звучит как победа эффективного менеджмента, но на выходе вы получаете долю брака в пятнадцать-двадцать процентов. Люди по ту сторону монитора кликают ради объема. Они устают, игнорируют перекрытия, не понимают физику ваших деталей и срезают углы везде, где скрипт не бьет их по рукам.

Но главная проблема аутсорса даже не в качестве. Для огромного пласта индустриальных систем этот путь закрыт юридически.

Если вы делаете систему контроля доступа со сканированием лиц (СКУД), обрабатываете медицинские снимки или работаете с финансовыми документами, ваши данные намертво защищены 152-ФЗ и режимами коммерческой тайны. Вы не имеете права выносить этот архив за изолированный периметр. Любой NDA в краудсорсинге — это фикция. Загрузка лиц реальных сотрудников или рентгеновских снимков на публичную платформу для разметки неизвестными исполнителями — это не оптимизация костов, а готовое уголовное дело об утечке персональных данных.

Это жестко подводит нас к созданию in-house команды разметчиков.

Собственный штат решает проблему приватности данных в зародыше. Сервер с CVAT или Label Studio стоит в вашем контуре, доступ только через VPN по ролевой модели. Вы нанимаете пять-семь человек, сажаете их на оклады. И тут экономика меняет знак. Зарплата, налоги, организация рабочих мест и лицензии на софт взвинчивают стоимость одной метки до двенадцати-пятнадцати рублей. Бюджет на те же сто тысяч примеров легко пробивает полтора миллиона рублей, а время исполнения растягивается на месяцы, потому что люди выгорают от монотонности.

Зато доля брака падает до двух-пяти процентов. Вы можете физически подойти к разметчику, развернуть его монитор и объяснить, почему край турбинной лопатки считается по фаске, а не по падающей тени.

Если аутсорс опасен, а свои люди обходятся слишком дорого, бизнес неизбежно смотрит в сторону синтетических данных. Зачем платить людям, если пиксели можно нарендерить?

Синтетика и auto-labeling выглядят как идеальный хак системы. Вы сажаете 3D-художника в Unreal Engine или Blender, он собирает цифровую копию цеха, настраивает рандомизацию освещения, текстур и фокусов камер. Месяц работы с зарплатой в триста тысяч рублей — и у вас в руках бесконечный генератор идеальных, попиксельно размеченных кадров. Стоимость новой метки стремится к абсолютному нулю. Вы можете сгенерировать миллион примеров за выходные на простаивающих серверах.

Честный трейд-офф здесь бьет по самому больному месту — это sim-to-real gap. Разрыв между симуляцией и реальностью. Нейросеть блестяще выучит математику рендера физического движка, но впадет в кому от слоя масляной пыли на объективе реальной камеры. Синтетика невероятно дешева, но она мертва. Когда мы в MoranaLabs катили систему автоматической дефектоскопии на металлургическом прокатном стане, нам пришлось генерировать синтетическую ржавчину, потому что реальных примеров критической коррозии просто не хватало для балансировки классов. Но без тяжелого дообучения на реальных, грязных фотографиях с производства модель просто отказывалась видеть дефекты под мерцающими лампами цеха.

Синтетика шикарно работает для прогрева весов и предраспознавания базовой геометрии, но дотягивать точность до p99 и выживать в продакшене вам придется только на реальных пикселях.

Как вы собираетесь контролировать то, что накликали люди? Верить разметчику на слово — это инженерное самоубийство. Единственный рабочий механизм контроля качества в промышленных масштабах — это консенсус и математическая оценка.

Вы заставляете двух независимых людей размечать один и тот же кадр, не зная о существовании друг друга. Затем скрипт считает Intersection over Union (IoU) для боксов. Если метрика совпадения падает ниже 0.8 — кадр блокируется и автоматически летит на арбитраж к сеньор-разметчику. Для задач классификации вы считаете Cohen's kappa, измеряя статистическую надежность согласия. Да, вы платите за разметку одной картинки дважды. Экономика проекта стонет. Но это на порядки дешевле, чем переобучать архитектуру на мусорном градиенте, сжигая тысячи долларов на GPU-часы в пустом поиске сходимости.

Чтобы не обанкротиться на двойной перекрестной проверке, ручной труд нужно резать безжалостно и системно. Никто в здравом уме не размечает сто тысяч изображений руками от первого до последнего.

Вместо этого вы используете active learning. Вы берете первые пять тысяч случайных кадров, размечаете их идеально, с тройным контролем. Обучаете легковесную базовую модель. Затем прогоняете оставшиеся девяносто пять тысяч неразмеченных кадров через инференс этой модели. Она сама расставляет боксы, но самое ценное — она отдает уверенность (confidence) в своих предсказаниях.

import numpy as np

def active_learning_routing(predictions, threshold_low=0.45, threshold_high=0.85):
    manual_review = []
    auto_labeled = []
    
    for pred in predictions:
        # Берем уверенность сети для топового класса
        top_conf = np.max(pred['confidences'])
        
        if top_conf < threshold_low:
            # Модель не понимает, что видит. Сложный краевой случай. Отправляем людям.
            manual_review.append(pred['image_id'])
        elif threshold_low <= top_conf < threshold_high:
            # Зона неуверенности. Margin sampling. Требуется ручной арбитраж.
            manual_review.append(pred['image_id'])
        else:
            # Уверенность > 85%. Модель справилась. Забираем предразметку автоматически.
            auto_labeled.append(pred['image_id'])
            
    return manual_review, auto_labeled

Математика неопределенности работает безотказно. Если модель уверена в боксе на девяносто процентов, мы забираем эту предразметку в датасет автоматически. Если уверенность болтается около пятидесяти процентов — нейросеть столкнулась с аномалией. Именно этот, самый информативный и сложный кусок данных, мы отправляем живым людям.

Этот подход обрушивает объем ручной работы в три-пять раз. Разметчик перестает рисовать контуры с нуля. Его работа сводится к быстрой корректировке узлов или банальному подтверждению того, что уже нашла нейросеть. Предразметка моделью ломает старую экономику: вы получаете скорость аутсорса, математическое качество инхауса и безопасность полностью изолированного контура данных.

Архитектура разметки зависит исключительно от профиля ваших рисков. Если данные публичные, а цена ошибки копеечная — лейте архивы в краудсорс и закладывайте процент на шум. Если на кону доступ к объекту, коммерческая тайна или сложная индустриальная дефектоскопия — стройте свою команду, внедряйте жесткий автоматический арбитраж и срезайте косты через active learning. Разметка — это не дешевая механическая работа для студентов. Это бетонный фундамент, на котором ваша нейросеть либо будет стоять годами, либо развалится в первый же день под реальной нагрузкой.

Разметка данных: своя команда, аутсорс или синтетика — считаем деньги и риски

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

СБИС, Диадок, Контур или своя модель: чем отличается распознавание первички

Сколько стоит распознавание документов в 1С: считаем на 3000 накладных в месяц

Распознавание первичных документов в 1С: как перестать вбивать накладные руками

Опишите задачу — ответим как инженеры.