RL-управление: где PID и ручные эвристики уже сдались

В 2019 году один химический холдинг решил добавить модного искусственного интеллекта в управление ректификационной колонной и поручил задачу дата-саентистам, которые до этого не видели вживую ничего сложнее графиков в Jupyter Notebook. (да-да в 2019 ваш хваленный ИИ был и до 2022) Обученный агент бодро нашел локальный математический оптимум, открыл две задвижки на максимум и уронил давление так стремительно, что сработала аппаратная блокировка, остановив цех на сутки. Внедрять Reinforcement Learning там, где PID и ручные эвристики уже сдались — это действительно единственный способ вытащить максимум из нелинейных процессов. Но если вы тащите в суровую АСУ ТП методы из академических соревнований без понимания физики железа, вы просто за огромные деньги строите очень опасную кнопку аварийного останова.

Инструкция по сжиганию прибыли: вера во всемогущий каскадный ПИД

Самый надежный способ годами терять throughput и пропускную способность предприятия — это свято верить, что классическая теория автоматического управления способна эффективно разруливать многомерные нелинейные процессы с огромным транспортным запаздыванием. ПИД-регулятор смотрит в прошлое. Он берет текущую ошибку рассогласования, интегрирует ее, вычисляет производную и совершенно ничего не знает о том, что произойдет с системой через сорок минут. Когда у вас сложный химический реактор или многостадийная флотация, где изменение давления в одном контуре отзовется изменением температуры в другом через полчаса, ваши ПИД-регуляторы либо начинают раскачивать систему, вступая в резонанс друг с другом, либо вы намеренно их загрубляете. Вы делаете их медленными и консервативными, чтобы установка просто не развалилась.

В этот момент в дело вступает человек. Оператор смены видит, что автоматика не справляется на предельных режимах, переводит управление в ручной режим и начинает рулить процессом на основе интуиции и накопленных ручных эвристик. Он держит параметры далеко от критических границ, обеспечивая стабильность за счет колоссальной потери эффективности. Пытаться автоматизировать эти действия через гигантское дерево if-else правил, гордо называя это экспертной системой — еще один шаг в пропасть. Как только меняется марка сырья, температура охлаждающей воды или изнашивается крыльчатка насоса, все жестко закодированные правила превращаются в мусор, и процесс снова идет вразнос.

RL-агент принципиально отличается от алгоритмической автоматизации правил. Он не заучивает чужие инструкции. Он выучивает политику управления — непрерывное отображение высокоразмерного вектора состояний датчиков в вектор непрерывных управляющих воздействий. Он максимизирует интегральную награду на горизонте всего эпизода. Агент понимает, что слегка субоптимальное открытие клапана прямо сейчас предотвратит тепловой затык системы через час. Он способен предвидеть последствия своих действий в сильно связной динамической среде, решая ту самую многомерную задачу оптимизации, которая не под силу ни линейному регулятору, ни оператору-человеку.

Как убить железо при переносе: sim-to-real gap и галлюцинации симулятора

Но вернейший способ быть уволенным с позиции главного технолога — это обучить такого агента в базовом симуляторе и отправить получившиеся веса нейросети прямиком в ПЛК на реальную установку. Вы на полной скорости разобьетесь о sim-to-real gap. Математические модели идеальны, а реальный производственный цех — это бесконечный хаос из люфтов механики, гистерезиса пневмоприводов, дрейфа сенсоров и сетевых задержек в шинах передачи данных. Если ваш агент в процессе обучения нашел микроскопическую уязвимость в физическом движке симулятора, чтобы накрутить себе награду, он обязательно попытается провернуть этот же трюк с реальным насосом, порвав ему механику резкими высокочастотными колебаниями.

Чтобы этого не произошло, используется жесткий domain randomization. Вы не пытаетесь создать идеального цифрового двойника. Вы намеренно превращаете симуляцию в ад. Вы случайным образом вносите агрессивный шум во все физические параметры: меняете коэффициенты трения на тридцать процентов, симулируете мертвые зоны клапанов, задерживаете пакеты с телеметрией. Ваша политика управления должна научиться быть адаптивной к распределению возможных параллельных вселенных, а не переобучиться под одну вылизанную математическую абстракцию.

Наш подход в MoranaLabs строго разделяет политику оптимизации и детерминированные контуры безопасности, в отличие от рынка, который часто пытается запихнуть все физические ограничения прямо в функцию награды (reward penalty). Агент вообще не должен иметь возможности физически сломать установку, даже если он сойдет с ума. Мы оборачиваем выход нейросети в жесткий action masking и резервные safety-оболочки. ЕслиRL-контроллер предлагает уставку, которая приведет к нарушению температурного режима, оболочка безжалостно обрезает это действие или моментально перебрасывает управление на резервный консервативный ПИД. Мы оцениваем успешность модели не по среднему приросту эффективности, а по метрикам p99 при худших сценариях внешних возмущений. Если метрики показывают хотя бы долю процента вероятности выхода за технологический регламент, модель не идет в продакшен.

Метрики тщеславия и стрельба нейросетью по воробьям

Финальный гвоздь в крышку гроба индустриального машинного обучения — это применение тяжеловесных алгоритмов там, где они объективно не нужны. Reinforcement Learning — это невероятно сложный, капризный и дорогой в обслуживании инструмент. Если ваш технологический процесс линеен, изолирован, а грамотно настроенный классический регулятор вытягивает девяносто пять процентов теоретического предела эффективности, попытка внедрить туда нейросеть — это клиническая форма карго-культа. Вы потратите месяцы на разработку сложного математического аппарата для проблемы, которая решается покупкой более точного расходомера или продувкой труб.

Другое суждение, определяющее наш вектор в MoranaLabs — мы беремся расчехлять тяжелую артиллерию вроде алгоритмов SAC или PPO только после того, как доказано, что классика физически исчерпала свой потенциал. RL оправдан там, где финансовый рычаг максимален, а сложность процесса ломает человеческую интуицию. Это газовая сепарация, сложный непрерывный синтез, металлургия и энергоемкие процессы с сильной инерцией. В тех сценариях, где приближение к границам физических ограничений всего на пару процентов конвертируется в сотни миллионов сэкономленных средств за квартал. Именно там, где классика капитулировала перед хаосом нелинейной динамики, агент с подкреплением начинает стабильно приносить прибыль, перестав быть хайповой игрушкой и став суровым индустриальным инструментом.

Reinforcement Learning там, где PID и ручные эвристики сдались

Инструкция по сжиганию прибыли: вера во всемогущий каскадный ПИД

Как убить железо при переносе: sim-to-real gap и галлюцинации симулятора

Метрики тщеславия и стрельба нейросетью по воробьям

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

Сверка двух документов: почему это не diff, а задача сопоставления

ИИ в 1С:ERP и УНФ: чем отличается внедрение на разных конфигурациях

Локальная LLM для 1С: когда нельзя в облако

Опишите задачу — ответим как инженеры.