Робот Moya «92% человека»: разбор хайпа и зловещей долины

«ЭТО УЖЕ НЕ РОБОТ! Moya на 92% Человек! Интернет ВЗОРВАЛСЯ! Она СЛИШКОМ Живая!» — под такими заголовками ролики про шанхайского андроида собрали миллионы просмотров. Я посмотрел исходники. Робот настоящий: это не CGI и не нейрорендер, его сняли живьём на launch-событии. А вот «92% человека» — это маркетинговая цифра, помноженная на кликбейт-конвейер. Отделим железо от хайпа: где тут честная инженерия, где недоделка, а где просто строчка из пресс-релиза.

Сразу о методе. Где число пришло от самой компании — помечаю; где из независимого источника — называю его. Выдуманных метрик здесь нет.

Moya по фактам — это биомиметический гуманоид шанхайского стартапа DroidUp (он же Zhuoyide), показанный в феврале 2026 в Zhangjiang Robotics Valley. Заявленные характеристики: рост 1,65 м, вес около 32 кг, силиконовая кожа с подогревом до 32–36 °C, камеры в глазах, скорость до 3 м/с. Заявленная цена — порядка $173 000 (≈1,2 млн юаней) за штуку, старт продаж — конец 2026, первая партия около 50 единиц. Рынок институциональный: здравоохранение, образование, сервис, — а не игрушка на полку. Это всё со слов DroidUp; независимых замеров характеристик нет.

Коротко

«92%» — это не про человека. Цифра — собственное маркетинговое заявление DroidUp о сходстве походки, без независимого бенчмарка и без раскрытой методологии. Кликбейт превратил «на 92% похожа походка» в «на 92% человек».
Жуть живёт в лице, а не в ногах. Скованная мимика — не лень инженеров, а фундаментальный барьер: лицо это не набор поз, а скорость деформации мягких тканей, и её робототехника воспроизводит хуже всего.
«Двигается как человек» — это дешёвая часть. RL-политика, дающая человекоподобное движение, давно демократизировалась. Мы получили такое движение в симуляции на бюджете порядка 1 млн рублей. Десятки миллионов долларов для этого не нужны.
Десятки миллионов — а пластика костыльная. DroidUp подняла, по оценкам, около $28,5 млн, а на железе Moya движется скованно и неживо. Вопрос не «почему железо дорогое», а «куда ушли деньги, если даже дешёвая часть не вышла».

Откуда взялись «92%» и почему это пустая цифра

Начнём с самого числа — вокруг него построен весь хайп. «92%» — это заявление DroidUp о сходстве походки Moya с человеческой. Издание revolutioninai формулирует прямо: цифра пришла из собственного маркетинга DroidUp, ни один независимый бенчмарк и ни одна сторонняя оценка её не подтвердили. Не «92% человека». Не «92% неотличимости». Сходство походки. По нераскрытой методике.

Что такое «92% сходства походки» инженерно? Пока не названа метрика — ничего. Сходство можно мерить как DTW по траекториям суставов, как корреляцию профилей реакции опоры, как расстояние в пространстве походных признаков, как процент кадров, прошедших порог дискриминатора. Каждая метрика даст свою цифру, и подгонкой нормировки одну и ту же походку можно показать и как «72%», и как «95%». Число без методики — это не измерение, это слоган. На публичном бенчмарке оно бы не выжило.

А что видно глазами? Futurism, посмотрев те же кадры, ставит на то, что реальная цифра «менее лестная»: движения скованные, в неотрепетированных дублях с живого события слышно щёлканье актуаторов, руки и лицо вблизи — «приближение, а не копия». Демо-сцены смонтированы в пользу робота (показательный кадр с апельсиновым соком собран так, чтобы не было видно, что Moya умеет и чего не умеет в связке). Это нормальная практика продуктового видео — но это не данные.

Сверху садится кликбейт-конвейер. «Этот ИИ-робот пугает», «X% человек», «слишком живая» — узнаваемый жанр: реальные кадры, драматичный закадровый голос (часто синтез, AI-slop) и заголовок с накрученным процентом. Фича «тёплая кожа» тут же раздувается до бульварных формулировок про «китайскую Барби». К инженерии это отношения не имеет — это экономика внимания. Робот стал поводом, цифра — приманкой.

Где на самом деле живёт жуть — это лицо

Теперь по существу ощущения «мимика мёртвая». Оно верное, и причина не в том, что инженеры DroidUp ленивые. Лицо — самый сложный фронт во всей антропоморфной робототехнике, и проигрывают на нём все, включая тех, кто на нём специализируется.

Первый соблазн — сказать «мало моторов». Это не так. У Engineered Arts Ameca — 27 степеней свободы в голове и лице (61 актуируемое движение), у Hanson Sophia — порядка 33 DOF и больше 30 моторов в голове. Ещё в 2006-м Albert HUBO нёс 28 сервоприводов только на мимику. «Много моторов в лице» существует двадцать лет и зловещую долину не закрывает. Да, у человека ~43 мимические мышцы и десятки тысяч выражений — на порядок больше независимых приводов, — но дело даже не в их числе.

Дело в динамике. Ещё Масахиро Мори в эссе 1970 года заметил вещь, которую сегодня недооценивают: скорость деформации критична. Замедли улыбку вдвое — и вместо счастливого лица получишь жуткое. Лицо — это не последовательность поз, которые надо точно отыграть, а вязкоупругая ткань, которая деформируется с правильными временны́ми константами. Силиконовая кожа на жёстких приводах не воспроизводит распределённую механику живой кожи: она тянется не там, не с той скоростью и не затухает как надо. Мозг наблюдателя ловит это за доли секунды и ставит метку «почти труп». Гипотеза зловещей долины эмпирически спорная и единой метрики человекоподобия нет — но конкретно эффект «замедленной мимики» воспроизводится стабильно.

Дальше — глаза. Живой глаз никогда не стоит на месте: тремор, дрейф, микросаккады один-два раза в секунду. Уберите фиксационные движения — и взгляд читается как стеклянный, «мёртвый». Контринтуитивный момент, на котором валятся новички: саккады и моргания надо реализовывать скачками, а не плавными интерполяциями. Плавно «переезжающий» зрачок выглядит роботичнее, чем резкий баллистический скачок. Тут плавность — враг.

И речь. Рассинхрон губ и звука обостряет зловещую долину: рассогласование зрители начинают ловить примерно с 45 мс, когда звук опережает картинку (на отставание звука мозг терпимее — порог выше, около 100–125 мс по ITU-R BT.1359). А скрытая буферизация в аудиотракте — TTS, сеть, Bluetooth — легко набирает 100–200 мс. Визуальная артикуляция реально меняет то, что мы слышим (эффект Макгурка, 1976): губы и звук, рассыпавшись по времени, дают «неправильный» фонетический результат прямо в восприятии. Лицо — это задача тайминга, а не количества моторов.

Лабораторно в эту динамику уже целятся: живая культивированная кожа с «перфорационными якорями» по образцу кожных связок (Токийский ун-т, 2024), гибридная актуация Morpheus (RSS 2025) — жёсткие механизмы на глаза и рот ради точности плюс тросы на щёки и нос ради тонких микровыражений. Но это прототипы со стенда, не серийные продукты. На этом фронте сегодня не выигрывает никто — поэтому ставить туда основной бюджет в 2026-м странно.

А вот RL и плавная походка — уже почти рутина

Здесь начинается то, ради чего стоит читать. Обучить нейросеть двигаться по-человечески — давно не магия. Только разделим «несложно» на два множителя, чтобы не было наивного флекса.

Базовый стек демократизировался по-настоящему. Massively-parallel RL в Isaac Gym учит квадрупеда ANYmal ходить по плоскости меньше чем за 4 минуты и по пересечёнке за ~20 минут на одной GPU с 4096 параллельными окружениями (Rudin et al., CoRL 2021). «A Walk in the Park» (Smith et al., 2022) учит Unitree A1 ходить прямо на железе за 20 минут алгоритмом SAC, вообще без симуляции — то есть в простом случае sim-to-real можно обойти. Berkeley Humanoid и Humanoid-Gym показывают zero-shot перенос на гуманоид, а новый электрический Atlas от Boston Dynamics крутит RL-политику «state → команды моторам», обученную в симуляции на retargeted-mocap (по ряду источников — в Isaac Lab) с переносом на железо. RL-локомоция вышла из лабораторий в индустрию.

Почему же роботы дёргаются? Потому что RL по своей природе эксплуатирует высокочастотный шум ради награды: без явных ограничений политика выдаёт дёрганые команды, которые и выглядят рвано, и гробят актуаторы, и валят перенос. Это не свойство задачи — это то, что забыли запретить. Лечится известными приёмами, и первый из них — раздельные частоты контура:

# Каноничный humanoid-стек: «дискретная» политика НЕ обязана быть дёрганой.
# Политика-нейросеть крутится на ~100 Гц, а внутренний PD-контур мотора — на 1000 Гц.
# Между ними команда сглаживается железом, а не выглядит как лестница.
target_q = policy(obs)              # 100 Гц: куда ведём суставы
tau = kp * (target_q - q) - kd * dq # 1000 Гц: PD добивает плавно

# Плавность не появляется сама — её закладывают в reward как явный штраф:
reward = (
    w_track * tracking_reward                         # держим заданную скорость/походку
    - w_arate * sq_norm(a_t - a_prev)                 # action rate: штраф за рывок команды
    - w_jacc  * sq_norm(joint_acc)                    # за ускорение в суставах
    - w_jerk  * sq_norm(a_t - 2*a_prev + a_prev2)     # за jerk (3-я производная)
    - w_tau   * sq_norm(tau)                          # за энергию и момент
)
# Сверху — регуляризация политики (CAPS): соседние во времени действия близки,
# близкие состояния дают близкие действия. На дроне это ~90% прироста плавности.

Второй приём — закрыть динамику привода. Главный источник sim-to-real gap не кинематика, а актуаторы: потери, задержки, компляенс, которые в симуляторе обычно смоделированы плохо. Классическое решение — actuator network: отдельная сеть предсказывает реальный выходной момент из истории ошибок и встраивается в симулятор при обучении (Hwangbo et al., Science Robotics, 2019 — именно это закрыло перенос для ANYmal). Современный PACE идентифицирует пяток физических параметров привода из ~20 секунд данных и переносит zero-shot вообще без доменной рандомизации.

А вот теперь честный второй множитель. Плавная агрессивная динамика на гуманоиде — это уже реальная инженерная боль, а не кнопка. Гуманоид top-heavy, недоактуирован в плавающем основании, опорный полигон при ходьбе схлопывается в линию или точку — gap объективно шире, чем у квадрупеда. При обучении ASAP на Unitree G1 (He et al., 2025) два робота сгорели от перегрева моторов на динамичных движениях, а механический линкедж голеностопа дал такой gap, что пришлось доучивать отдельную residual-сеть — корректирующее действие Δa, чтобы симулятор воспроизводил реальные провалы. Так закрывают остаток. Но ключевое: всё это — инженерная работа с известными инструментами, а не магия и не наука с переднего края. Если демо-робот дёргается в курируемом ролике — значит, не докрутили reward и не закрыли actuator gap. Не «не смогли в принципе».

Куда ушли деньги — и почему движение не спасли

Железо для гуманоида действительно дорогое, и тут к DroidUp вопросов нет. Гуманоиду нужно 28–44 актуатора, каждый — прецизионный мотор с энкодером, редуктором и подшипниками; высокомоментные приводы для ног в мелкой серии стоят $1 000–5 000 штука, и актуаторы — это 40–60% BOM. Ловкая кисть (Unitree Dex5-1 ~$6k, исследовательская Shadow Hand ~€110k) и тёплое силиконовое лицо уровня Mesmer — отдельные дорогие подсистемы. $173k за такой комплект — это рынок, а не грабёж. Для калибровки — что почём (цены — заявления вендоров и листинги дилеров, помечаю как ориентир):

Платформа	Цена (ориентир)	Что за неё дают
Unitree G1 (база)	от $16k	23 DOF, без ловких кистей и «мозгов»
Unitree G1 EDU + Dex3	~$64–68k	43 DOF, ловкие кисти, автономия
Unitree H1-2	$128 900	полноразмерный, 7-DOF руки под манипуляцию
Moya (DroidUp)	~$173k	тёплая кожа, мимика, сервисное позиционирование
Tesla Optimus (BOM Gen2, оценка MS)	~$50–60k	цель при масштабе — $20–30k
Engineered Arts Ameca	~$250–300k	27 DOF лица, эталон экспрессии

Так что дорогое железо — не скандал. Скандал в другом. Та часть, что отвечает за «двигается как человек», — RL-политика, — сегодня дешёвая и демократизированная. Ей не нужны десятки миллионов. У нас в Morana Labs на это ушёл бюджет порядка 1 млн рублей: обучили RL-политику, в симуляции движение получается как у живого человека. На железо мы её честно не переносили — это отдельная инженерная боль, и мы её на себя в той задаче не брали. Но сам факт: планка «человекоподобное движение» в RL-домене берётся на стоимость подержанной машины, а не венчурного раунда.

Теперь сложите. Moya подняла, по оценке revolutioninai, около $28,5 млн. Лицо у неё в зловещей долине — ладно, оттуда не вылез никто, это честно сложно. Но дёрганое движение на железо переносится известными методами — actuator nets, residual-политики, reward за плавность; за такие деньги это нанимается и закрывается за месяцы. Если на выходе пластика всё равно скованная и неживая — значит, деньги легли не в ту часть. Десятки миллионов долларов и почти три года работы — за курируемый ролик, где вблизи видно «приближение, а не копию», а в неотрепетированных дублях слышно сервоприводы.

Наш взгляд в Morana Labs прямо обратный подходу «сначала красивая оболочка»: ценность индустриального робота — в capability stack, который крутится на железе клиента и предсказуемо не падает под нагрузкой, а не в том, тёплая ли у него щека. Оболочку покупают на выставке. В проде платят за то, что машина делает и насколько стабильно держит p99, а не среднее.

Холодный вердикт

DroidUp полезла на холм, который в 2026-м не берётся: фотореалистичный антропоморфизм. Soft-tissue dynamics не решены — живая кожа и гибридная микро-актуация сидят на лабораторных стендах, и наблюдатель ловит фальшь за доли секунды. При этом стек, который реально даёт рычаг, — RL-движение, vision, автономия — демократизировался: ходьбу и человекоподобную пластику учат за минуты-дни, инструменты лежат в опен-сорсе. Мы это и проверили: человекоподобное движение в симуляции — на бюджет порядка 1 млн рублей. Поэтому десятки миллионов долларов и скованная пластика на выходе — это не про сложность задачи, это про то, куда легли деньги.

Moya — честное железо под нечестным заголовком. Нормальный сервисный прототип, который рынок рассудит ценой и первой партией в 50 штук. «92% человека» в нём ровно столько же, сколько и в любом пресс-релизе: 100% маркетинга и 0% методики.

Коротко

«92%» — это не про человека. Цифра — собственное маркетинговое заявление DroidUp о сходстве походки, без независимого бенчмарка и без раскрытой методологии. Кликбейт превратил «на 92% похожа походка» в «на 92% человек».
Жуть живёт в лице, а не в ногах. Скованная мимика — не лень инженеров, а фундаментальный барьер: лицо это не набор поз, а скорость деформации мягких тканей, и её робототехника воспроизводит хуже всего.
«Двигается как человек» — это дешёвая часть. RL-политика, дающая человекоподобное движение, давно демократизировалась. Мы получили такое движение в симуляции на бюджете порядка 1 млн рублей. Десятки миллионов долларов для этого не нужны.
Десятки миллионов — а пластика костыльная. DroidUp подняла, по оценкам, около $28,5 млн, а на железе Moya движется скованно и неживо. Вопрос не «почему железо дорогое», а «куда ушли деньги, если даже дешёвая часть не вышла».

Откуда взялись «92%» и почему это пустая цифра

Где на самом деле живёт жуть — это лицо

А вот RL и плавная походка — уже почти рутина

# Каноничный humanoid-стек: «дискретная» политика НЕ обязана быть дёрганой.
# Политика-нейросеть крутится на ~100 Гц, а внутренний PD-контур мотора — на 1000 Гц.
# Между ними команда сглаживается железом, а не выглядит как лестница.
target_q = policy(obs)              # 100 Гц: куда ведём суставы
tau = kp * (target_q - q) - kd * dq # 1000 Гц: PD добивает плавно

# Плавность не появляется сама — её закладывают в reward как явный штраф:
reward = (
    w_track * tracking_reward                         # держим заданную скорость/походку
    - w_arate * sq_norm(a_t - a_prev)                 # action rate: штраф за рывок команды
    - w_jacc  * sq_norm(joint_acc)                    # за ускорение в суставах
    - w_jerk  * sq_norm(a_t - 2*a_prev + a_prev2)     # за jerk (3-я производная)
    - w_tau   * sq_norm(tau)                          # за энергию и момент
)
# Сверху — регуляризация политики (CAPS): соседние во времени действия близки,
# близкие состояния дают близкие действия. На дроне это ~90% прироста плавности.

Куда ушли деньги — и почему движение не спасли

Платформа	Цена (ориентир)	Что за неё дают
Unitree G1 (база)	от $16k	23 DOF, без ловких кистей и «мозгов»
Unitree G1 EDU + Dex3	~$64–68k	43 DOF, ловкие кисти, автономия
Unitree H1-2	$128 900	полноразмерный, 7-DOF руки под манипуляцию
Moya (DroidUp)	~$173k	тёплая кожа, мимика, сервисное позиционирование
Tesla Optimus (BOM Gen2, оценка MS)	~$50–60k	цель при масштабе — $20–30k
Engineered Arts Ameca	~$250–300k	27 DOF лица, эталон экспрессии

Робот Moya и «92% человека»: где здесь инженерия, а где кликбейт

Коротко

Откуда взялись «92%» и почему это пустая цифра

Где на самом деле живёт жуть — это лицо

А вот RL и плавная походка — уже почти рутина

Куда ушли деньги — и почему движение не спасли

Холодный вердикт

Edge AI или облако: когда тащить нейросеть на железо

GLM-5.2: насколько открытая модель подошла к закрытому фронтиру — разбор по фактам

Как удержать ML-инженера в 2026: 9 причин, по которым сеньор уходит через 8 месяцев, и чем чинить bus factor

ИИ-аватар ведущий для видео: где окупается и где палит фейк

Опишите задачу — ответим как инженеры.

Робот Moya и «92% человека»: где здесь инженерия, а где кликбейт

Коротко

Откуда взялись «92%» и почему это пустая цифра

Где на самом деле живёт жуть — это лицо

А вот RL и плавная походка — уже почти рутина

Куда ушли деньги — и почему движение не спасли

Холодный вердикт

Edge AI или облако: когда тащить нейросеть на железо

GLM-5.2: насколько открытая модель подошла к закрытому фронтиру — разбор по фактам

Как удержать ML-инженера в 2026: 9 причин, по которым сеньор уходит через 8 месяцев, и чем чинить bus factor

ИИ-аватар ведущий для видео: где окупается и где палит фейк