{ "endpoint": "/v1/generate-3d", "input": "sku_145_front.jpg", "auto_retopology": true, "target_format": "glb", "max_size_mb": 5 }
Это реальный payload из логов одного крупного маркетплейса. Так выглядит влажная мечта ЛПР, который посмотрел глянцевые демо-ролики вендоров. Руководство решило, что тема «3D-модель товара из одного фото нейросетью: что уже прод для AR-карточки, а что демо-фокус — карта зрелости 2026» — это занудство для гиков. Зачем разбираться? Прогоним 10 000 SKU через API за выходные и обновим весь каталог. Полная автоматизация.
Спешу расстроить. На выходе вы получите 10 000 кусков полигонального мусора. Рваная топология. Текстуры, плавающие как бензиновая пленка. Невидимая на исходном фото сторона будет выглядеть как опухоль. Когда вы попытаетесь скормить этот файл мобильному AR-вьюверу, вкладка браузера просто схлопнется по памяти.
Индустрия забита хайпом. Давайте столкнем лбами три подхода к оцифровке, чтобы понять, где кончается маркетинг и начинается физика.
Подход первый: классическая фотограмметрия (photogrammetry vs neural 3D). Вы делаете от 30 до 100 фотографий объекта со всех ракурсов в студии с поляризационным светом. Математика сшивает идеальную сетку. Честные физические (PBR) материалы. Результат безупречен. Но цена за SKU улетает в космос, а время измеряется днями. Для каталога на миллион позиций это путь к банкротству.
Подход второй: генерация 3D товара для AR из одного фото (image-to-3D). Дешево, быстро. Нейросеть (обычно связка Multi-view Diffusion и SDF-реконструкции) угадывает объем по одному ракурсу. Сетка получается ужасающей. Алгоритмы вроде Marching Cubes создают не-многообразие (non-manifold geometry), пересекающиеся полигоны и изолированные вершины. Это не модель, это кусок сырого теста.
Подход третий: Gaussian Splatting товар. Текущий фаворит исследовательских лабораторий. Отражения и микродетали выглядят пугающе реалистично. Но есть фатальная проблема — это вообще не полигональная сетка. Это облако точек-эллипсоидов с параметрами сферических гармоник. Нативные движки iOS (AR Quick Look) и Android (Scene Viewer) из коробки не поддерживают сплаттинг. Чтобы получить glTF или USDZ, сплаты нужно конвертировать в меш через алгоритм Пуассона. В момент конвертации фотореализм умирает, глянцевый кроссовок превращается в оплавленный парафин, а весь view-dependent блеск исчезает. Физику не обманешь.
Технический потолок на 2026 год жестко зафиксирован ограничениями самих архитектур. Нейросети принципиально не понимают, что такое отражающие, прозрачные или металлик-материалы. Алгоритм просто запекает отражение студийной вспышки прямо в базовую диффузную текстуру (albedo). Пользователь ставит такой AR-диван в своей темной гостиной, а на коже дивана намертво нарисовано яркое окно фотостудии. Мелкая геометрия — велосипедные спицы, шнурки, тонкая фурнитура — игнорируется или слипается в монолит. Текст на упаковке превращается в нечитаемые руны из-за галлюцинаций диффузионной модели. Невидимые грани дорисовываются генератором случайных чисел: кроссовок может получить второй носок вместо пятки.
Вендоры продают «полный автомат». Это наглая ложь. Image-to-3D для карточки маркетплейса в 100% случаев требует ручной постобработки. Нейросеть выплевывает OBJ-файл весом 150 МБ со свалкой вместо UV-развертки. Чтобы это заработало в проде, в дело вступает технический художник. Нужна ретопология. Нужно разрезать UV так, чтобы не тратить текстурное пространство впустую. Нужно разделить материалы на отдельные слои (roughness, metallic, normal map) и запечь тени. В реальности на каждый SKU уходит от 0.5 до 3 часов ручной работы. План с нулевым вмешательством человека сгорает на первых же тестах.
Требования веба к дополненной реальности безжалостны. Для карточки товара нужен формат glTF или USDZ. Жесткий лимит веса для адекватной конверсии — 5–10 МБ. Модель обязана иметь уровни детализации (LOD), чтобы не убивать слабые смартфоны, и быть сжатой алгоритмом Draco. Сырой нейросетевой экспорт не попадает ни в один из этих критериев.
Если вы крупный производитель, вы не можете гонять фотографии будущих коллекций через внешние API. Данные не должны покидать периметр. Необходима on-prem генерация. И здесь возникает проблема железа. Инференс тяжелых пайплайнов требует пула серверов с картами уровня A100 или L40. Когда мы в Morana Labs пилотируем такие внедрения, первый шаг — это жесткая оптимизация инференса и переписывание батчинга. Если генерация одной модели жрет 45 секунд VRAM-тяжелого диффузного прохода, пропускная способность (throughput) кластера падает, и стоимость железа на переваривание 100 000 SKU за месяц съедает всю маржу от внедрения.
3D-модель товара из одного фото нейросетью: что уже прод для AR-карточки, а что демо-фокус — карта зрелости 2026
Чтобы 3D окупалось, оно должно снижать возвраты (человек понял габариты и форму) и повышать конверсию в корзину. Вот реальная расстановка сил:
- Готовый прод (высокий ROI): Мягкая и корпусная мебель, массивная обувь без сложной шнуровки, сантехника, промышленное оборудование. Пространственное восприятие здесь критично. Ошибки нейронной топологии легко скрываются сглаживанием, ручная ретопология минимальна (0.5 часа). Снижение возвратов полностью окупает пайплайн.
- Требует глубокой доработки (ROI под вопросом): Сложные кроссовки, сумки с фурнитурой, ювелирные изделия. Нейросеть дает лишь болванку. Художник тратит 2-3 часа на восстановление PBR-материалов, прорисовку бликов и правку текстов. Делать стоит только для локомотивных SKU с высоким чеком.
- Демо-фокус (не трогать): Одежда, мягкие ткани, прозрачный пластик, бокалы, мелкие расходники. Симуляция ткани из статической картинки не работает. Прозрачность нейросети не тянут. Стоимость генерации и правки превышает прибыль с продаж этой мелочевки.
Формула расчета предельно утилитарна: Стоимость 3D генерации на SKU + Часы ретопологии должна быть строго меньше, чем (Средний чек × Прирост конверсии) + (Стоимость логистики возврата × Падение процента возвратов) на горизонте жизненного цикла товара. Если математика не сходится — оставляйте 2D-фотографии. Пилотная оценка вашего каталога на пригодность к 3D от Morana Labs работает именно так: мы отбираем только те SKU, где нейросети дадут бизнес-результат, а не просто сожгут вычислительные мощности ради красивого, но бесполезного демо.