Эволюция 3D-зрения: как глубокое обучение изменило репрезентацию трехмерного мира

Стэнфордский университет в рамках юбилейного десятого сезона знаменитого курса CS231N представил лекцию по трехмерному машинному зрению (3D Vision), которую провел ассистент-профессор кафедры компьютерных наук Цзяцзюнь У (Jiajun Wu). В своем выступлении ученый подробно разобрал эволюцию подходов к репрезентации 3D-объектов — от классических вокселей и полигональных сеток до революционных нейросетевых технологий NeRF и 3D Gaussian Splatting. Главная идея лекции заключается в том, как синергия глубокого обучения, компьютерной графики и дифференцируемого рендеринга позволила преодолеть дефицит трехмерных данных и совершить качественный скачок в воссоздании реалистичного цифрового мира.

🛠️ Проблема представления: явные и неявные репрезентации в 3D 1:13

В отличие от двумерных изображений, где стандартом де-факто давно стали пиксели, организация данных в трехмерном пространстве сопряжена с серьезными архитектурными вызовами. Двумерная картинка в формате PNG или JPEG — это простая регулярная матрица фиксированного размера, например 200 на 200 пикселей. Трехмерные же объекты невероятно разнообразны: они обладают сложной геометрией, различными масштабами, уникальными текстурами и физическими свойствами материалов.

Все существующие подходы к цифровому описанию 3D-геометрии можно разделить на две фундаментальные категории:

Явные (explicit) репрезентации, которые напрямую задают элементы поверхности объекта, такие как облака точек или полигональные сетки.
Неявные (implicit) репрезентации, описывающие геометрию через математические функции, включая уровни поверхностей (level sets), алгебраические уравнения и функции расстояния.

При выборе конкретного формата инженерам приходится искать компромисс между эффективностью хранения данных, поддержкой генерации новых форм и удобством редактирования. В контексте машинного зрения ключевой задачей становится инверсия рендеринга — процесс воссоздания трехмерной структуры на основе плоских 2D-снимков. Ситуация осложняется, когда речь заходит об анимации людей или животных, где выбранное представление должно нативно поддерживать динамические деформации.

📐 Анатомия явных методов: от облаков точек до сеток 4:51

Простейшим способом явного описания геометрии является облако точек (point cloud). Вместо привычной пиксельной матрицы компьютер оперирует таблицей размерностью 3 на N, где каждая строка содержит пространственные координаты X, Y и Z конкретной точки. Часто к этим координатам добавляют векторы нормалей к поверхности, указывающие направление ее изгиба, — такие ориентированные точки в графике называют «сурфелами» (surfels). По словам профессора Цзяцзюня У, нормали критически важны для реалистичного рендеринга, поскольку они определяют, как свет от источника взаимодействует с поверхностью.

Облака точек являются «сырым» форматом, который выдают большинство современных 3D-сканеров, включая сенсоры LiDAR и программные инструменты вроде Apple AR Kit на iPhone. Однако этот формат имеет выраженные недостатки:

Сырые данные часто содержат колоссальное количество шумов и требуют сложной процедуры слияния (fusion) множества разрозненных сканов.
При неравномерном сэмплировании алгоритмам крайне тяжело достраивать геометрию в разреженных зонах — например, если на голове цифрового кролика точек много, а на хвосте почти нет.
В облаке точек полностью отсутствует топологическая информация: имея лишь набор координат, невозможно математически определить, является ли объект сплошным или имеет сквозное отверстие, как тор.

Для устранения этих ограничений индустрия компьютерных игр и графические движки массово используют полигональные сетки (polygon meshes). Сетка хранит не только координаты вершин, но и топологию их связей, образующих грани (faces). Из-за вариативности и нерегулярности структуры (в сырых сетках грани могут быть трех-, четырех- или пятиугольными) их долгое время не удавалось эффективно интегрировать с первыми сверточными нейросетями, которые жестко требовали фиксированного разрешения ввода. Именно эта несовместимость форматов стала главной причиной того, что трехмерное глубокое обучение начало развиваться существенно позже двумерного компьютерного зрения.

Тем не менее масштаб современных полигональных сеток поражает. Цзяцзюнь У привел в пример детализированную цифровую скульптуру, состоящую из 56 миллионов треугольников и 28 миллионов вершин. В глобальных же сервисах вроде Google Earth счет идет на триллионы полигонов, моделирующих всю поверхность планеты. Сетки поддерживают огромный спектр полезных геометрических операций, таких как субдивизия (измельчение для повышения детализации), упрощение (децимация для быстрой обработки) и регуляризация (приведение всех граней к однотипным треугольникам равного размера).

Отдельным классом стоят параметрические представления, используемые в системах автоматизированного проектирования (САПР/CAD). Они описывают геометрию через функции с меньшим числом внутренних степеней свободы. К примеру, для описания одномерной кривой окружности на плоскости достаточно варьировать один параметр времени в тригонометрической функции, а для сферы в 3D-пространстве требуются всего две переменные — U и V. На практике для моделирования сложных и гладких поверхностей инженеры применяют кривые и поверхности Безье, управляемые небольшим числом контрольных точек.

Основной плюс явных методов — тривиальный процесс сэмплирования: достаточно подставить случайные значения параметров, чтобы гарантированно получить точку, лежащую на поверхности. Но за это приходится платить невозможностью быстро определить, находится ли произвольная точка пространства внутри объекта или снаружи него. Для проверки этого факта требуются тяжелые геометрические вычисления, что делает явные методы крайне неудобными для современных алгоритмов нейросетевого рендеринга.

🔮 Неявные репрезентации: сила математических функций 17:11

Неявный подход переворачивает концепцию: вместо хранения координат поверхности объект задается математическим ограничением. Точки, принадлежащие поверхности единичной сферы, обязаны удовлетворять строгому уравнению:

$$x^2 + y^2 + z^2 - 1 = 0$$

В общем виде любая неявная геометрия описывается функцией $f(x, y, z) = 0$. Поскольку для объектов произвольной формы (например, для фигуры коровы) составить замкнутое аналитическое уравнение невозможно, исследователи возложили эту задачу на многослойные перцептроны (MLP).

Сэмплировать точки в неявном представлении чрезвычайно сложно, так как для этого необходимо решать комплексные уравнения. Зато проверка пространственных запросов (queries) становится элементарной: точка подставляется в функцию, и если результат отрицательный — она внутри объекта, если положительный — снаружи, а если равен нулю — строго на поверхности. Профессор У подчеркнул, что этот фундаментальный дуализм предопределил вектор развития современных генеративных 3D-моделей.

Неявные функции обладают потрясающим свойством композиции. Над ними можно выполнять классические логические операции конструктивной сплошной геометрии (CSG) — объединение, пересечение и вычитание объектов. Знаковые функции расстояния (SDF) позволяют осуществлять мягкое пространственное блендирование и интерполяцию форм, что дает возможность опытным техническим художникам создавать процедурные цифровые миры невероятной детализации.

Чтобы объединить преимущества неявной математической строгости и явной наглядности, применяются методы функций уровня (level sets) и воксельные сетки (voxels). Пространство разбивается на регулярную трехмерную сетку (например, дискретизацией 100 на 100 на 100 точек). Если в узлах этой сетки вместо точных значений расстояния SDF сохранить бинаризованные маркеры (1 — занято объектом, 0 — пустота), мы получим классическое воксельное представление. Воксели — это прямой трехмерный аналог плоских пикселей. Такой формат активно применяется в медицинской визуализации при обработке данных компьютерной (КТ) и магнитно-резонансной томографии (МРТ).

📊 Эволюция датасетов: преодоление дефицита 3D-данных 29:34

Развитие систем трехмерного глубокого обучения долгое время сдерживалось отсутствием масштабных обучающих выборок. В то время как в 2D-зрении в 2012 году произошла революция AlexNet благодаря ImageNet, в трехмерном мире исследователи располагали весьма скромными ресурсами. Первые эксперименты в этой области проводили специалисты по компьютерному зрению, а не по графике. Они пошли по пути наименьшего сопротивления: взяли привычные алгоритмы 2D-сверток и масштабировали их до 3D-вокселей. Графическое сообщество встретило этот шаг критикой, указывая на чудовищную вычислительную прожорливость воксельных сеток и их крайне низкое, «кубическое» визуальное качество по сравнению с полигонами.

Долгое время стандартом оставался датасет Princeton Shape Benchmark, содержавший всего 1800 моделей, распределенных по 180 категориям. Наличие в среднем 10 моделей на класс делало любое серьезное машинное обучение невозможным. Прорыв случился с появлением ShapeNet — масштабного проекта, возглавленного консорциумом ученых из Стэнфорда, включая Лео Гибаса (Leo Guibas) и Сильвио Саварезе (Silvio Savarese). Полная база ShapeNet насчитывает около 3 миллионов моделей, но в исследовательской практике прижился очищенный сабсет ShapeNet Core:

Объем: 50 000 трехмерных моделей.
Состав: 55 стандартизированных категорий объектов.
Особенности: выраженный дисбаланс классов с преобладанием моделей автомобилей и стульев.

В последние годы Алленовский институт искусственного интеллекта (AI2) в Сиэтле представил еще более крупные синтетические библиотеки — Objaverse и Objaverse XL, содержащие от 1 до 10 миллионов высококачественных 3D-ассетов с готовыми текстурами.

Однако синтетика не способна полностью заменить реальный мир. Пионером в сборе нативных данных стал проект Redwood с 10 000 трехмерных сканов реальных предметов. Настоящим прорывом стала совместная инициатива компании Meta и Оксфордского университета. Они запустили краудсорсинговую программу: обычным людям платили по одному доллару за то, что они ставили бытовой предмет на стол и снимали вокруг него непрерывное видео на iPhone с обзором в 360 градусов. Первая версия датасета содержала 19 000 роликов, а к текущему моменту база разрослась почти до 90 000 оцифрованных объектов.

Несмотря на эти успехи, Цзяцзюнь У констатирует наличие гигантского разрыва между объемами данных: 2D-модели обучаются на миллиардных сетах вроде LAION-5B, тогда как в 3D физически невозможно легко перешагнуть барьер даже в 100 000 качественных реальных моделей. Для расширения семантического понимания форм ученые создают специализированные базы вроде PartNet (также разработанной в Стэнфорде), где аннотируются отдельные детали объектов и их кинематическая мобильность — например, способность крышки ноутбука открываться и закрываться. Еще сложнее ситуация с трехмерными сценами (комнатами целиком): популярный датасет ScanNet включает в себя всего от 1500 до 3000 отсканированных жилых и офисных интерьеров.

🚀 Нейросетевые архитектуры: от многоракурсных сетей до PointNet 35:52

В трехмерном глубоком обучении выделяют три ключевых класса задач: генеративное моделирование (синтез форм по тексту или картинке), дискриминативный анализ (классификация объектов) и совместное 2D-3D моделирование. Последнее направление лектор считает наиболее перспективным, поскольку оно позволяет переносить богатые пространственные представления (priors) из мощных двумерных фундаментных моделей в трехмерный мир посредством дифференцируемых интерфейсов рендеринга.

Исторически самой первой идеей интеграции глубокого обучения с 3D стал многоракурсный подход (Multi-view CNN). Чтобы определить тип трехмерного объекта, ученые не стали изобретать новые архитектуры, а просто расставили вокруг него виртуальные камеры, отрендерили плоские картинки с разных ракурсов и прогнали их через стандартную 2D-нейросеть, предобученную на ImageNet, объединив выходы через операцию пулинга. По мнению лектора, этот подход переживает ренессанс на фоне недавнего релиза сверхмощных мультимодальных моделей вроде серии VL3, способных идеально считывать геометрию по видеоряду.

Развитие нативных трехмерных архитектур шло поэтапно:

Воксельные свертки (2015 год): Модель 3D ShapeNets от Принстона впервые продемонстрировала возможность генерации низкоразрешенных воксельных фигур.
Генеративно-состязательные сети в 3D (2016–2018 годы): Команда Цзяцзюня У успешно адаптировала алгоритмы GAN для синтеза вокселей (3D-GAN). Позже они объединили трехмерный генератор с фреймворком CycleGAN. Это позволило проецировать сгенерированную форму в карту глубин, превращать ее в реалистичное цветное изображение автомобиля и накладывать состязательные лоссы одновременно в 2D и 3D пространствах, обеспечивая раздельное управление ракурсом, текстурой и геометрией.
Октантные деревья (Octrees, 2019 год): Для решения проблемы дефицита памяти GPU регулярные сетки заменили адаптивными деревьями. В пустом пространстве воксели оставались огромными, а вблизи поверхности объекта дробились на микроскопические элементы, что позволило поднять разрешение генерации с 64 до 256 кубических элементов по одной оси.

Настоящей вехой в индустрии стало создание архитектуры PointNet командой профессора Лео Гибаса в Стэнфорде. PointNet совершила революцию, научившись работать напрямую со свободными облаками точек. Архитектура изящно обошла две сложнейшие математические проблемы: инвариантность к перестановкам (результат не должен меняться от того, в каком порядке точки записаны в файле) и инвариантность к плотности сэмплирования.

Решение оказалось удивительно простым: нейросеть вычисляет индивидуальные многомерные эмбеддинги для каждой точки отдельно, а затем пропускает их через симметричную функцию агрегации, не зависящую от порядка векторов (чаще всего применяется операция поиска максимума — Max Pooling, реже — суммирование). Полученный единый глобальный вектор сцены затем обрабатывается обычными полносвязными слоями для финальной классификации. Позже идеи развились в PointNet++ и графовые нейросети (GNN), где точки интерпретируются как узлы графа, связанные ребрами на основе их пространственной близости.

Для обучения генераторов облаков точек исследователям пришлось разработать дифференцируемые метрики оценки расстояний между трехмерными подмножествами:

Расстояние Чамфера (Chamfer distance): для каждой точки первого множества ищется ближайший сосед во втором множестве, и наоборот, после чего расстояния минимизируются.
Расстояние «землекопа» (Earth Mover's Distance): вычисляется через оптимизацию полного двухдольного паросочетания (bipartite matching), требуя строгого взаимно однозначного соответствия между точками двух облаков.

Для получения идеально гладких поверхностей была предложена модель AtlasNet. Вместо дискретных точек она использует многослойные перцептроны для изучения непрерывного параметрического отображения плоского листа бумаги с координатами U и V в изогнутый трехмерный фрагмент. Объединяя выходы нескольких таких сетей, алгоритм буквально склеивает сложную фигуру из множества гладких виртуальных лоскутов.

⚡ Революция неявных функций: NeRF и Gaussian Splatting 54:30

Около 2019 года в мировом научном сообществе произошло фундаментальное концептуальное озарение: глубокая нейросеть сама по себе является мощнейшей непрерывной неявной функцией. Практически одновременно вышли четыре независимые работы, предложившие отказаться от явных форматов в пользу концепции Deep Implicit Functions. Схема работы такой сети элементарна: на вход многослойному перцептрону подаются лишь три пространственные координаты $(x, y, z)$, а на выходе сеть предсказывает либо бинарный маркер заполненности пространства, либо точное значение знаковой функции расстояния (SDF) до ближайшей поверхности.

В 2020 году этот подход лег в основу триумфальной технологии NeRF (Neural Radiance Fields — нейронные поля радиации). Авторы NeRF внесли два гениальных изменения в архитектуру глубоких неявных функций:

Помимо координат $(x, y, z)$, на вход сети стали подавать углы направления взгляда камеры. На выходе перцептрон выдает не просто геометрию, а два значения: локальную объемную плотность (opacity) и точный цвет излучения (radiance) в этой точке пространства.
Вместо тяжелого и дефицитного 3D-гудвина для обучения сети применили классическое уравнение объемного рендеринга из компьютерной графики, аппроксимировав его в полностью дифференцируемый вид.

При обучении NeRF лучи виртуальной камеры пронизывают пространство, сэмплируют точки, нейросеть предсказывает для них плотность и цвет, а дифференцируемый интеграл вычисляет, сколько света было заблокировано по пути к объективу. Это позволило полностью отказаться от трехмерного надзора: нейросеть NeRF обучается воссоздавать сложнейшие сцены, имея на входе исключительно набор обычных плоских фотографий. Развивая этот успех, группа Цзяцзюня У совместно с коллегами представила генеративную модель $\pi$-GAN (в транскрипте упомянута как "pigeon"), позволившую генерировать и контролировать новые уникальные объекты в рамках неявных полей радиации напрямую по картинкам.

При всей своей технологической красоте NeRF обладал критическим изъяном — катастрофически низкой скоростью работы. Из-за необходимости плотно сэмплировать тысячи точек вдоль каждого луча, огромная часть вычислительной мощности видеокарты тратилась впустую на опрос абсолютно пустого пространства. Рендеринг одного единственного кадра в оригинальном NeRF мог занимать долгие 20 секунд.

Решением проблемы в 2023 году стала технология 3D Gaussian Splatting, вернувшая в нейросети идеи из классической графики. Вместо непрерывного сканирования пустоты нейросетью, сцена кодируется набором разреженных трехмерных гауссовских облаков (своеобразных эллипсоидных сгустков или «клякс»), имеющих четкие пространственные границы и радиус рассеивания. При прохождении луча алгоритм мгновенно определяет, с какими именно гауссианами он пересекается, полностью игнорируя пустоту. Visual-качество рендеринга Gaussian Splatting и NeRF практически идентично, но скорость работы выросла на три порядка: технология выдает стабильные 150 кадров в секунду (FPS) там, где NeRF заставлял ждать треть минуты.

🌳 Структурный анализ и будущее: синергия программ и LLM 1:07:11

В финальной части лекции профессор Цзяцзюнь У затронул тему макроструктуры трехмерного мира. Реальные объекты не являются хаотичным набором геометрии — они подчинены строгим законам симметрии, повторения элементов и иерархической вложенности. Обычные облака точек или функции SDF не способны нативно уловить тот факт, что левая и правая ножки стула обязаны быть идентичными и симметрично выровненными, иначе конструкция просто упадет.

В качестве решения графическое сообщество активно развивает концепцию Scene Graphs и иерархических графов объектов. Примером служит нейросетевая архитектура StructureNet (2019 год), которая с помощью графовых кодеров и декодеров генерирует трехмерные объекты как упорядоченное дерево взаимосвязанных деталей (основание, сиденье, спинка). Более строгим подходом является процедурный синтез форм с помощью генерации кода программ.

Главным футуристическим трендом на стыке 2025 и 2026 годов лектор назвал конвергенцию больших языковых моделей (LLM) и трехмерного зрения. Современные контекстные модели вроде GPT демонстрируют глубокое понимание физических и семантических законов нашего мира. Новейшие исследовательские пайплайны строятся по гибридному принципу: большая языковая модель генерирует строгую высокоуровневую программу, задающую структуру, пропорции и связи между компонентами объекта, в то время как локальные нейросетевые неявные функции (SDF или NeRF) ювелирно дорисовывают фотореалистичные текстуры и микрогеометрию на деталях.