Быстрая оценка пространственно-изменяющегося внутреннего освещения по одному RGB-изображению

1. Введение

Оценка освещения сцены по одному изображению — фундаментальная, но некорректно поставленная задача компьютерного зрения, критически важная для таких приложений, как дополненная реальность (AR) и рендеринг на основе изображений. Традиционные методы полагаются на известные объекты (световые зонды) или дополнительные данные (глубину, несколько ракурсов), что ограничивает их практичность. Современные подходы на основе обучения, такие как метод Гарднера и др. [8], предсказывают глобальное освещение, но не учитывают пространственно-изменяющуюся природу внутреннего освещения, где близость к источникам света и затенения создают значительные локальные вариации. Коммерческие AR-системы (например, ARKit) предлагают базовые оценки освещения, но им не хватает сложности для реалистичного переосвещения.

В данной статье представлен метод реального времени для оценки пространственно-изменяющегося внутреннего освещения по одному RGB-изображению. Получив изображение и 2D-координаты пикселя, сверточная нейронная сеть (CNN) предсказывает представление освещения в этой конкретной точке с помощью сферических гармоник (SH) 5-го порядка менее чем за 20 мс, что позволяет реалистично вставлять виртуальные объекты в любую часть сцены.

Ключевые идеи

Локальное важнее глобального: Освещение в помещении неоднородно; единая глобальная оценка приводит к нереалистичным AR-рендерам.
Эффективность — ключ: Производительность в реальном времени (<20 мс) обязательна для интерактивных AR-приложений.
Без геометрии: Метод неявно выводит локальную видимость и затенение света из изображения, не требуя данных о глубине.
Практичное представление: Использование низкоразмерных сферических гармоник (36 коэффициентов) обеспечивает быстрое предсказание и прямую интеграцию в стандартные конвейеры рендеринга.

2. Методология

Основная идея заключается в обучении CNN регрессии коэффициентов сферических гармоник, зависящих от 2D-координат на изображении.

2.1 Архитектура сети

Сеть принимает два входа: входное RGB-изображение и 2D-координаты $(u, v)$, нормализованные к $[-1, 1]$. Изображение проходит через кодировщик признаков (например, на основе ResNet). 2D-координаты обрабатываются полносвязными слоями для создания позиционного кодирования. Признаки изображения и позиционное кодирование объединяются, обычно через конкатенацию или механизмы внимания, после чего компактный декодер предсказывает итоговые SH-коэффициенты для RGB-каналов. Такая конструкция явно связывает предсказание освещения с пространственным положением.

2.2 Представление сферическими гармониками

Освещение в точке представляется с помощью сферических гармоник 5-го порядка. SH обеспечивает компактное частотное представление функции на сфере. Облученность $E$ в точке поверхности с нормалью $\mathbf{n}$ аппроксимируется как:

$E(\mathbf{n}) \approx \sum_{l=0}^{L} \sum_{m=-l}^{l} c_{l}^{m} Y_{l}^{m}(\mathbf{n})$

где $L=5$, $Y_{l}^{m}$ — базисные функции SH, а $c_{l}^{m}$ — коэффициенты, предсказанные сетью (9 коэффициентов на цветовой канал, всего 27 для RGB). Этот низкоразмерный выход — ключ к выводу в реальном времени.

3. Эксперименты и результаты

Время вывода

< 20 мс

На Nvidia GTX 970M

Порядок SH

5-й порядок

Всего 27 коэффициентов

Предпочтение пользователей

~75%

По сравнению с передовым методом [8]

3.1 Количественная оценка

Метод оценивался на синтетических и реальных наборах данных. Метрики включали угловую ошибку между предсказанными и эталонными картами окружения и RMSE на отрендеренных объектах. Предложенный метод с пространственным изменением последовательно превосходил метод глобальной оценки освещения Гарднера и др. [8], особенно для позиций вдали от центра изображения, где освещение отличается.

3.2 Пользовательское исследование

Было проведено перцептивное пользовательское исследование, в котором участники сравнивали виртуальные объекты, переосвещенные с использованием освещения от разных методов. Результаты показали сильное предпочтение (примерно 75%) рендеров, созданных с использованием предложенного пространственно-изменяющегося освещения, по сравнению с рендерами, использующими глобальную оценку из [8], что подтверждает перцептивную важность локальных световых эффектов.

3.3 Производительность в реальном времени

Сеть достигает времени вывода менее 20 миллисекунд на GPU уровня ноутбука (Nvidia GTX 970M). Такая производительность позволяет реализовать AR-приложения реального времени, где освещение может обновляться мгновенно при перемещении виртуального объекта или камеры.

4. Технический анализ и ключевые идеи

Ключевая идея: Фундаментальный прорыв статьи — не просто очередная модель оценки освещения; это стратегический переход от сцен-центричной к точко-центричной парадигме освещения. В то время как предыдущие работы, такие как работа Гарднера и др. (часто сравниваемые с принципами трансляции изображения в стиле CycleGAN для некорректных задач), рассматривали изображение как целое для вывода одного глобального источника освещения, данная работа признает, что для AR важно только освещение в конкретной точке вставки. Это глубокий сдвиг, соответствующий потребностям графики реального времени, где шейдеры вычисляют освещение на фрагмент, а не на сцену.

Логическая последовательность: Логика элегантно проста: 1) Признать пространственную вариативность как проблему первого порядка во внутренних условиях (поддерживается базовыми принципами радиометрии из авторитетных источников, таких как Уравнение рендеринга Каджии). 2) Выбрать представление (SH), которое одновременно выразительно для низкочастотного внутреннего освещения и изначально совместимо с рендерерами реального времени (например, через PRT или прямое вычисление SH в шейдерах). 3) Спроектировать сеть, которая явно принимает местоположение на вход, заставляя её изучать отображение локального контекста изображения в локальные SH-параметры. Обучающие данные, вероятно сгенерированные из синтетических или захваченных 3D-сцен с известным освещением, учат сеть коррелировать визуальные признаки (тени, цветовые отражения, блики) с локальными условиями освещения.

Сильные стороны и недостатки: Основная сила — её практичность. Время работы <20 мс и SH-выход делают её «готовым» решением для существующих AR-движков, в отличие от методов, выводящих полные HDR-карты окружения. Её независимость от геометрии — умный обходной путь, использующий CNN как прокси для сложного трассирования лучей. Однако недостатки значительны. Во-первых, это по сути интерполяция освещения из обучающих данных. Она не может «вообразить» освещение в полностью ненаблюдаемых областях (например, внутри закрытого шкафа). Во-вторых, SH 5-го порядка, хотя и быстрые, не могут уловить высокочастотные детали освещения, такие как резкие тени от небольших источников света — известное ограничение SH-аппроксимаций. В-третьих, её производительность зависит от разнообразия обучающего набора; она может давать сбой в совершенно новых средах.

Практические выводы: Для исследователей путь вперед ясен: 1) Гибридные модели: Интегрировать предсказанные грубые SH с легковесным полем нейронного излучения (NeRF) или небольшим набором обученных виртуальных точечных источников света для восстановления высокочастотных эффектов. 2) Оценка неопределенности: Сеть должна выводить меру уверенности для своего предсказания, что критически важно для AR-приложений, связанных с безопасностью. 3) Динамические сцены: Текущий метод статичен. Следующий рубеж — временно-согласованная оценка освещения для динамических сцен и движущихся источников света, возможно, путем интеграции оптического потока или рекуррентных сетей. Для практиков этот метод готов к пилотной интеграции в мобильные AR-приложения для значительного повышения реализма по сравнению с текущими предложениями SDK.

5. Пример аналитического подхода

Сценарий: Оценка устойчивости метода в крайнем случае.
Вход: Изображение комнаты, где один угол глубоко затенен, вдали от любого окна или источника света. Виртуальный объект должен быть размещен в этом темном углу.
Применение подхода:

Запрос контекста: Сеть получает изображение и координаты $(u,v)$ затененного угла.
Анализ признаков: Кодировщик извлекает признаки, указывающие на низкую освещенность, отсутствие прямых световых путей и возможный цветовой оттенок от соседних стен (рассеянный свет).
Предсказание: Объединенные признаки приводят декодер к предсказанию SH-коэффициентов, представляющих низкоинтенсивную, диффузную и потенциально смещенную по цвету световую среду.
Проверка: Отрендеренный виртуальный объект должен выглядеть тускло освещенным, с мягкими тенями и приглушенными цветами, соответствуя визуальному контексту угла. Неудачей было бы, если объект выглядит так же ярко освещенным, как объект в центре комнаты, что указывало бы на игнорирование сетью пространственного условия.

Этот пример проверяет основное утверждение о пространственной вариативности. Глобальный метод [8] здесь бы не справился, применяя «усредненное» освещение комнаты к объекту в углу.

6. Будущие применения и направления

Продвинутая AR/VR: Помимо вставки объектов, для реалистичного телеприсутствия аватаров, где виртуальный человек должен быть освещен согласованно с локальной средой, в которой он находится.
Вычислительная фотография: Создание пространственно-осознанных инструментов редактирования фотографий (например, «переосветить этого человека» иначе, чем «переосветить тот объект»).
Робототехника и автономные системы: Предоставление роботам быстрого, не зависящего от геометрии понимания освещения сцены для улучшения восприятия материалов и планирования.
Нейронный рендеринг: Использование в качестве быстрого априорного знания об освещении для задач обратного рендеринга или для инициализации более сложных, но медленных моделей, таких как NeRF.
Будущие исследования: Расширение на внешние сцены, моделирование динамических изменений освещения и комбинирование с неявной геометрией (например, от монохромного оценщика глубины) для еще более точного рассуждения о видимости.

7. Ссылки

Kajiya, J. T. (1986). The rendering equation. ACM SIGGRAPH Computer Graphics.
Gardner, M., et al. (2017). Learning to Predict Indoor Illumination from a Single Image. ACM TOG.
Zhu, J., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN). ICCV.
Ramamoorthi, R., & Hanrahan, P. (2001). An efficient representation for irradiance environment maps. ACM SIGGRAPH.
Apple Inc. (2017, 2018). ARKit Documentation and WWDC Sessions.
Mildenhall, B., et al. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV.
Garon, M., Sunkavalli, K., Hadap, S., Carr, N., & Lalonde, J. (2019). Fast Spatially-Varying Indoor Lighting Estimation. arXiv:1906.03799.