1. مقدمه

تخمین نورپردازی صحنه از یک تصویر منفرد، یک مسئله اساسی اما بدتعریف در بینایی کامپیوتر است که برای کاربردهایی مانند واقعیت افزوده (AR) و رندر مبتنی بر تصویر حیاتی می‌باشد. روش‌های سنتی بر اشیاء شناخته‌شده (پروب‌های نوری) یا داده‌های اضافی (عمق، چند نمای مختلف) متکی هستند که کاربرد عملی را محدود می‌کنند. رویکردهای اخیر مبتنی بر یادگیری، مانند روش گاردنر و همکاران [8]، نورپردازی سراسری را پیش‌بینی می‌کنند اما قادر به ثبت ماهیت دارای تغییرات مکانی نورپردازی داخلی نیستند، جایی که نزدیکی به منابع نور و انسدادها، تغییرات محلی قابل توجهی ایجاد می‌کنند. سیستم‌های تجاری واقعیت افزوده (مانند ARKit) تخمین‌های نورپردازی اولیه ارائه می‌دهند اما برای نورپردازی مجدد واقع‌گرایانه فاقد پیچیدگی لازم هستند.

این مقاله یک روش در زمان واقعی برای تخمین نورپردازی داخلی با تغییرات مکانی از یک تصویر RGB منفرد ارائه می‌دهد. با دریافت یک تصویر و یک موقعیت پیکسل دوبعدی، یک شبکه عصبی کانولوشنی (CNN) نمایشی از هارمونیک‌های کروی (SH) مرتبه پنجم نورپردازی در آن موقعیت خاص را در کمتر از ۲۰ میلی‌ثانیه پیش‌بینی می‌کند و امکان درج اشیاء مجازی واقع‌گرایانه در هر نقطه از صحنه را فراهم می‌آورد.

بینش‌های کلیدی

  • محلی در مقابل سراسری: نورپردازی داخلی یکنواخت نیست؛ یک تخمین سراسری منفرد منجر به رندرهای غیرواقعی AR می‌شود.
  • کارایی کلیدی است: عملکرد در زمان واقعی (<۲۰ میلی‌ثانیه) برای کاربردهای تعاملی AR غیرقابل مذاکره است.
  • بدون نیاز به هندسه: این روش، دیدپذیری و انسداد نور محلی را به طور ضمنی از تصویر استنباط می‌کند، بدون نیاز به ورودی عمق.
  • نمایش عملی: استفاده از هارمونیک‌های کروی با ابعاد پایین (۳۶ ضریب)، پیش‌بینی سریع و ادغام مستقیم در خطوط لوله رندر استاندارد را ممکن می‌سازد.

2. روش‌شناسی

ایده اصلی، آموزش یک CNN برای رگرسیون ضرایب هارمونیک‌های کروی شرطی شده بر روی موقعیت تصویر دوبعدی است.

2.1 معماری شبکه

شبکه دو ورودی دریافت می‌کند: تصویر RGB ورودی و یک مختصات دوبعدی $(u, v)$ نرمال‌شده به $[-1, 1]$. تصویر از طریق یک رمزگذار ویژگی (مثلاً مبتنی بر ResNet) عبور می‌کند. مختصات دوبعدی از طریق لایه‌های کاملاً متصل پردازش شده تا یک کدگذاری موقعیتی تولید کند. ویژگی‌های تصویر و کدگذاری موقعیتی، معمولاً از طریق الحاق یا مکانیزم‌های توجه، ادغام می‌شوند و سپس یک رمزگشای فشرده، ضرایب نهایی SH را برای کانال‌های RGB پیش‌بینی می‌کند. این طراحی، پیش‌بینی نورپردازی را به صراحت بر موقعیت مکانی شرطی می‌کند.

2.2 نمایش هارمونیک‌های کروی

نورپردازی در یک نقطه با استفاده از هارمونیک‌های کروی مرتبه پنجم نمایش داده می‌شود. SH یک نمایش فشرده مبتنی بر فرکانس از یک تابع روی کره ارائه می‌دهد. تابش $E$ در یک نقطه سطح با نرمال $\mathbf{n}$ به صورت زیر تقریب زده می‌شود:

$E(\mathbf{n}) \approx \sum_{l=0}^{L} \sum_{m=-l}^{l} c_{l}^{m} Y_{l}^{m}(\mathbf{n})$

که در آن $L=5$، $Y_{l}^{m}$ توابع پایه SH هستند و $c_{l}^{m}$ ضرایبی هستند که توسط شبکه پیش‌بینی می‌شوند (۹ ضریب برای هر کانال رنگی، در مجموع ۲۷ ضریب برای RGB). این خروجی کم‌بعد، کلید استنتاج در زمان واقعی است.

3. آزمایش‌ها و نتایج

زمان استنتاج

< ۲۰ میلی‌ثانیه

روی Nvidia GTX 970M

مرتبه SH

مرتبه پنجم

۲۷ ضریب در مجموع

ترجیح کاربر

~۷۵٪

در مقایسه با روش پیشرفته [8]

3.1 ارزیابی کمی

این روش بر روی مجموعه‌داده‌های مصنوعی و واقعی ارزیابی شد. معیارها شامل خطای زاویه‌ای بین نقشه‌های محیط پیش‌بینی شده و واقعی و RMSE روی اشیاء رندر شده بود. روش پیشنهادی دارای تغییرات مکانی، به طور مداوم از روش تخمین نورپردازی سراسری گاردنر و همکاران [8] بهتر عمل کرد، به ویژه برای موقعیت‌های دور از مرکز تصویر که نورپردازی متفاوت است.

3.2 مطالعه کاربری

یک مطالعه ادراکی کاربری انجام شد که در آن شرکت‌کنندگان اشیاء مجازی نورپردازی شده با استفاده از نورپردازی حاصل از روش‌های مختلف را مقایسه کردند. نتایج ترجیح قوی (تقریباً ۷۵٪) برای رندرهای تولید شده با استفاده از نورپردازی دارای تغییرات مکانی پیشنهادی در مقابل رندرهای حاصل از تخمین سراسری [8] را نشان داد که اهمیت ادراکی اثرات نورپردازی محلی را تأیید می‌کند.

3.3 عملکرد در زمان واقعی

شبکه به زمان‌های استنتاج کمتر از ۲۰ میلی‌ثانیه روی یک GPU در سطح لپ‌تاپ (Nvidia GTX 970M) دست می‌یابد. این عملکرد، کاربردهای AR در زمان واقعی را ممکن می‌سازد که در آن نورپردازی می‌تواند به محض حرکت یک شیء مجازی یا دوربین، به‌روزرسانی فوری شود.

4. تحلیل فنی و بینش‌های کلیدی

بینش کلیدی: پیشرفت بنیادی مقاله صرفاً یک مدل تخمین نورپردازی دیگر نیست؛ بلکه یک چرخش استراتژیک از پارادایم نورپردازی متمرکز بر صحنه به پارادایم متمرکز بر نقطه است. در حالی که آثار پیشین مانند کار گاردنر و همکاران (که اغلب در برابر اصول ترجمه تصویر به تصویر سبک CycleGAN برای مسائل بدتعریف مقایسه می‌شود) تصویر را به عنوان یک کل در نظر می‌گرفتند تا یک نورپرداز سراسری خروجی دهند، این کار تشخیص می‌دهد که برای AR، تنها نورپردازی مهم، نورپردازی در نقطه خاص درج است. این یک تغییر عمیق همسو با نیازهای گرافیک در زمان واقعی است، جایی که شیدرها نورپردازی را برای هر قطعه (فرگمنت) محاسبه می‌کنند، نه برای هر صحنه.

جریان منطقی: منطق به زیبایی ساده است: ۱) تغییرات مکانی را به عنوان یک مسئله درجه اول در محیط‌های داخلی بپذیرید (پشتیبانی شده توسط اصول پایه رادیومتری از منابع معتبر مانند معادله رندرینگ کاجیا). ۲) نمایشی (SH) انتخاب کنید که هم برای نورپردازی کم‌فرکانس داخلی بیانگر باشد و هم به طور ذاتی با رندرکننده‌های زمان واقعی سازگار باشد (مثلاً از طریق PRT یا ارزیابی مستقیم SH در شیدرها). ۳) شبکه‌ای طراحی کنید که به صراحت موقعیت را به عنوان ورودی دریافت کند و آن را مجبور به یادگیری نگاشت از زمینه تصویر محلی به پارامترهای SH محلی کند. داده‌های آموزشی، که احتمالاً از صحنه‌های سه‌بعدی مصنوعی یا ضبط شده با نورپردازی شناخته شده تولید شده‌اند، به شبکه می‌آموزند که نشانه‌های بصری (سایه‌ها، انتشار رنگ، هایلایت‌های اسپکیولار) را با شرایط نورپردازی محلی مرتبط کند.

نقاط قوت و ضعف: نقطه قوت اصلی آن عملی بودن است. زمان اجرای <۲۰ میلی‌ثانیه و خروجی SH، آن را به یک راه‌حل "آماده استفاده" برای موتورهای AR موجود تبدیل می‌کند که در تضاد شدید با روش‌هایی است که نقشه‌های محیط HDR کامل خروجی می‌دهند. طبیعت بدون نیاز به هندسه آن یک راه‌حل هوشمندانه است که از CNN به عنوان نماینده‌ای برای رهیابی پرتو پیچیده استفاده می‌کند. با این حال، نقاط ضعف قابل توجه هستند. اول، این روش اساساً یک درون‌یابی نورپردازی از داده‌های آموزشی است. نمی‌تواند نورپردازی را در مناطق کاملاً مشاهده‌نشده (مثلاً داخل یک کابینت بسته) تصور کند. دوم، SH مرتبه پنجم، اگرچه سریع است، قادر به ثبت جزئیات نورپردازی با فرکانس بالا مانند سایه‌های تیز از منابع نور کوچک نیست - که یک محدودیت شناخته شده تقریب‌های SH است. سوم، عملکرد آن به تنوع مجموعه آموزشی آن گره خورده است؛ ممکن است در محیط‌های بسیار جدید با شکست مواجه شود.

بینش‌های قابل اجرا: برای محققان، مسیر پیش رو روشن است: ۱) مدل‌های ترکیبی: SH درشت پیش‌بینی شده را با یک میدان تابش عصبی سبک‌وزن (NeRF) یا مجموعه کوچکی از نورهای نقطه‌ای مجازی یادگرفته شده ادغام کنید تا اثرات با فرکانس بالا را بازیابی کنید. ۲) تخمین عدم قطعیت: شبکه باید یک معیار اطمینان برای پیش‌بینی خود خروجی دهد که برای کاربردهای AR حیاتی از نظر ایمنی ضروری است. ۳) صحنه‌های پویا: روش فعلی ایستا است. مرز بعدی، تخمین نورپردازی با ثبات زمانی برای صحنه‌های پویا و منابع نور متحرک است، شاید با ادغام جریان نوری یا شبکه‌های بازگشتی. برای متخصصان، این روش برای ادغام آزمایشی در برنامه‌های AR موبایل آماده است تا واقع‌گرایی را به طور قابل توجهی نسبت به پیشنهادات فعلی SDK افزایش دهد.

5. نمونه چارچوب تحلیل

سناریو: ارزیابی استحکام روش در یک مورد خاص.
ورودی: تصویری از یک اتاق که یک گوشه آن به شدت سایه‌دار است، دور از هر پنجره یا منبع نور. قرار است یک شیء مجازی در آن گوشه تاریک قرار داده شود.
کاربرد چارچوب:

  1. پرس‌وجوی زمینه: شبکه تصویر و مختصات $(u,v)$ گوشه سایه‌دار را دریافت می‌کند.
  2. تحلیل ویژگی: رمزگذار ویژگی‌هایی را استخراج می‌کند که نشان‌دهنده روشنایی کم، عدم وجود مسیرهای نور مستقیم و احتمالاً انحراف رنگ از دیوارهای مجاور (نور محیطی) است.
  3. پیش‌بینی: ویژگی‌های ادغام شده، رمزگشا را به سمت پیش‌بینی ضرایب SH که نمایانگر یک محیط نورپردازی با شدت کم، پخش و بالقوه دارای انحراف رنگ است، هدایت می‌کنند.
  4. اعتبارسنجی: شیء مجازی رندر شده باید به صورت کم‌نور، با سایه‌های نرم و رنگ‌های مات ظاهر شود و با زمینه بصری گوشه مطابقت داشته باشد. یک شکست این خواهد بود که اگر شیء به روشنی یک شیء در مرکز اتاق ظاهر شود، که نشان می‌دهد شبکه شرط‌سازی مکانی را نادیده گرفته است.
این نمونه، ادعای اصلی تغییرات مکانی را آزمایش می‌کند. یک روش سراسری [8] در اینجا شکست می‌خورد و نورپردازی "متوسط" اتاق را به شیء گوشه اعمال می‌کند.

6. کاربردها و جهت‌های آینده

  • AR/VR پیشرفته: فراتر از درج شیء، برای حضور از راه دور آواتار واقع‌گرایانه که در آن شخص مجازی باید به طور یکنواخت با محیط محلی که به نظر می‌رسد در آن قرار دارد، نورپردازی شود.
  • عکاسی محاسباتی: هدایت ابزارهای ویرایش عکس آگاه از مکان (مثلاً "این شخص را دوباره نورپردازی کن" متفاوت از "آن شیء را دوباره نورپردازی کن").
  • رباتیک و سیستم‌های خودمختار: ارائه درک سریع و بدون نیاز به هندسه از نورپردازی صحنه به ربات‌ها برای بهبود ادراک مواد و برنامه‌ریزی.
  • رندر عصبی: خدمت به عنوان یک پیش‌فرض نورپردازی سریع برای وظایف رندر معکوس یا برای مقداردهی اولیه مدل‌های پیچیده‌تر اما کندتر مانند NeRF.
  • تحقیقات آینده: گسترش به صحنه‌های بیرونی، مدل‌سازی تغییرات نورپردازی پویا و ترکیب با هندسه ضمنی (مثلاً از یک تخمین‌گر عمق تک‌چشمی) برای استدلال دیدپذیری حتی دقیق‌تر.

7. مراجع

  1. Kajiya, J. T. (1986). The rendering equation. ACM SIGGRAPH Computer Graphics.
  2. Gardner, M., et al. (2017). Learning to Predict Indoor Illumination from a Single Image. ACM TOG.
  3. Zhu, J., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN). ICCV.
  4. Ramamoorthi, R., & Hanrahan, P. (2001). An efficient representation for irradiance environment maps. ACM SIGGRAPH.
  5. Apple Inc. (2017, 2018). ARKit Documentation and WWDC Sessions.
  6. Mildenhall, B., et al. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV.
  7. Garon, M., Sunkavalli, K., Hadap, S., Carr, N., & Lalonde, J. (2019). Fast Spatially-Varying Indoor Lighting Estimation. arXiv:1906.03799.