1. مقدمه
تخمین نورپردازی صحنه از یک تصویر منفرد، یک مسئله اساسی اما بدتعریف در بینایی کامپیوتر است که برای کاربردهایی مانند واقعیت افزوده (AR) و رندر مبتنی بر تصویر حیاتی میباشد. روشهای سنتی بر اشیاء شناختهشده (پروبهای نوری) یا دادههای اضافی (عمق، چند نمای مختلف) متکی هستند که کاربرد عملی را محدود میکنند. رویکردهای اخیر مبتنی بر یادگیری، مانند روش گاردنر و همکاران [8]، نورپردازی سراسری را پیشبینی میکنند اما قادر به ثبت ماهیت دارای تغییرات مکانی نورپردازی داخلی نیستند، جایی که نزدیکی به منابع نور و انسدادها، تغییرات محلی قابل توجهی ایجاد میکنند. سیستمهای تجاری واقعیت افزوده (مانند ARKit) تخمینهای نورپردازی اولیه ارائه میدهند اما برای نورپردازی مجدد واقعگرایانه فاقد پیچیدگی لازم هستند.
این مقاله یک روش در زمان واقعی برای تخمین نورپردازی داخلی با تغییرات مکانی از یک تصویر RGB منفرد ارائه میدهد. با دریافت یک تصویر و یک موقعیت پیکسل دوبعدی، یک شبکه عصبی کانولوشنی (CNN) نمایشی از هارمونیکهای کروی (SH) مرتبه پنجم نورپردازی در آن موقعیت خاص را در کمتر از ۲۰ میلیثانیه پیشبینی میکند و امکان درج اشیاء مجازی واقعگرایانه در هر نقطه از صحنه را فراهم میآورد.
بینشهای کلیدی
- محلی در مقابل سراسری: نورپردازی داخلی یکنواخت نیست؛ یک تخمین سراسری منفرد منجر به رندرهای غیرواقعی AR میشود.
- کارایی کلیدی است: عملکرد در زمان واقعی (<۲۰ میلیثانیه) برای کاربردهای تعاملی AR غیرقابل مذاکره است.
- بدون نیاز به هندسه: این روش، دیدپذیری و انسداد نور محلی را به طور ضمنی از تصویر استنباط میکند، بدون نیاز به ورودی عمق.
- نمایش عملی: استفاده از هارمونیکهای کروی با ابعاد پایین (۳۶ ضریب)، پیشبینی سریع و ادغام مستقیم در خطوط لوله رندر استاندارد را ممکن میسازد.
2. روششناسی
ایده اصلی، آموزش یک CNN برای رگرسیون ضرایب هارمونیکهای کروی شرطی شده بر روی موقعیت تصویر دوبعدی است.
2.1 معماری شبکه
شبکه دو ورودی دریافت میکند: تصویر RGB ورودی و یک مختصات دوبعدی $(u, v)$ نرمالشده به $[-1, 1]$. تصویر از طریق یک رمزگذار ویژگی (مثلاً مبتنی بر ResNet) عبور میکند. مختصات دوبعدی از طریق لایههای کاملاً متصل پردازش شده تا یک کدگذاری موقعیتی تولید کند. ویژگیهای تصویر و کدگذاری موقعیتی، معمولاً از طریق الحاق یا مکانیزمهای توجه، ادغام میشوند و سپس یک رمزگشای فشرده، ضرایب نهایی SH را برای کانالهای RGB پیشبینی میکند. این طراحی، پیشبینی نورپردازی را به صراحت بر موقعیت مکانی شرطی میکند.
2.2 نمایش هارمونیکهای کروی
نورپردازی در یک نقطه با استفاده از هارمونیکهای کروی مرتبه پنجم نمایش داده میشود. SH یک نمایش فشرده مبتنی بر فرکانس از یک تابع روی کره ارائه میدهد. تابش $E$ در یک نقطه سطح با نرمال $\mathbf{n}$ به صورت زیر تقریب زده میشود:
$E(\mathbf{n}) \approx \sum_{l=0}^{L} \sum_{m=-l}^{l} c_{l}^{m} Y_{l}^{m}(\mathbf{n})$
که در آن $L=5$، $Y_{l}^{m}$ توابع پایه SH هستند و $c_{l}^{m}$ ضرایبی هستند که توسط شبکه پیشبینی میشوند (۹ ضریب برای هر کانال رنگی، در مجموع ۲۷ ضریب برای RGB). این خروجی کمبعد، کلید استنتاج در زمان واقعی است.
3. آزمایشها و نتایج
زمان استنتاج
< ۲۰ میلیثانیه
روی Nvidia GTX 970M
مرتبه SH
مرتبه پنجم
۲۷ ضریب در مجموع
ترجیح کاربر
~۷۵٪
در مقایسه با روش پیشرفته [8]
3.1 ارزیابی کمی
این روش بر روی مجموعهدادههای مصنوعی و واقعی ارزیابی شد. معیارها شامل خطای زاویهای بین نقشههای محیط پیشبینی شده و واقعی و RMSE روی اشیاء رندر شده بود. روش پیشنهادی دارای تغییرات مکانی، به طور مداوم از روش تخمین نورپردازی سراسری گاردنر و همکاران [8] بهتر عمل کرد، به ویژه برای موقعیتهای دور از مرکز تصویر که نورپردازی متفاوت است.
3.2 مطالعه کاربری
یک مطالعه ادراکی کاربری انجام شد که در آن شرکتکنندگان اشیاء مجازی نورپردازی شده با استفاده از نورپردازی حاصل از روشهای مختلف را مقایسه کردند. نتایج ترجیح قوی (تقریباً ۷۵٪) برای رندرهای تولید شده با استفاده از نورپردازی دارای تغییرات مکانی پیشنهادی در مقابل رندرهای حاصل از تخمین سراسری [8] را نشان داد که اهمیت ادراکی اثرات نورپردازی محلی را تأیید میکند.
3.3 عملکرد در زمان واقعی
شبکه به زمانهای استنتاج کمتر از ۲۰ میلیثانیه روی یک GPU در سطح لپتاپ (Nvidia GTX 970M) دست مییابد. این عملکرد، کاربردهای AR در زمان واقعی را ممکن میسازد که در آن نورپردازی میتواند به محض حرکت یک شیء مجازی یا دوربین، بهروزرسانی فوری شود.
4. تحلیل فنی و بینشهای کلیدی
بینش کلیدی: پیشرفت بنیادی مقاله صرفاً یک مدل تخمین نورپردازی دیگر نیست؛ بلکه یک چرخش استراتژیک از پارادایم نورپردازی متمرکز بر صحنه به پارادایم متمرکز بر نقطه است. در حالی که آثار پیشین مانند کار گاردنر و همکاران (که اغلب در برابر اصول ترجمه تصویر به تصویر سبک CycleGAN برای مسائل بدتعریف مقایسه میشود) تصویر را به عنوان یک کل در نظر میگرفتند تا یک نورپرداز سراسری خروجی دهند، این کار تشخیص میدهد که برای AR، تنها نورپردازی مهم، نورپردازی در نقطه خاص درج است. این یک تغییر عمیق همسو با نیازهای گرافیک در زمان واقعی است، جایی که شیدرها نورپردازی را برای هر قطعه (فرگمنت) محاسبه میکنند، نه برای هر صحنه.
جریان منطقی: منطق به زیبایی ساده است: ۱) تغییرات مکانی را به عنوان یک مسئله درجه اول در محیطهای داخلی بپذیرید (پشتیبانی شده توسط اصول پایه رادیومتری از منابع معتبر مانند معادله رندرینگ کاجیا). ۲) نمایشی (SH) انتخاب کنید که هم برای نورپردازی کمفرکانس داخلی بیانگر باشد و هم به طور ذاتی با رندرکنندههای زمان واقعی سازگار باشد (مثلاً از طریق PRT یا ارزیابی مستقیم SH در شیدرها). ۳) شبکهای طراحی کنید که به صراحت موقعیت را به عنوان ورودی دریافت کند و آن را مجبور به یادگیری نگاشت از زمینه تصویر محلی به پارامترهای SH محلی کند. دادههای آموزشی، که احتمالاً از صحنههای سهبعدی مصنوعی یا ضبط شده با نورپردازی شناخته شده تولید شدهاند، به شبکه میآموزند که نشانههای بصری (سایهها، انتشار رنگ، هایلایتهای اسپکیولار) را با شرایط نورپردازی محلی مرتبط کند.
نقاط قوت و ضعف: نقطه قوت اصلی آن عملی بودن است. زمان اجرای <۲۰ میلیثانیه و خروجی SH، آن را به یک راهحل "آماده استفاده" برای موتورهای AR موجود تبدیل میکند که در تضاد شدید با روشهایی است که نقشههای محیط HDR کامل خروجی میدهند. طبیعت بدون نیاز به هندسه آن یک راهحل هوشمندانه است که از CNN به عنوان نمایندهای برای رهیابی پرتو پیچیده استفاده میکند. با این حال، نقاط ضعف قابل توجه هستند. اول، این روش اساساً یک درونیابی نورپردازی از دادههای آموزشی است. نمیتواند نورپردازی را در مناطق کاملاً مشاهدهنشده (مثلاً داخل یک کابینت بسته) تصور کند. دوم، SH مرتبه پنجم، اگرچه سریع است، قادر به ثبت جزئیات نورپردازی با فرکانس بالا مانند سایههای تیز از منابع نور کوچک نیست - که یک محدودیت شناخته شده تقریبهای SH است. سوم، عملکرد آن به تنوع مجموعه آموزشی آن گره خورده است؛ ممکن است در محیطهای بسیار جدید با شکست مواجه شود.
بینشهای قابل اجرا: برای محققان، مسیر پیش رو روشن است: ۱) مدلهای ترکیبی: SH درشت پیشبینی شده را با یک میدان تابش عصبی سبکوزن (NeRF) یا مجموعه کوچکی از نورهای نقطهای مجازی یادگرفته شده ادغام کنید تا اثرات با فرکانس بالا را بازیابی کنید. ۲) تخمین عدم قطعیت: شبکه باید یک معیار اطمینان برای پیشبینی خود خروجی دهد که برای کاربردهای AR حیاتی از نظر ایمنی ضروری است. ۳) صحنههای پویا: روش فعلی ایستا است. مرز بعدی، تخمین نورپردازی با ثبات زمانی برای صحنههای پویا و منابع نور متحرک است، شاید با ادغام جریان نوری یا شبکههای بازگشتی. برای متخصصان، این روش برای ادغام آزمایشی در برنامههای AR موبایل آماده است تا واقعگرایی را به طور قابل توجهی نسبت به پیشنهادات فعلی SDK افزایش دهد.
5. نمونه چارچوب تحلیل
سناریو: ارزیابی استحکام روش در یک مورد خاص.
ورودی: تصویری از یک اتاق که یک گوشه آن به شدت سایهدار است، دور از هر پنجره یا منبع نور. قرار است یک شیء مجازی در آن گوشه تاریک قرار داده شود.
کاربرد چارچوب:
- پرسوجوی زمینه: شبکه تصویر و مختصات $(u,v)$ گوشه سایهدار را دریافت میکند.
- تحلیل ویژگی: رمزگذار ویژگیهایی را استخراج میکند که نشاندهنده روشنایی کم، عدم وجود مسیرهای نور مستقیم و احتمالاً انحراف رنگ از دیوارهای مجاور (نور محیطی) است.
- پیشبینی: ویژگیهای ادغام شده، رمزگشا را به سمت پیشبینی ضرایب SH که نمایانگر یک محیط نورپردازی با شدت کم، پخش و بالقوه دارای انحراف رنگ است، هدایت میکنند.
- اعتبارسنجی: شیء مجازی رندر شده باید به صورت کمنور، با سایههای نرم و رنگهای مات ظاهر شود و با زمینه بصری گوشه مطابقت داشته باشد. یک شکست این خواهد بود که اگر شیء به روشنی یک شیء در مرکز اتاق ظاهر شود، که نشان میدهد شبکه شرطسازی مکانی را نادیده گرفته است.
6. کاربردها و جهتهای آینده
- AR/VR پیشرفته: فراتر از درج شیء، برای حضور از راه دور آواتار واقعگرایانه که در آن شخص مجازی باید به طور یکنواخت با محیط محلی که به نظر میرسد در آن قرار دارد، نورپردازی شود.
- عکاسی محاسباتی: هدایت ابزارهای ویرایش عکس آگاه از مکان (مثلاً "این شخص را دوباره نورپردازی کن" متفاوت از "آن شیء را دوباره نورپردازی کن").
- رباتیک و سیستمهای خودمختار: ارائه درک سریع و بدون نیاز به هندسه از نورپردازی صحنه به رباتها برای بهبود ادراک مواد و برنامهریزی.
- رندر عصبی: خدمت به عنوان یک پیشفرض نورپردازی سریع برای وظایف رندر معکوس یا برای مقداردهی اولیه مدلهای پیچیدهتر اما کندتر مانند NeRF.
- تحقیقات آینده: گسترش به صحنههای بیرونی، مدلسازی تغییرات نورپردازی پویا و ترکیب با هندسه ضمنی (مثلاً از یک تخمینگر عمق تکچشمی) برای استدلال دیدپذیری حتی دقیقتر.
7. مراجع
- Kajiya, J. T. (1986). The rendering equation. ACM SIGGRAPH Computer Graphics.
- Gardner, M., et al. (2017). Learning to Predict Indoor Illumination from a Single Image. ACM TOG.
- Zhu, J., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN). ICCV.
- Ramamoorthi, R., & Hanrahan, P. (2001). An efficient representation for irradiance environment maps. ACM SIGGRAPH.
- Apple Inc. (2017, 2018). ARKit Documentation and WWDC Sessions.
- Mildenhall, B., et al. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV.
- Garon, M., Sunkavalli, K., Hadap, S., Carr, N., & Lalonde, J. (2019). Fast Spatially-Varying Indoor Lighting Estimation. arXiv:1906.03799.