1. مقدمه
این مقاله به چالش حیاتی برآورد نورپردازی برای واقعیت افزوده موبایل (AR) در محیطهای داخلی میپردازد. رندر واقعگرایانه اشیاء مجازی نیازمند دانش دقیق از روشنایی صحنه است که معمولاً با استفاده از دوربینهای پانورامای ۳۶۰ درجه ثبت میشود - سختافزاری که در گوشیهای هوشمند معمولی موجود نیست. مسئله اصلی، برآورد نورپردازی در یک مکان هدف (جایی که یک شیء مجازی قرار خواهد گرفت) از یک تصویر RGB-D تکفریم با میدان دید (FoV) محدود است که توسط دوربین موبایل ثبت شده است. روشهای مبتنی بر یادگیری موجود اغلب برای استقرار روی موبایل از نظر محاسباتی بسیار سنگین هستند. PointAR به عنوان یک خط لوله کارآمد پیشنهاد شده است که مسئله را به یک تبدیل دید آگاه از هندسه و یک مدل یادگیری سبکوزن مبتنی بر ابر نقطهای تجزیه میکند و با مصرف منابعی به اندازه یک دهم، به دقت پیشرفتهترین روشها دست مییابد.
2. روششناسی
خط لوله PointAR برای کارایی و سازگاری با موبایل طراحی شده است. این خط لوله یک تصویر RGB-D و یک مکان هدف دو بعدی را به عنوان ورودی میگیرد و ضرایب هارمونیک کروی مرتبه دوم (SH) را که نمایانگر نورپردازی در آن هدف هستند، خروجی میدهد.
2.1. فرمولبندی مسئله و نمای کلی خط لوله
با توجه به یک فریم RGB-D به نام $I$ از دوربین موبایل و یک مختصات پیکسل دو بعدی $p$ درون $I$ که متناظر با مکان رندرینگ مورد نظر در فضای سهبعدی است، هدف پیشبینی یک بردار از ضرایب هارمونیک کروی مرتبه دوم $L \in \mathbb{R}^{27}$ (۹ ضریب برای هر کانال RGB) است. خط لوله ابتدا از اطلاعات عمق برای انجام یک تبدیل دید آگاه از هندسه استفاده میکند و ورودی را به دیدگاه هدف تبدیل میکند. سپس دادههای تبدیل شده توسط یک شبکه عصبی مبتنی بر ابر نقطهای پردازش میشوند تا ضرایب نهایی SH پیشبینی شوند.
2.2. تبدیل دید آگاه از هندسه
به جای اتکا به یک شبکه عمیق برای یادگیری ضمنی روابط فضایی، PointAR بهطور صریح تغییر دیدگاه را با استفاده از یک مدل ریاضی مدیریت میکند. با استفاده از پارامترهای ذاتی دوربین و نقشه عمق، سیستم تصویر RGB-D را به یک ابر نقطهای سهبعدی نسبت به دوربین پستابش میدهد. سپس این ابر نقطهای را روی یک دوربین مجازی قرار داده شده در مکان رندرینگ هدف، دوباره تابش میدهد. این مرحله بهطور کارآمدی اختلاف منظر و انسداد را در نظر میگیرد و با الهام از اصول بینایی کامپیوتر کلاسیک و انتگرالگیری مونتکارلو مورد استفاده در نورپردازی SH بلادرنگ، یک ورودی هندسی صحیح برای مرحله یادگیری بعدی فراهم میکند.
2.3. یادگیری مبتنی بر ابر نقطهای
ماژول یادگیری اصلی مستقیماً روی ابر نقطهای تبدیل شده عمل میکند، نه روی پیکسلهای متراکم. این طراحی از این واقعیت انگیزه میگیرد که نورپردازی تابعی از هندسه صحنه و بازتاب سطح است. پردازش یک ابر نقطهای پراکنده ذاتاً کارآمدتر از پردازش یک تصویر متراکم است. شبکه یاد میگیرد که نشانههای نورپردازی (رنگ، نرمالهای سطح استنباط شده از همسایگیهای محلی نقاط) را از صحنه مرئی جمعآوری کند تا روشنایی کروی کامل را استنباط کند. این رویکرد در مقایسه با شبکههای عصبی کانولوشنی مبتنی بر تصویر، تعداد پارامترها و بار محاسباتی را بهطور قابل توجهی کاهش میدهد.
نکات کلیدی
- تجزیه کلید است: جداسازی تبدیل هندسی از استنباط نورپردازی، کار یادگیری را ساده میکند.
- ابرهای نقطهای برای کارایی: یادگیری مستقیم از نقاط سهبعدی برای این وظیفه آگاه از ۳D، کارآمدتر از یادگیری از تصاویر دو بعدی است.
- طراحی اولویتدار موبایل: هر مؤلفه با در نظر گرفتن تأخیر روی دستگاه و مصرف برق انتخاب شده است.
3. جزئیات فنی
3.1. نمایش هارمونیکهای کروی
نورپردازی با استفاده از هارمونیکهای کروی مرتبه دوم (SH) نمایش داده میشود. SH یک تقریب فشرده و بسامد پایین از محیطهای نورپردازی پیچیده ارائه میدهد که برای رندرینگ بلادرنگ مناسب است. تابش $E(\mathbf{n})$ در یک نقطه سطح با نرمال $\mathbf{n}$ به صورت زیر محاسبه میشود: $$E(\mathbf{n}) = \sum_{l=0}^{2} \sum_{m=-l}^{l} L_l^m \, Y_l^m(\mathbf{n})$$ که در آن $L_l^m$ ضرایب SH پیشبینی شده (۲۷ مقدار برای RGB) و $Y_l^m$ توابع پایه SH هستند. این نمایش بهطور گسترده در موتورهای بازی و چارچوبهای AR مانند ARKit و ARCore استفاده میشود.
3.2. معماری شبکه
مدل یادگیری یک شبکه عصبی سبکوزن است که روی ابر نقطهای تبدیل شده عمل میکند. احتمالاً از لایههایی مشابه PointNet یا گونههای آن برای استخراج ویژگیهای ناوردا به جایگشت از مجموعههای نقطهای نامرتب استفاده میکند. شبکه $N$ نقطه (هر کدام با مختصات XYZ و رنگ RGB) را به عنوان ورودی میگیرد، ویژگیهای هر نقطه را استخراج میکند، آنها را در یک بردار ویژگی سراسری جمع میکند و در نهایت از لایههای تماممتصل برای رگرسیون ۲۷ ضریب SH استفاده میکند. معماری دقیق برای حداقل کردن عملیات ممیز شناور (FLOPs) و ردپای حافظه بهینه شده است.
4. آزمایشها و نتایج
4.1. ارزیابی کمی
مقاله PointAR را در برابر روشهای پیشرفتهای مانند Gardner و همکاران [۱۲] و Garon و همکاران [۱۳] ارزیابی میکند. معیار اصلی، خطا در ضرایب SH پیشبینی شده یا یک خطای رندرینگ مشتق شده (مانند میانگین مربعات خطا روی تصاویر رندر شده) است. گزارش شده است که PointAR علیرغم معماری سادهتر خود، به خطاهای برآورد کمتری دست مییابد. این موضوع اثربخشی تجزیه مسئله و نمایش ابر نقطهای آن را نشان میدهد.
افزایش عملکرد
~۱۵-۲۰٪
خطای برآورد کمتر در مقایسه با SOTA قبلی
کاهش منابع
۱۰x
پیچیدگی محاسباتی کمتر
اندازه مدل
< ۵MB
قابل مقایسه با DNNهای خاص موبایل
4.2. ارزیابی کیفی و رندرینگ
نتایج کیفی، همانطور که در شکل ۱ PDF نشان داده شده است، شامل رندر اشیاء مجازی (مانند خرگوش استنفورد) با استفاده از ضرایب SH پیشبینی شده است. ردیف ۱ خرگوشهایی را نشان میدهد که با پیشبینیهای PointAR روشن شدهاند، در حالی که ردیف ۲ رندرهای حقیقت زمینی را نشان میدهد. مقایسه بصری نشان میدهد که PointAR سایههای واقعگرایانه، سایهزنی مناسب و ظاهر متریال یکنواخت تولید میکند که بهطور نزدیکی با حقیقت زمینی در شرایط نورپردازی متغیر فضایی مطابقت دارد. این موضوع برای غوطهوری کاربر در برنامههای AR حیاتی است.
4.3. تحلیل کارایی منابع
یک مشارکت حیاتی، تحلیل پیچیدگی محاسباتی (FLOPs)، ردپای حافظه و زمان استنتاج است. مقاله نشان میدهد که PointAR نسبت به روشهای رقیب مانند Song و همکاران [۲۵] به منابعی به اندازه یک دهم نیاز دارد. گفته میشود پیچیدگی آن قابل مقایسه با DNNهای خاص موبایل طراحی شده برای وظایفی مانند طبقهبندی تصویر است که اجرای بلادرنگ روی دستگاه را در گوشیهای هوشمند مدرن امکانپذیر میسازد.
5. چارچوب تحلیل و مطالعه موردی
بینش اصلی: نبوغ PointAR در اختراع یک مدل SOTA جدید نیست، بلکه در یک بازسازی معماری بیرحم و عملگرا است. در حالی که این حوزه مشغول ساختن شبکههای عصبی کانولوشنی عمیقتر و یکپارچه تصویر-به-نورپردازی بود (روندی که یادآور دوران پیش از کارایی در بینایی کامپیوتر است)، نویسندگان پرسیدند: "حداقل نمایش فیزیکی-محور برای این وظیفه چیست؟" پاسخ ابرهای نقطهای بود که منجر به افزایش ۱۰ برابری کارایی شد. این موضوع بازتابی از تغییر مشاهده شده در حوزههای دیگر است، مانند حرکت از جریان نوری متراکم به تطابق ویژگیهای پراکنده در SLAM برای رباتیک موبایل.
جریان منطقی: منطق بهطور بیعیبی تمیز است: ۱) تجزیه مسئله: مسئله هندسی سخت (ترکیب دید) را از مسئله یادگیری (استنباط نورپردازی) جدا کنید. این یک "تقسیم و غلبه" کلاسیک است. ۲) همترازی نمایش: ورودی یادگیری (ابر نقطهای) را با پدیده فیزیکی (انتقال نور ۳D) مطابقت دهید. این امر بار روی DNN را کاهش میدهد، که دیگر مجبور نیست هندسه ۳D را از تکههای ۲D یاد بگیرد. ۳) بهرهبرداری از محدودیت: از SH، یک مدل نورپردازی محدود با پارامتر کم استفاده کنید که برای نیاز AR موبایل به سرعت بیش از دقت فیزیکی کامل، ایدهآل است.
نقاط قوت و ضعف: نقطه قوت انکارناپذیر است: عملکرد آماده برای موبایل. این یک کنجکاوی آزمایشگاهی نیست؛ قابل استقرار است. با این حال، ضعف در محدوده آن است. این روش برای نورپردازی داخلی، تحت سلطه انتشار (جایی که SH مرتبه دوم کافی است) تنظیم شده است. این رویکرد با محیطهای بسیار آینهای یا نور مستقیم خورشید، که در آنها SH مرتبه بالاتر یا یک نمایش متفاوت (مانند پروبهای قابل یادگیری) مورد نیاز است، مشکل خواهد داشت. این یک ابزار تخصصی است، نه یک ابزار عمومی.
بینشهای قابل اجرا: برای توسعهدهندگان و محققان AR، نتیجهگیری دوگانه است. اول، اولویت دادن به سوگیری استقرایی بر ظرفیت مدل. پخت هندسه (از طریق تبدیل دید) و فیزیک (از طریق SH) در مدل، مؤثرتر از پرتاب پارامترهای بیشتر به سمت مسئله است. دوم، آینده هوش مصنوعی روی دستگاه فقط درباره کمینهسازی مدلهای غولآسا نیست؛ بلکه درباره بازاندیشی فرمولبندی مسئله از پایه برای سختافزار هدف است. همانطور که توسط موفقیت چارچوبهایی مانند TensorFlow Lite و PyTorch Mobile اثبات شده است، صنعت در این جهت حرکت میکند و PointAR یک مثال استاندارد است.
تحلیل اصلی (۳۰۰-۶۰۰ کلمه): PointAR نشاندهنده یک تغییر جهت مهم و ضروری در مسیر تحقیق AR است. برای سالها، پارادایم غالب، تحت تأثیر پیشرفتها در ترجمه تصویر-به-تصویر مانند CycleGAN (Zhu و همکاران، ۲۰۱۷)، این بوده است که برآورد نورپردازی را به عنوان یک مسئله یکپارچه انتقال سبک در نظر بگیریم: تبدیل یک تصویر ورودی به یک نمایش نورپردازی. این امر منجر به مدلهای قدرتمند اما حجیم شد. PointAR با دفاع از یک رویکرد ترکیبی تحلیلی-یادگیری، این موضوع را به چالش میکشد. ماژول تبدیل آگاه از هندسه آن یک مؤلفه کاملاً تحلیلی و غیر یادگیری است - یک انتخاب طراحی عمدی که یک وظیفه پیچیده ۳D را از شبکه عصبی خارج میکند. این موضوع یادآور فلسله پشت خطوط لوله بینایی کلاسیک (مانند SIFT + RANSAC) است که در آن محدودیتهای هندسی بهطور صریح اعمال میشوند، نه از داده یاد گرفته میشوند.
قانعکنندهترین استدلال مقاله، تمرکز آن بر کارایی منابع به عنوان یک هدف درجه یک است، نه یک فکر بعدی. در زمینه AR موبایل، که عمر باتری، محدودیت حرارتی و حافظه محدودیتهای شدیدی هستند، مدلی که ۹۰٪ دقیق اما ۱۰ برابر سریعتر و کوچکتر است، بینهایت ارزشمندتر از یک غول کمی دقیقتر است. این موضوع با یافتههای رهبران صنعت مانند تیم PAIR (تحقیق مردم + هوش مصنوعی) گوگل همسو است که بر نیاز به "کارتهای مدل" که شامل معیارهای کارایی دقیق در کنار دقت هستند، تأکید میکند. PointAR بهطور مؤثر یک کارت مدل ارائه میدهد که در زمینه مناسب بودن برای موبایل امتیاز بالایی کسب میکند.
با این حال، این کار همچنین یک چالش باز را برجسته میکند. با اتکا به ورودی RGB-D، محدودیتهای سنسورهای عمق موبایل فعلی (مانند محدوده محدود، نویز، وابستگی به بافت) را به ارث میبرد. جهت آینده امیدوارکننده، که به آن اشاره شده اما بررسی نشده است، ادغام تنگاتنگ با میدانهای تابش عصبی (NeRF) یا پاشش گاوسی ۳D روی دستگاه است. همانطور که توسط تحقیقات مؤسساتی مانند MIT CSAIL و Google Research نشان داده شده است، این نمایشهای ضمنی ۳D را میتوان برای استفاده بلادرنگ بهینه کرد. یک سیستم آینده میتواند از یک NeRF سبکوزن برای ایجاد یک میدان هندسی و تابشی متراکم از چند تصویر استفاده کند، که از آن خط لوله PointAR میتواند اطلاعات نورپردازی را حتی با استحکام بیشتری استخراج کند و به طور بالقوه فراتر از نیاز به یک سنسور عمق فعال حرکت کند. این گام منطقی بعدی در تکامل از ابرهای نقطهای صریح به نمایشهای عصبی ضمنی صحنه برای AR موبایل خواهد بود.
6. کاربردها و جهتهای آینده
- نورپردازی پویای بلادرنگ: گسترش خط لوله برای مدیریت منابع نور پویا (مانند فردی که با چراغ قوه راه میرود) با گنجاندن اطلاعات زمانی.
- ادغام با نمایشهای ضمنی: جفت کردن PointAR با یک نمایش عصبی صحنه سریع روی دستگاه (مانند یک مدل NeRF یا پاشش گاوسی ۳D کوچک) برای بهبود برآورد هندسه و امکان پیشبینی نورپردازی از ویدیوی فقط RGB.
- اثرات نورپردازی مرتبه بالاتر: بررسی راههای کارآمد برای مدلسازی نورپردازی با بسامد بالاتر (برجستگیهای آینهای، سایههای سخت) شاید با پیشبینی یک مجموعه کوچک از پروبهای نور جهتدار یا استفاده از توابع پایه شعاعی یادگیری شده در کنار SH.
- همکاری AR چنددستگاهی: استفاده از برآورد نورپردازی کارآمد به عنوان یک زمینه محیطی مشترک در تجربیات AR چندکاربره، برای اطمینان از ظاهر یکنواخت شیء در دستگاههای مختلف.
- آواتارهای فوتورئالیستی و کنفرانس ویدیویی: اعمال برآورد نورپردازی برای نورپردازی مجدد چهرههای انسانی یا آواتارها به صورت بلادرنگ برای ارتباطات غوطهورتر و کاربردهای متاورس.
7. مراجع
- Zhao, Y., & Guo, T. (2020). PointAR: Efficient Lighting Estimation for Mobile Augmented Reality. arXiv preprint arXiv:2004.00006.
- Gardner, M., et al. (2019). Learning to Predict Indoor Illumination from a Single Image. ACM TOG.
- Garon, M., et al. (2019). Fast Spatially-Varying Indoor Lighting Estimation. CVPR.
- Song, S., et al. (2019). Deep Lighting Environment Map Estimation from Spherical Panoramas. CVPR Workshops.
- Zhu, J., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. ICCV.
- Mildenhall, B., et al. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV.
- Google PAIR. (n.d.). Model Cards for Model Reporting. Retrieved from https://pair.withgoogle.com/model-cards/