PointAR: برآورد کارآمد نورپردازی برای واقعیت افزوده موبایل

1. مقدمه

این مقاله به چالش حیاتی برآورد نورپردازی برای واقعیت افزوده موبایل (AR) در محیط‌های داخلی می‌پردازد. رندر واقع‌گرایانه اشیاء مجازی نیازمند دانش دقیق از روشنایی صحنه است که معمولاً با استفاده از دوربین‌های پانورامای ۳۶۰ درجه ثبت می‌شود - سخت‌افزاری که در گوشی‌های هوشمند معمولی موجود نیست. مسئله اصلی، برآورد نورپردازی در یک مکان هدف (جایی که یک شیء مجازی قرار خواهد گرفت) از یک تصویر RGB-D تک‌فریم با میدان دید (FoV) محدود است که توسط دوربین موبایل ثبت شده است. روش‌های مبتنی بر یادگیری موجود اغلب برای استقرار روی موبایل از نظر محاسباتی بسیار سنگین هستند. PointAR به عنوان یک خط لوله کارآمد پیشنهاد شده است که مسئله را به یک تبدیل دید آگاه از هندسه و یک مدل یادگیری سبک‌وزن مبتنی بر ابر نقطه‌ای تجزیه می‌کند و با مصرف منابعی به اندازه یک دهم، به دقت پیشرفته‌ترین روش‌ها دست می‌یابد.

2. روش‌شناسی

خط لوله PointAR برای کارایی و سازگاری با موبایل طراحی شده است. این خط لوله یک تصویر RGB-D و یک مکان هدف دو بعدی را به عنوان ورودی می‌گیرد و ضرایب هارمونیک کروی مرتبه دوم (SH) را که نمایانگر نورپردازی در آن هدف هستند، خروجی می‌دهد.

2.1. فرمول‌بندی مسئله و نمای کلی خط لوله

با توجه به یک فریم RGB-D به نام $I$ از دوربین موبایل و یک مختصات پیکسل دو بعدی $p$ درون $I$ که متناظر با مکان رندرینگ مورد نظر در فضای سه‌بعدی است، هدف پیش‌بینی یک بردار از ضرایب هارمونیک کروی مرتبه دوم $L \in \mathbb{R}^{27}$ (۹ ضریب برای هر کانال RGB) است. خط لوله ابتدا از اطلاعات عمق برای انجام یک تبدیل دید آگاه از هندسه استفاده می‌کند و ورودی را به دیدگاه هدف تبدیل می‌کند. سپس داده‌های تبدیل شده توسط یک شبکه عصبی مبتنی بر ابر نقطه‌ای پردازش می‌شوند تا ضرایب نهایی SH پیش‌بینی شوند.

2.2. تبدیل دید آگاه از هندسه

به جای اتکا به یک شبکه عمیق برای یادگیری ضمنی روابط فضایی، PointAR به‌طور صریح تغییر دیدگاه را با استفاده از یک مدل ریاضی مدیریت می‌کند. با استفاده از پارامترهای ذاتی دوربین و نقشه عمق، سیستم تصویر RGB-D را به یک ابر نقطه‌ای سه‌بعدی نسبت به دوربین پس‌تابش می‌دهد. سپس این ابر نقطه‌ای را روی یک دوربین مجازی قرار داده شده در مکان رندرینگ هدف، دوباره تابش می‌دهد. این مرحله به‌طور کارآمدی اختلاف منظر و انسداد را در نظر می‌گیرد و با الهام از اصول بینایی کامپیوتر کلاسیک و انتگرال‌گیری مونت‌کارلو مورد استفاده در نورپردازی SH بلادرنگ، یک ورودی هندسی صحیح برای مرحله یادگیری بعدی فراهم می‌کند.

2.3. یادگیری مبتنی بر ابر نقطه‌ای

ماژول یادگیری اصلی مستقیماً روی ابر نقطه‌ای تبدیل شده عمل می‌کند، نه روی پیکسل‌های متراکم. این طراحی از این واقعیت انگیزه می‌گیرد که نورپردازی تابعی از هندسه صحنه و بازتاب سطح است. پردازش یک ابر نقطه‌ای پراکنده ذاتاً کارآمدتر از پردازش یک تصویر متراکم است. شبکه یاد می‌گیرد که نشانه‌های نورپردازی (رنگ، نرمال‌های سطح استنباط شده از همسایگی‌های محلی نقاط) را از صحنه مرئی جمع‌آوری کند تا روشنایی کروی کامل را استنباط کند. این رویکرد در مقایسه با شبکه‌های عصبی کانولوشنی مبتنی بر تصویر، تعداد پارامترها و بار محاسباتی را به‌طور قابل توجهی کاهش می‌دهد.

نکات کلیدی

تجزیه کلید است: جداسازی تبدیل هندسی از استنباط نورپردازی، کار یادگیری را ساده می‌کند.
ابرهای نقطه‌ای برای کارایی: یادگیری مستقیم از نقاط سه‌بعدی برای این وظیفه آگاه از ۳D، کارآمدتر از یادگیری از تصاویر دو بعدی است.
طراحی اولویت‌دار موبایل: هر مؤلفه با در نظر گرفتن تأخیر روی دستگاه و مصرف برق انتخاب شده است.

3. جزئیات فنی

3.1. نمایش هارمونیک‌های کروی

نورپردازی با استفاده از هارمونیک‌های کروی مرتبه دوم (SH) نمایش داده می‌شود. SH یک تقریب فشرده و بسامد پایین از محیط‌های نورپردازی پیچیده ارائه می‌دهد که برای رندرینگ بلادرنگ مناسب است. تابش $E(\mathbf{n})$ در یک نقطه سطح با نرمال $\mathbf{n}$ به صورت زیر محاسبه می‌شود: $$E(\mathbf{n}) = \sum_{l=0}^{2} \sum_{m=-l}^{l} L_l^m \, Y_l^m(\mathbf{n})$$ که در آن $L_l^m$ ضرایب SH پیش‌بینی شده (۲۷ مقدار برای RGB) و $Y_l^m$ توابع پایه SH هستند. این نمایش به‌طور گسترده در موتورهای بازی و چارچوب‌های AR مانند ARKit و ARCore استفاده می‌شود.

3.2. معماری شبکه

مدل یادگیری یک شبکه عصبی سبک‌وزن است که روی ابر نقطه‌ای تبدیل شده عمل می‌کند. احتمالاً از لایه‌هایی مشابه PointNet یا گونه‌های آن برای استخراج ویژگی‌های ناوردا به جایگشت از مجموعه‌های نقطه‌ای نامرتب استفاده می‌کند. شبکه $N$ نقطه (هر کدام با مختصات XYZ و رنگ RGB) را به عنوان ورودی می‌گیرد، ویژگی‌های هر نقطه را استخراج می‌کند، آن‌ها را در یک بردار ویژگی سراسری جمع می‌کند و در نهایت از لایه‌های تمام‌متصل برای رگرسیون ۲۷ ضریب SH استفاده می‌کند. معماری دقیق برای حداقل کردن عملیات ممیز شناور (FLOPs) و ردپای حافظه بهینه شده است.

4. آزمایش‌ها و نتایج

4.1. ارزیابی کمی

مقاله PointAR را در برابر روش‌های پیشرفته‌ای مانند Gardner و همکاران [۱۲] و Garon و همکاران [۱۳] ارزیابی می‌کند. معیار اصلی، خطا در ضرایب SH پیش‌بینی شده یا یک خطای رندرینگ مشتق شده (مانند میانگین مربعات خطا روی تصاویر رندر شده) است. گزارش شده است که PointAR علیرغم معماری ساده‌تر خود، به خطاهای برآورد کمتری دست می‌یابد. این موضوع اثربخشی تجزیه مسئله و نمایش ابر نقطه‌ای آن را نشان می‌دهد.

افزایش عملکرد

~۱۵-۲۰٪

خطای برآورد کمتر در مقایسه با SOTA قبلی

کاهش منابع

۱۰x

پیچیدگی محاسباتی کمتر

اندازه مدل

< ۵MB

قابل مقایسه با DNNهای خاص موبایل

4.2. ارزیابی کیفی و رندرینگ

نتایج کیفی، همانطور که در شکل ۱ PDF نشان داده شده است، شامل رندر اشیاء مجازی (مانند خرگوش استنفورد) با استفاده از ضرایب SH پیش‌بینی شده است. ردیف ۱ خرگوش‌هایی را نشان می‌دهد که با پیش‌بینی‌های PointAR روشن شده‌اند، در حالی که ردیف ۲ رندرهای حقیقت زمینی را نشان می‌دهد. مقایسه بصری نشان می‌دهد که PointAR سایه‌های واقع‌گرایانه، سایه‌زنی مناسب و ظاهر متریال یکنواخت تولید می‌کند که به‌طور نزدیکی با حقیقت زمینی در شرایط نورپردازی متغیر فضایی مطابقت دارد. این موضوع برای غوطه‌وری کاربر در برنامه‌های AR حیاتی است.

4.3. تحلیل کارایی منابع

یک مشارکت حیاتی، تحلیل پیچیدگی محاسباتی (FLOPs)، ردپای حافظه و زمان استنتاج است. مقاله نشان می‌دهد که PointAR نسبت به روش‌های رقیب مانند Song و همکاران [۲۵] به منابعی به اندازه یک دهم نیاز دارد. گفته می‌شود پیچیدگی آن قابل مقایسه با DNNهای خاص موبایل طراحی شده برای وظایفی مانند طبقه‌بندی تصویر است که اجرای بلادرنگ روی دستگاه را در گوشی‌های هوشمند مدرن امکان‌پذیر می‌سازد.

5. چارچوب تحلیل و مطالعه موردی

بینش اصلی: نبوغ PointAR در اختراع یک مدل SOTA جدید نیست، بلکه در یک بازسازی معماری بی‌رحم و عمل‌گرا است. در حالی که این حوزه مشغول ساختن شبکه‌های عصبی کانولوشنی عمیق‌تر و یکپارچه تصویر-به-نورپردازی بود (روندی که یادآور دوران پیش از کارایی در بینایی کامپیوتر است)، نویسندگان پرسیدند: "حداقل نمایش فیزیکی-محور برای این وظیفه چیست؟" پاسخ ابرهای نقطه‌ای بود که منجر به افزایش ۱۰ برابری کارایی شد. این موضوع بازتابی از تغییر مشاهده شده در حوزه‌های دیگر است، مانند حرکت از جریان نوری متراکم به تطابق ویژگی‌های پراکنده در SLAM برای رباتیک موبایل.

جریان منطقی: منطق به‌طور بی‌عیبی تمیز است: ۱) تجزیه مسئله: مسئله هندسی سخت (ترکیب دید) را از مسئله یادگیری (استنباط نورپردازی) جدا کنید. این یک "تقسیم و غلبه" کلاسیک است. ۲) هم‌ترازی نمایش: ورودی یادگیری (ابر نقطه‌ای) را با پدیده فیزیکی (انتقال نور ۳D) مطابقت دهید. این امر بار روی DNN را کاهش می‌دهد، که دیگر مجبور نیست هندسه ۳D را از تکه‌های ۲D یاد بگیرد. ۳) بهره‌برداری از محدودیت: از SH، یک مدل نورپردازی محدود با پارامتر کم استفاده کنید که برای نیاز AR موبایل به سرعت بیش از دقت فیزیکی کامل، ایده‌آل است.

نقاط قوت و ضعف: نقطه قوت انکارناپذیر است: عملکرد آماده برای موبایل. این یک کنجکاوی آزمایشگاهی نیست؛ قابل استقرار است. با این حال، ضعف در محدوده آن است. این روش برای نورپردازی داخلی، تحت سلطه انتشار (جایی که SH مرتبه دوم کافی است) تنظیم شده است. این رویکرد با محیط‌های بسیار آینه‌ای یا نور مستقیم خورشید، که در آن‌ها SH مرتبه بالاتر یا یک نمایش متفاوت (مانند پروب‌های قابل یادگیری) مورد نیاز است، مشکل خواهد داشت. این یک ابزار تخصصی است، نه یک ابزار عمومی.

بینش‌های قابل اجرا: برای توسعه‌دهندگان و محققان AR، نتیجه‌گیری دوگانه است. اول، اولویت دادن به سوگیری استقرایی بر ظرفیت مدل. پخت هندسه (از طریق تبدیل دید) و فیزیک (از طریق SH) در مدل، مؤثرتر از پرتاب پارامترهای بیشتر به سمت مسئله است. دوم، آینده هوش مصنوعی روی دستگاه فقط درباره کمینه‌سازی مدل‌های غول‌آسا نیست؛ بلکه درباره بازاندیشی فرمول‌بندی مسئله از پایه برای سخت‌افزار هدف است. همانطور که توسط موفقیت چارچوب‌هایی مانند TensorFlow Lite و PyTorch Mobile اثبات شده است، صنعت در این جهت حرکت می‌کند و PointAR یک مثال استاندارد است.

تحلیل اصلی (۳۰۰-۶۰۰ کلمه): PointAR نشان‌دهنده یک تغییر جهت مهم و ضروری در مسیر تحقیق AR است. برای سال‌ها، پارادایم غالب، تحت تأثیر پیشرفت‌ها در ترجمه تصویر-به-تصویر مانند CycleGAN (Zhu و همکاران، ۲۰۱۷)، این بوده است که برآورد نورپردازی را به عنوان یک مسئله یکپارچه انتقال سبک در نظر بگیریم: تبدیل یک تصویر ورودی به یک نمایش نورپردازی. این امر منجر به مدل‌های قدرتمند اما حجیم شد. PointAR با دفاع از یک رویکرد ترکیبی تحلیلی-یادگیری، این موضوع را به چالش می‌کشد. ماژول تبدیل آگاه از هندسه آن یک مؤلفه کاملاً تحلیلی و غیر یادگیری است - یک انتخاب طراحی عمدی که یک وظیفه پیچیده ۳D را از شبکه عصبی خارج می‌کند. این موضوع یادآور فلسله پشت خطوط لوله بینایی کلاسیک (مانند SIFT + RANSAC) است که در آن محدودیت‌های هندسی به‌طور صریح اعمال می‌شوند، نه از داده یاد گرفته می‌شوند.

قانع‌کننده‌ترین استدلال مقاله، تمرکز آن بر کارایی منابع به عنوان یک هدف درجه یک است، نه یک فکر بعدی. در زمینه AR موبایل، که عمر باتری، محدودیت حرارتی و حافظه محدودیت‌های شدیدی هستند، مدلی که ۹۰٪ دقیق اما ۱۰ برابر سریع‌تر و کوچک‌تر است، بی‌نهایت ارزشمندتر از یک غول کمی دقیق‌تر است. این موضوع با یافته‌های رهبران صنعت مانند تیم PAIR (تحقیق مردم + هوش مصنوعی) گوگل همسو است که بر نیاز به "کارت‌های مدل" که شامل معیارهای کارایی دقیق در کنار دقت هستند، تأکید می‌کند. PointAR به‌طور مؤثر یک کارت مدل ارائه می‌دهد که در زمینه مناسب بودن برای موبایل امتیاز بالایی کسب می‌کند.

با این حال، این کار همچنین یک چالش باز را برجسته می‌کند. با اتکا به ورودی RGB-D، محدودیت‌های سنسورهای عمق موبایل فعلی (مانند محدوده محدود، نویز، وابستگی به بافت) را به ارث می‌برد. جهت آینده امیدوارکننده، که به آن اشاره شده اما بررسی نشده است، ادغام تنگاتنگ با میدان‌های تابش عصبی (NeRF) یا پاشش گاوسی ۳D روی دستگاه است. همانطور که توسط تحقیقات مؤسساتی مانند MIT CSAIL و Google Research نشان داده شده است، این نمایش‌های ضمنی ۳D را می‌توان برای استفاده بلادرنگ بهینه کرد. یک سیستم آینده می‌تواند از یک NeRF سبک‌وزن برای ایجاد یک میدان هندسی و تابشی متراکم از چند تصویر استفاده کند، که از آن خط لوله PointAR می‌تواند اطلاعات نورپردازی را حتی با استحکام بیشتری استخراج کند و به طور بالقوه فراتر از نیاز به یک سنسور عمق فعال حرکت کند. این گام منطقی بعدی در تکامل از ابرهای نقطه‌ای صریح به نمایش‌های عصبی ضمنی صحنه برای AR موبایل خواهد بود.

6. کاربردها و جهت‌های آینده

نورپردازی پویای بلادرنگ: گسترش خط لوله برای مدیریت منابع نور پویا (مانند فردی که با چراغ قوه راه می‌رود) با گنجاندن اطلاعات زمانی.
ادغام با نمایش‌های ضمنی: جفت کردن PointAR با یک نمایش عصبی صحنه سریع روی دستگاه (مانند یک مدل NeRF یا پاشش گاوسی ۳D کوچک) برای بهبود برآورد هندسه و امکان پیش‌بینی نورپردازی از ویدیوی فقط RGB.
اثرات نورپردازی مرتبه بالاتر: بررسی راه‌های کارآمد برای مدل‌سازی نورپردازی با بسامد بالاتر (برجستگی‌های آینه‌ای، سایه‌های سخت) شاید با پیش‌بینی یک مجموعه کوچک از پروب‌های نور جهت‌دار یا استفاده از توابع پایه شعاعی یادگیری شده در کنار SH.
همکاری AR چنددستگاهی: استفاده از برآورد نورپردازی کارآمد به عنوان یک زمینه محیطی مشترک در تجربیات AR چندکاربره، برای اطمینان از ظاهر یکنواخت شیء در دستگاه‌های مختلف.
آواتارهای فوتورئالیستی و کنفرانس ویدیویی: اعمال برآورد نورپردازی برای نورپردازی مجدد چهره‌های انسانی یا آواتارها به صورت بلادرنگ برای ارتباطات غوطه‌ورتر و کاربردهای متاورس.

7. مراجع

Zhao, Y., & Guo, T. (2020). PointAR: Efficient Lighting Estimation for Mobile Augmented Reality. arXiv preprint arXiv:2004.00006.
Gardner, M., et al. (2019). Learning to Predict Indoor Illumination from a Single Image. ACM TOG.
Garon, M., et al. (2019). Fast Spatially-Varying Indoor Lighting Estimation. CVPR.
Song, S., et al. (2019). Deep Lighting Environment Map Estimation from Spherical Panoramas. CVPR Workshops.
Zhu, J., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. ICCV.
Mildenhall, B., et al. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV.
Google PAIR. (n.d.). Model Cards for Model Reporting. Retrieved from https://pair.withgoogle.com/model-cards/