1. المقدمة والنظرة العامة

يُقيد التصيير الواقعي في الواقع المعزز على الأجهزة المحمولة بشكل أساسي بسبب نقص معلومات الإضاءة الشمولية الدقيقة في الوقت الفعلي في مواقع التصيير العشوائية. لا تستطيع الأجهزة المحمولة الحالية التقاط بانوراما كاملة 360 درجة من نقطة الموضع المقصودة للكائن الافتراضي. يؤدي استخدام بيانات الإضاءة من نقطة مراقبة المستخدم إلى تصيير غير دقيق وثابت مكانيًا يُفقد الشعور بالانغماس.

يقدم إطار عمل شيخ حلاً مبتكرًا من خلال الاستفادة من التطورات في الرؤية ثلاثية الأبعاد على الأجهزة المحمولة - مثل مستشعرات LiDAR ومستشعرات العمق المدمجة - لتقدير إضاءة البيئة. إنه نظام بمساعدة الحافة مصمم لتقديم تقدير إضاءة دقيق ومتغير مكانيًا في الوقت الفعلي (بسرعة تصل إلى ~20 مللي ثانية)، مما يتيح تجارب واقع معزز عالية الدقة على أجهزة المستهلك.

2. إطار عمل شيخ

تم بناء بنية شيخ حول نموذج العميل-الحافة-الخادم، مع تحسين كل مكون للقيود المحددة للواقع المعزز على الأجهزة المحمولة: القدرة الحاسوبية المحدودة على الجهاز، وزمن انتقال الشبكة، والحاجة إلى واقعية إدراكية.

2.1 البنية الأساسية وسير العمل

يتضمن سير العمل: 1) يلتقط الجهاز المحمول سحابة نقطية ثلاثية الأبعاد للبيئة باستخدام مستشعر العمق الخاص به (مثل LiDAR). 2) يقوم خوارزمية أخذ عينات مبتكرة بضغط هذه البيانات. 3) يتم إرسال البيانات المعالجة إلى خادم حافة يستضيف نموذج تعلم عميق لتقدير الإضاءة. 4) يتم إرجاع معاملات الإضاءة المقدرة (مثل معاملات التوافقيات الكروية) إلى الجهاز لتصيير الكائنات الافتراضية.

2.2 أخذ العينات الجديد للسحابة النقطية

الابتكار الرئيسي هو تقنية أخذ عينات فعالة مستمدة من التحليل التجريبي لمجموعات البيانات الداخلية ثلاثية الأبعاد. بدلاً من معالجة السحابة النقطية الكاملة والكثيفة، يختار شيخ بذكاء مجموعة فرعية من النقاط الأكثر إفادة لتقدير الإضاءة (مثل النقاط على الأسطح ذات الخصائص الطبيعية أو الانعكاسية المحددة). هذا يقلل بشكل كبير من حمولة البيانات دون فقدان كبير في الدقة.

2.3 خط المعالجة على الجهاز بواسطة وحدة معالجة الرسومات

لتقليل زمن الوصول، تتم معالجة السحابة النقطية الأولية (التصفية، والتطبيع، وأخذ العينات) على وحدة معالجة الرسومات للجهاز المحمول. يضمن خط المعالجة هذا المصمم خصيصًا ألا تصبح المعالجة المسبقة الثقيلة عائقًا قبل إرسال الشبكة.

2.4 الاستدلال بمساعدة الحافة وتحسين الشبكة

يعمل نموذج التعلم العميق المعقد لاستنتاج الإضاءة من البنية ثلاثية الأبعاد على خادم حافة. يستخدم شيخ مخطط ترميز متخصص لضغط بيانات السحابة النقطية المأخوذة عيناتها بشكل أكبر قبل الإرسال، مما يقلل من زمن انتقال الشبكة واستخدام النطاق الترددي.

2.5 التشغيل التكيفي والتماسك الزمني

يتضمن شيخ استراتيجية تشغيل ذكية. فهو لا يقوم بتقدير إضاءة جديد لكل إطار. بدلاً من ذلك، يقدر متى تغيرت ظروف الإضاءة أو موضع المستخدم/نقطة النظر بشكل كبير بما يكفي لتبرير التحديث. علاوة على ذلك، يوفر آليات لضمان التماسك الزمني بين التقديرات، مما يمنع الوميض أو التحولات المفاجئة في مشهد الواقع المعزز المصور.

3. التنفيذ التقني والتفاصيل

3.1 الأساس الرياضي

غالبًا ما يتم تمثيل الإضاءة باستخدام التوافقيات الكروية (SH). يمكن صياغة مشكلة التقدير الأساسية على أنها إيجاد معاملات SH $\mathbf{l}$ التي تشرح بشكل أفضل الإشعاع المرصود $B(\mathbf{n})$ عند نقاط السطح ذات الطبيعي $\mathbf{n}$، بمعلومية الانعكاسية $\rho$:

$B(\mathbf{n}) = \rho \int_{\Omega} L(\omega) (\mathbf{n} \cdot \omega)^+ d\omega \approx \rho \sum_{i} l_i Y_i(\mathbf{n})$

حيث $L(\omega)$ هو الإشعاع الساقط، و $Y_i$ هي دوال أساس SH، و $(\cdot)^+$ هو الضرب النقطي المقيد. يتعلم الشبكة العصبية لشيخ تعيين $f_\theta$ من سحابة نقطية مأخوذة عيناتها $P$ إلى هذه المعاملات: $\mathbf{l} = f_\theta(P)$.

تهدف استراتيجية أخذ العينات إلى اختيار النقاط $p_i \in P$ التي تزيد من اكتساب المعلومات لحل مشكلة التصيير العكسي هذه، وغالبًا ما تركز على النقاط ذات الإشارات غير اللامبرتية أو العلاقات الهندسية المحددة.

3.2 إطار التحليل ومثال توضيحي

السيناريو: وضع مزهرية خزفية افتراضية على طاولة خشبية في غرفة معيشة بها نافذة على جانب ومصباح على الجانب الآخر.

  1. الحصول على البيانات: يقوم مستشعر LiDAR الخاص بجهاز iPhone بمسح الغرفة، مما يولد سحابة نقطية كثيفة (~500 ألف نقطة).
  2. المعالجة على الجهاز (وحدة معالجة الرسومات): يقوم خط معالجة شيخ بتصفية الضوضاء، ومحاذاة السحابة، وتطبيق خوارزمية أخذ العينات الخاصة به. يحدد ويحتفظ بالنقاط بشكل أساسي على سطح الطاولة (للضوء المنعكس غير المباشر)، ومنطقة النافذة (مصدر الضوء الأساسي)، وغطاء المصباح. يتم تقليل السحابة إلى ~5 آلاف نقطة تمثيلية.
  3. الاستدلال على الحافة: يتم إرسال هذه السحابة النقطية المضغوطة والمشفرة إلى الحافة. تقوم الشبكة العصبية بتحليل التوزيع المكاني ثلاثي الأبعاد والخصائص المادية المحتملة (المستنتجة من الهندسة/السياق) لتقدير مجموعة من معاملات التوافقيات الكروية من الدرجة الثانية التي تصف الإضاءة الشمولية في موقع المزهرية.
  4. التصيير: يستخدم تطبيق الواقع المعزز على الهاتف معاملات SH هذه لتظليل المزهرية الافتراضية. يظهر الجانب المواجه للنافذة أكثر إشراقًا وتكون الإبرازات مرئية، بينما يضاء الجانب الآخر بلطف بواسطة الضوء المنعكس من الطاولة الخشبية، مما يحقق واقعية ضوئية متغيرة مكانيًا.

4. التقييم التجريبي والنتائج

يقيم البحث شيخ باستخدام تطبيق مرجعي للواقع المعزز على الأجهزة المحمولة. تركز المقاييس على دقة التقدير و زمن الوصول من البداية إلى النهاية.

زمن وصول التقدير

20.67 مللي ثانية

المتوسط لكل تقدير

تحسين الدقة

9.4%

أفضل من أحدث نموذج أساسي للشبكة العصبية

ضغط البيانات

~100x

تخفيض من السحابة النقطية الخام

4.1 أداء الدقة

تم قياس الدقة بمقارنة الصور المصورة للكائنات الافتراضية تحت الإضاءة المقدرة لشيخ مع التصييرات المرجعية باستخدام خرائط بيئة معروفة. تفوق شيخ على أحدث نموذج أساسي للشبكة العصبية بنسبة 9.4% من حيث مقياس تشابه الصور القياسي (على الأرجح PSNR أو SSIM). يُعزى هذا التحسن إلى الوعي الهيكلي ثلاثي الأبعاد الذي توفره السحابة النقطية، على عكس الأساليب التي تعتمد فقط على صور الكاميرا ثنائية الأبعاد.

4.2 زمن الوصول والكفاءة

يحقق خط المعالجة من البداية إلى النهاية متوسط زمن وصول يبلغ 20.67 مللي ثانية لكل تقدير إضاءة، وهو ضمن النطاق المطلوب للواقع المعزز في الوقت الفعلي (عادة 16 مللي ثانية لمعدل 60 إطارًا في الثانية). يتم تمكين ذلك من خلال المعالجة المسبقة الفعالة على الجهاز وتحسينات الشبكة. تقلل آلية التشغيل التكيفي من الحمل الحسابي الفعال لكل إطار بشكل أكبر.

4.3 ملخص النتائج الرئيسية

  • يثبت الجدوى: يوضح أن تقدير الإضاءة الدقيق في الوقت الفعلي القائم على الرؤية ثلاثية الأبعاد ممكن على المنصات المحمولة.
  • يبرز ميزة الأبعاد الثلاثة: يُظهر فائدة واضحة في الدقة مقارنة بالأساليب القائمة على الصور ثنائية الأبعاد من خلال الاستفادة من السياق الهندسي.
  • يُثبت تصميم النظام: يلبي خط المعالجة المحسن بمساعدة الحافة متطلبات زمن الوصول الصارمة.

5. التحليل النقدي ورؤية الخبراء

الرؤية الأساسية: شيخ ليس مجرد تحسين تدريجي آخر في التصيير العصبي؛ إنه حل تقني عملي على مستوى الأنظمة يربط أخيرًا الفجوة بين نظرية الرسومات المتطورة والواقع القاسي لأجهزة الهاردوير المحمولة. الرؤية الأساسية هي أن الانتشار الجديد لمستشعرات الأبعاد الثلاثية المحمولة (LiDAR) ليس فقط لقياس الغرف - إنه المفتاح المفقود لحل مشكلة "الإضاءة من أي مكان" التي أزعجت الواقع المعزز على الأجهزة المحمولة لعقد من الزمان. بينما تذهل أعمال مثل NeRF: تمثيل المشاهد كمجالات إشعاع عصبية لتوليف المنظر (Mildenhall et al., 2020) بإعادة بناء المشهد الكامل، إلا أنها محظورة حسابيًا للاستخدام المحمول في الوقت الفعلي. يتجنب شيخ هذا الفخ بذكاء من خلال عدم محاولة إعادة بناء كل شيء؛ بدلاً من ذلك، يستخدم البيانات ثلاثية الأبعاد كمعطى هندسي متناثر لتقييد مشكلة تقدير الإضاءة، وهو أمر أكثر قابلية للحل.

التدفق المنطقي: منطق البحث مقنع: 1) الواقعية الضوئية تحتاج إلى إضاءة متغيرة مكانيًا. 2) الأجهزة المحمولة لا تستطيع التقاطها مباشرة. 3) لكن يمكنها الآن التقاط الهندسة ثلاثية الأبعاد بثمن بخس. 4) الهندسة تعني قيود الإضاءة (مثل ركن مظلم مقابل بالقرب من نافذة). 5) لذلك، استخدم شبكة عصبية لتعلم تعيين "الهندسة → الإضاءة". 6) لجعلها في الوقت الفعلي، قم بتحسين كل خطوة بشكل عدواني: خذ عينات من البيانات ثلاثية الأبعاد، وادفع الاستدلال الثقيل إلى الحافة، ولا تقم بالتقدير إلا إذا لزم الأمر. هذا التدفق من تعريف المشكلة إلى النظام العملي نظيف بشكل استثنائي.

نقاط القوة والعيوب: أكبر نقاط قوته هي البراغماتية. التشغيل التكيفي والتماسك الزمني هما سمة من سمات الهندسة لمنتج حقيقي، وليس مجرد عرض توضيحي بحثي. خوارزمية أخذ العينات هي فكرة ذكية ومنخفضة التكلفة تنتج مكاسب هائلة. ومع ذلك، فإن الإطار له عيوب جوهرية. يعتمد كليًا على جودة مستشعر العمق؛ الأداء في البيئات منخفضة النسيج أو عالية اللمعان مشكوك فيه. يقدم نموذج المساعدة على الحافة اعتمادًا على الشبكة، مما يخلق تباينًا في زمن الوصول ومخاوف تتعلق بالخصوصية - تخيل تطبيق تصميم داخلي للواقع المعزز يقوم ببث خرائط ثلاثية الأبعاد لمنزلك إلى خادم. علاوة على ذلك، كما لوحظ في بحث Microsoft HoloLens، فإن تقدير الإضاءة هو مجرد جزء واحد من لغز الدمج؛ تقدير المواد للعالم الحقيقي أمر بالغ الأهمية بنفس القدر للدمج السلس، وهي مشكلة يتجنبها شيخ.

رؤى قابلة للتنفيذ: بالنسبة للباحثين، فإن الخلاصة هي التركيز بشكل مضاعف على الأساليب الهجينة الهندسية العصبية. التعلم الخالص ثقيل جدًا؛ الهندسة الخالصة مبسطة للغاية. المستقبل يكمن في أطر عمل مثل شيخ التي تستخدم أحدهما لتوجيه الآخر. بالنسبة للمطورين، يمثل هذا البحث مخططًا: إذا كنت تبني تطبيق واقع معزز جادًا على الأجهزة المحمولة، فيجب عليك الآن اعتبار بيانات مستشعر الأبعاد الثلاثية كمدخلات من الدرجة الأولى. ابدأ فورًا في إنشاء نماذج أولية باستخدام واجهات برمجة تطبيقات العمق في ARKit/ARCore. بالنسبة لصانعي الرقائق، فإن الطلب على محركات عصبية أكثر قوة على الجهاز ومستشعرات عمق فعالة سيزداد فقط - قم بتحسين خط المعالجة هذا. يوضح شيخ أن الطريق إلى الواقع المعزز الواقعي للمستهلك لا يتعلق فقط بخوارزميات أفضل، ولكن بالتصميم المشترك للخوارزميات، والأجهزة، وبنية النظام في انسجام.

6. التطبيقات المستقبلية واتجاهات البحث

  • تجارة الواقع المعزز في كل مكان: وضع المنتجات الافتراضية (الأثاث، الديكور، الأجهزة) مع تكامل إضاءة مثالي، مما يؤدي إلى ارتفاع معدلات التحويل في التجارة الإلكترونية.
  • التصميم الاحترافي والتصور: يمكن للمهندسين المعماريين ومصممي الديكور الداخلي معاينة التشطيبات، وتركيبات الإضاءة، والأثاث في الموقع بدقة واقعية على جهاز لوحي.
  • الألعاب والترفيه المتقدم: ألعاب الواقع المعزز القائمة على الموقع حيث تتفاعل الشخصيات والكائنات الافتراضية بشكل واقعي مع الإضاءة الديناميكية لبيئات العالم الحقيقي (مثل إلقاء ظلال صحيحة تحت السحب المتحركة).
  • اتجاهات البحث:
    1. التعلم على الجهاز: نقل الشبكة العصبية بالكامل إلى الجهاز للقضاء على زمن انتقال الشبكة ومشكلات الخصوصية، والاستفادة من وحدات المعالجة العصبية المحمولة من الجيل التالي.
    2. تقدير المواد والإضاءة المشترك: توسيع الإطار لتقدير الخصائص المادية التقريبية للسطح (الخشونة، المعدنية) للبيئة الحقيقية لتفاعل ضوئي أكثر واقعية.
    3. الإضاءة الديناميكية والظلال: التوسع من إضاءة البيئة الثابتة إلى التعامل مع مصادر الضوء الديناميكية (مثل تشغيل/إطفاء مصباح، تحريك مصباح يدوي).
    4. التكامل مع مجالات الإشعاع العصبية (NeRFs): استخدام خط معالجة شيخ الفعال لتوفير معطيات أو تهيئات إضاءة لإعادة بناء أسرع تشبه NeRF ومحسنة للأجهزة المحمولة.

7. المراجع

  1. Zhao, Y., & Guo, T. (2021). Xihe: A 3D Vision-based Lighting Estimation Framework for Mobile Augmented Reality. In The 19th Annual International Conference on Mobile Systems, Applications, and Services (MobiSys '21).
  2. Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., & Ng, R. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. In European Conference on Computer Vision (ECCV).
  3. Google ARCore. Depth API. https://developers.google.com/ar/discover/depth
  4. Apple. LiDAR Scanner and Depth Framework in iOS. https://developer.apple.com/documentation/arkit/understanding_world_tracking
  5. Microsoft Research. HoloLens and Environmental Understanding. https://www.microsoft.com/en-us/research/project/hololens/
  6. Ramamoorthi, R., & Hanrahan, P. (2001). An Efficient Representation for Irradiance Environment Maps. In Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques (SIGGRAPH '01).