1. المقدمة

يُعد تقدير إضاءة المشهد من صورة واحدة مشكلة أساسية لكنها غير محددة جيدًا في رؤية الحاسوب، وهي حاسمة لتطبيقات مثل الواقع المعزز (AR) والتقديم القائم على الصور. تعتمد الطرق التقليدية على كائنات معروفة (مسبارات ضوئية) أو بيانات إضافية (العمق، وجهات نظر متعددة)، مما يحد من الجانب العملي. تقترب طرق التعلم الحديثة، مثل طريقة جاردنر وآخرون [8]، من التنبؤ بالإضاءة الشاملة لكنها تفشل في التقاط الطبيعة المتغيرة مكانيًا للإضاءة الداخلية، حيث تقارب مصادر الضوء والعوائق تخلق تباينات محلية كبيرة. تقدم أنظمة الواقع المعزز التجارية (مثل ARKit) تقديرات إضاءة أساسية لكنها تفتقر إلى التطور اللازم لإعادة الإضاءة الواقعية.

تقدم هذه الورقة طريقة في الوقت الفعلي لتقدير الإضاءة الداخلية المتغيرة مكانيًا من صورة RGB واحدة. عند إعطاء صورة وموقع بكسل ثنائي الأبعاد، تتنبأ شبكة عصبية تلافيفية (CNN) بتمثيل التوافقيات الكروية (SH) من الدرجة الخامسة للإضاءة في ذلك الموقع المحدد في أقل من 20 مللي ثانية، مما يتيح إدراج كائنات افتراضية واقعية في أي مكان في المشهد.

الرؤى الأساسية

  • المحلي مقابل الشامل: الإضاءة الداخلية ليست موحدة؛ يؤدي التقدير الشامل الواحد إلى تقديمات غير واقعية للواقع المعزز.
  • الكفاءة هي المفتاح: الأداء في الوقت الفعلي (<20 مللي ثانية) غير قابل للتفاوض للتطبيقات التفاعلية للواقع المعزز.
  • بدون هندسة: تستنتج الطريقة رؤية الضوء المحلي والعوائق ضمنيًا من الصورة، دون الحاجة إلى إدخال بيانات العمق.
  • تمثيل عملي: استخدام التوافقيات الكروية منخفضة الأبعاد (36 معاملًا) يتيح التنبؤ السريع والتكامل المباشر في مسارات التقديم القياسية.

2. المنهجية

الفكرة الأساسية هي تدريب شبكة عصبية تلافيفية (CNN) على الانحدار لمعاملات التوافقيات الكروية المشروطة بموقع صورة ثنائي الأبعاد.

2.1 بنية الشبكة العصبية

تتلقى الشبكة مدخلين: صورة RGB المدخلة وإحداثيات ثنائية الأبعاد $(u, v)$ موحدة إلى $[-1, 1]$. تمر الصورة عبر مُشفر للميزات (مبني على سبيل المثال على ResNet). تتم معالجة الإحداثيات ثنائية الأبعاد عبر طبقات متصلة بالكامل لإنتاج ترميز موضعي. يتم دمج ميزات الصورة والترميز الموضعي، عادةً عبر التسلسل أو آليات الانتباه، قبل أن يتنبأ وحدة فك الترميز المدمجة بمعاملات SH النهائية لقنوات RGB. يصمم هذا التنبؤ بإضاءة مشروطًا بشكل صريح على الموقع المكاني.

2.2 تمثيل التوافقيات الكروية

يتم تمثيل الإضاءة عند نقطة ما باستخدام التوافقيات الكروية من الدرجة الخامسة. توفر SH تمثيلًا مضغوطًا قائمًا على التردد لدالة على الكرة. يتم تقريب الإشعاعية $E$ عند نقطة سطحية ذات المستوى الطبيعي $\mathbf{n}$ على النحو التالي:

$E(\mathbf{n}) \approx \sum_{l=0}^{L} \sum_{m=-l}^{l} c_{l}^{m} Y_{l}^{m}(\mathbf{n})$

حيث $L=5$، $Y_{l}^{m}$ هي دوال أساس SH، و $c_{l}^{m}$ هي المعاملات التي تتنبأ بها الشبكة (9 معاملات لكل قناة لونية، 27 إجمالاً لـ RGB). هذا الناتج منخفض الأبعاد هو مفتاح الاستدلال في الوقت الفعلي.

3. التجارب والنتائج

زمن الاستدلال

< 20 مللي ثانية

على بطاقة Nvidia GTX 970M

ترتيب SH

الدرجة الخامسة

27 معاملًا إجمالاً

تفضيل المستخدم

~75%

مقارنة بأحدث الطرق [8]

3.1 التقييم الكمي

تم تقييم الطريقة على مجموعات بيانات اصطناعية وحقيقية. شملت المقاييس الخطأ الزاوي بين خرائط البيئة المتوقعة والحقيقية وجذر متوسط الخطأ التربيعي على الكائنات المقدمة. تفوقت الطريقة المقترحة المتغيرة مكانيًا باستمرار على طريقة تقدير الإضاءة الشاملة لجاردنر وآخرون [8]، خاصة للمواقع البعيدة عن مركز الصورة حيث تختلف الإضاءة.

3.2 دراسة المستخدم

أُجريت دراسة إدراكية للمستخدمين حيث قارن المشاركون كائنات افتراضية أعيد إضاءتها باستخدام إضاءة من طرق مختلفة. أظهرت النتائج تفضيلًا قويًا (حوالي 75٪) للتقديمات المُنشأة باستخدام الإضاءة المتغيرة مكانيًا المقترحة مقارنةً بتلك التي تستخدم التقدير الشامل من [8]، مما يؤكد الأهمية الإدراكية لتأثيرات الإضاءة المحلية.

3.3 الأداء في الوقت الفعلي

تحقق الشبكة أوقات استدلال أقل من 20 مللي ثانية على وحدة معالجة رسومات من فئة الحواسيب المحمولة (Nvidia GTX 970M). يتيح هذا الأداء تطبيقات الواقع المعزز في الوقت الفعلي حيث يمكن تحديث الإضاءة على الفور مع تحرك كائن افتراضي أو الكاميرا.

4. التحليل الفني والرؤى الأساسية

الرؤية الأساسية: الاختراق الأساسي للورقة ليس مجرد نموذج آخر لتقدير الإضاءة؛ بل هو تحول استراتيجي من نموذج إضاءة مرتكز على المشهد إلى نموذج مرتكز على النقطة. بينما تعاملت الأعمال السابقة مثل عمل جاردنر وآخرون (التي غالبًا ما تُقارن بمبادئ ترجمة الصورة إلى صورة على غرار CycleGAN للمشكلات غير المحددة) مع الصورة ككل لإخراج مصدر إضاءة شامل واحد، يدرك هذا العمل أنه بالنسبة للواقع المعزز، فإن الإضاءة الوحيدة المهمة هي الإضاءة في نقطة الإدراج المحددة. هذا تحول عميق يتماشى مع احتياجات الرسومات في الوقت الفعلي، حيث تحسب الظلال (Shaders) الإضاءة لكل جزء (Fragment)، وليس لكل مشهد.

التدفق المنطقي: المنطق بسيط بأناقة: 1) الاعتراف بالتباين المكاني كمشكلة من الدرجة الأولى في الإعدادات الداخلية (مدعومًا بمبادئ القياس الإشعاعي الأساسية من مصادر موثوقة مثل معادلة التقديم لكاجيا). 2) اختيار تمثيل (SH) يكون معبرًا عن الإضاءة الداخلية منخفضة التردد ومتوافقًا بشكل أصلي مع برامج التقديم في الوقت الفعلي (عبر PRT أو تقييم SH مباشر في الظلال). 3) تصميم شبكة تأخذ الموقع بشكل صريح كمدخل، مما يجبرها على تعلم التعيين من السياق المحلي للصورة إلى معاملات SH المحلية. تعلّم بيانات التدريب، التي يتم إنشاؤها على الأرجح من مشاهد ثلاثية الأبعاد اصطناعية أو مقتناة بإضاءة معروفة، الشبكة لربط القرائن البصرية (الظلال، انتشار اللون، اللمعان) بظروف الإضاءة المحلية.

نقاط القوة والضعف: القوة الأساسية هي عمليتها. وقت التشغيل <20 مللي ثانية ومخرج SH يجعلانها حلًا "جاهزًا للاستخدام" لمحركات الواقع المعزز الحالية، على النقيض من الطرق التي تخرج خرائط بيئة HDR كاملة. طبيعتها الخالية من الهندسة هي حل ذكي، باستخدام CNN كبديل للتتبع الشعاعي المعقد. ومع ذلك، فإن العيوب كبيرة. أولاً، هي في الأساس استيفاء للإضاءة من بيانات التدريب. لا يمكنها تخيل الإضاءة في مناطق غير ملاحظة تمامًا (داخل خزانة مغلقة مثلاً). ثانيًا، SH من الدرجة الخامسة، رغم سرعتها، تفشل في التقاط تفاصيل الإضاءة عالية التردد مثل الظلال الحادة من مصادر الضوء الصغيرة - وهو قيد معروف لتقريبات SH. ثالثًا، يرتبط أداؤها بتنوع مجموعة تدريبها؛ وقد تفشل في بيئات جديدة للغاية.

رؤى قابلة للتنفيذ: بالنسبة للباحثين، فإن المسار المستقبلي واضح: 1) نماذج هجينة: دمج SH الخشن المتوقع مع مجال إشعاع عصبي (NeRF) خفيف الوزن أو مجموعة صغيرة من أضواء النقاط الافتراضية المتعلمة لاستعادة التأثيرات عالية التردد. 2) تقدير عدم اليقين: يجب أن تخرج الشبكة مقياس ثقة لتنبؤها، وهو أمر حاسم لتطبيقات الواقع المعزز الحرجة للسلامة. 3) المشاهد الديناميكية: الطريقة الحالية ثابتة. الحد التالي هو تقدير إضاءة متسق زمنيًا للمشاهد الديناميكية ومصادر الضوء المتحركة، ربما عن طريق دمج التدفق البصري أو الشبكات المتكررة. بالنسبة للممارسين، هذه الطريقة جاهزة للتكامل التجريبي في تطبيقات الواقع المعزز المحمولة لتعزيز الواقعية بشكل كبير مقارنة بعروض SDK الحالية.

5. مثال على إطار التحليل

السيناريو: تقييم متانة الطريقة في حالة حدية.
المدخل: صورة لغرفة حيث تكون إحدى الزوايا مظللة بشدة، بعيدة عن أي نافذة أو مصدر ضوء. من المقرر وضع كائن افتراضي في تلك الزاوية المظلمة.
تطبيق الإطار:

  1. استعلام السياق: تتلقى الشبكة الصورة وإحداثيات (u,v) للزاوية المظللة.
  2. تحليل الميزات: يستخرج المُشفر ميزات تشير إلى إضاءة منخفضة، وعدم وجود مسارات ضوء مباشرة، وإمكانية انزياح لوني من الجدران المجاورة (ضوء محيطي).
  3. التنبؤ: تؤدي الميزات المدمجة وحدة فك الترميز للتنبؤ بمعاملات SH تمثل بيئة إضاءة منخفضة الكثافة، منتشرة، ومنحازة لونيًا محتملة.
  4. التحقق: يجب أن يظهر الكائن الافتراضي المقدم مضاءً بضوء خافت، بظلال ناعمة وألوان باهتة، مطابقًا للسياق البصري للزاوية. سيكون الفشل إذا ظهر الكائن مضاءً بشكل ساطع مثل كائن في وسط الغرفة، مما يشير إلى أن الشبكة تجاهلت التكييف المكاني.
يختبر هذا المثال الادعاء الأساسي للتباين المكاني. ستفشل الطريقة الشاملة [8] هنا، حيث ستطبق إضاءة الغرفة "المتوسطة" على كائن الزاوية.

6. التطبيقات المستقبلية والاتجاهات

  • الواقع المعزز/الافتراضي المتقدم: ما بعد إدراج الكائنات، لتواجد الصور الرمزية الواقعي حيث يجب إضاءة الشخص الافتراضي بشكل متسق مع البيئة المحلية التي يبدو أنه يشغلها.
  • التصوير الحسابي: تشغيل أدوات تحرير الصور الواعية مكانيًا (مثل "أعد إضاءة هذا الشخص" بشكل مختلف عن "أعد إضاءة ذلك الكائن").
  • الروبوتات والأنظمة المستقلة: تزويد الروبوتات بفهم سريع وخالٍ من الهندسة لإضاءة المشهد لتحسين إدراك المواد والتخطيط.
  • التقديم العصبي: العمل كتقدير إضاءة سريع مسبق لمهام التقديم العكسي أو لتهيئة نماذج أكثر تعقيدًا ولكن أبطأ مثل NeRF.
  • البحث المستقبلي: التوسع ليشمل المشاهد الخارجية، ونمذجة تغيرات الإضاءة الديناميكية، والدمج مع الهندسة الضمنية (من مقدر عمق أحادي العدسة على سبيل المثال) لمزيد من دقة الاستدلال على الرؤية.

7. المراجع

  1. Kajiya, J. T. (1986). The rendering equation. ACM SIGGRAPH Computer Graphics.
  2. Gardner, M., et al. (2017). Learning to Predict Indoor Illumination from a Single Image. ACM TOG.
  3. Zhu, J., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN). ICCV.
  4. Ramamoorthi, R., & Hanrahan, P. (2001). An efficient representation for irradiance environment maps. ACM SIGGRAPH.
  5. Apple Inc. (2017, 2018). ARKit Documentation and WWDC Sessions.
  6. Mildenhall, B., et al. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV.
  7. Garon, M., Sunkavalli, K., Hadap, S., Carr, N., & Lalonde, J. (2019). Fast Spatially-Varying Indoor Lighting Estimation. arXiv:1906.03799.