1. Giriş

Tek bir görüntüden sahne aydınlatmasını tahmin etmek, bilgisayarlı görüde temel fakat kötü tanımlanmış bir problemdir ve artırılmış gerçeklik (AR) ve görüntü tabanlı işleme gibi uygulamalar için kritik öneme sahiptir. Geleneksel yöntemler bilinen nesnelere (ışık probları) veya ek verilere (derinlik, çoklu görünümler) dayanır ve pratikliği sınırlar. Gardner ve arkadaşlarının [8] yaklaşımı gibi son öğrenme tabanlı yöntemler, genel aydınlatmayı tahmin eder ancak ışık kaynaklarına yakınlık ve engellemelerin önemli yerel değişimler yarattığı iç mekan aydınlatmasının mekansal değişimli doğasını yakalayamaz. Ticari AR sistemleri (örn., ARKit) temel aydınlatma tahminleri sunar ancak gerçekçi yeniden aydınlatma için yeterli karmaşıklıktan yoksundur.

Bu makale, tek bir RGB görüntüden mekansal değişimli iç mekan aydınlatmasını tahmin eden gerçek zamanlı bir yöntem sunmaktadır. Bir görüntü ve 2B piksel konumu verildiğinde, bir Evrişimli Sinir Ağı (CNN), sahnenin herhangi bir yerinde gerçekçi sanal nesne yerleştirmeyi mümkün kılan, o spesifik konumdaki aydınlatmanın 5. dereceden Küresel Harmonikler (SH) temsilini 20ms'nin altında tahmin eder.

Temel Kavrayışlar

  • Yerel, Genel Değil: İç mekan aydınlatması tekdüze değildir; tek bir genel tahmin gerçekçi olmayan AR işlemelerine yol açar.
  • Verimlilik Anahtardır: Gerçek zamanlı performans (<20ms), etkileşimli AR uygulamaları için vazgeçilmezdir.
  • Geometrisiz: Yöntem, derinlik girdisi gerektirmeden, görüntüden yerel ışık görünürlüğünü ve engellemeyi örtük olarak çıkarır.
  • Pratik Temsil: Düşük boyutlu Küresel Harmonikler (36 katsayı) kullanımı, hızlı tahmin ve standart işleme hatlarına doğrudan entegrasyonu sağlar.

2. Metodoloji

Temel fikir, bir CNN'i, 2B görüntü konumuna koşullandırılmış Küresel Harmonikler katsayılarını regresyon yapmak üzere eğitmektir.

2.1 Ağ Mimarisi

Ağ iki girdi alır: girdi RGB görüntüsü ve $[-1, 1]$'e normalize edilmiş bir 2B koordinat $(u, v)$. Görüntü, bir öznitelik kodlayıcıdan (örn., ResNet tabanlı) geçer. 2B koordinat, tam bağlı katmanlar aracılığıyla işlenerek bir konumsal kodlama üretir. Görüntü öznitelikleri ve konumsal kodlama, tipik olarak birleştirme veya dikkat mekanizmaları yoluyla birleştirilir ve ardından kompakt bir kod çözücü, RGB kanalları için nihai SH katsayılarını tahmin eder. Bu tasarım, aydınlatma tahminini açıkça mekansal konuma koşullandırır.

2.2 Küresel Harmonikler Temsili

Bir noktadaki aydınlatma, 5. dereceden Küresel Harmonikler kullanılarak temsil edilir. SH, bir küre üzerindeki bir fonksiyonun kompakt, frekans tabanlı bir temsilini sağlar. Normal vektörü $\mathbf{n}$ olan bir yüzey noktasındaki ışınım $E$ şu şekilde yaklaşık olarak ifade edilir:

$E(\mathbf{n}) \approx \sum_{l=0}^{L} \sum_{m=-l}^{l} c_{l}^{m} Y_{l}^{m}(\mathbf{n})$

Burada $L=5$, $Y_{l}^{m}$ SH temel fonksiyonlarıdır ve $c_{l}^{m}$ ağ tarafından tahmin edilen katsayılardır (renk kanalı başına 9 katsayı, RGB için toplam 27). Bu düşük boyutlu çıktı, gerçek zamanlı çıkarımın anahtarıdır.

3. Deneyler ve Sonuçlar

Çıkarım Süresi

< 20 ms

Nvidia GTX 970M üzerinde

SH Derecesi

5. Derece

Toplam 27 katsayı

Kullanıcı Tercihi

~%75

En gelişmiş yönteme [8] göre

3.1 Nicel Değerlendirme

Yöntem, sentetik ve gerçek veri kümeleri üzerinde değerlendirilmiştir. Metrikler, tahmin edilen ve gerçek ortam haritaları arasındaki Açısal Hata ve işlenmiş nesneler üzerindeki RMSE'yi içermektedir. Önerilen mekansal değişimli yöntem, özellikle aydınlatmanın farklı olduğu görüntü merkezinden uzak konumlar için, Gardner ve arkadaşlarının [8] genel aydınlatma tahmin yöntemini tutarlı bir şekilde geride bırakmıştır.

3.2 Kullanıcı Çalışması

Katılımcıların farklı yöntemlerden elde edilen aydınlatma kullanılarak yeniden aydınlatılmış sanal nesneleri karşılaştırdığı algısal bir kullanıcı çalışması yapılmıştır. Sonuçlar, [8]'den alınan genel tahmin kullanılan işlemelere kıyasla, önerilen mekansal değişimli aydınlatma kullanılarak üretilen işlemeler için güçlü bir tercih (yaklaşık %75) göstermiş ve yerel aydınlatma etkilerinin algısal önemini doğrulamıştır.

3.3 Gerçek Zamanlı Performans

Ağ, dizüstü bilgisayar seviyesindeki bir GPU'da (Nvidia GTX 970M) 20 milisaniyenin altında çıkarım sürelerine ulaşmaktadır. Bu performans, sanal bir nesne veya kamera hareket ettiğinde aydınlatmanın anında güncellenebildiği gerçek zamanlı AR uygulamalarını mümkün kılar.

4. Teknik Analiz ve Temel Kavrayışlar

Temel Kavrayış: Makalenin temel atılımı, sadece başka bir aydınlatma tahmin modeli değil; sahne-merkezli bir aydınlatma paradigmasından nokta-merkezli bir aydınlatma paradigmasına stratejik bir geçiştir. Gardner ve arkadaşlarının çalışması gibi önceki çalışmalar (kötü tanımlanmış problemler için CycleGAN tarzı görüntüden görüntüye çeviri ilkelerine göre kıyaslanır) görüntüyü bir bütün olarak ele alıp tek bir genel aydınlatıcı çıktısı üretirken, bu çalışma AR için önemli olan tek aydınlatmanın yerleştirmenin yapıldığı spesifik noktadaki aydınlatma olduğunu kabul eder. Bu, gölgelendiricilerin aydınlatmayı sahne başına değil, parça başına hesapladığı gerçek zamanlı grafiklerin ihtiyaçlarıyla uyumlu derin bir değişimdir.

Mantıksal Akış: Mantık zarif bir şekilde basittir: 1) Mekansal değişimi iç mekan ortamlarında birinci dereceden bir problem olarak kabul et (Kajiya'nın İşleme Denklemi gibi yetkili kaynaklardan temel radyometri ilkeleriyle desteklenir). 2) Hem düşük frekanslı iç mekan aydınlatması için ifade gücü yüksek hem de gerçek zamanlı işleyicilerle (örn., PRT veya gölgelendiricilerde doğrudan SH değerlendirmesi yoluyla) doğal olarak uyumlu bir temsil (SH) seç. 3) Konumu açıkça girdi olarak alan, onu yerel görüntü bağlamından yerel SH parametrelerine eşleme öğrenmeye zorlayan bir ağ tasarla. Büyük olasılıkla bilinen aydınlatmaya sahip sentetik veya yakalanmış 3B sahnelerden üretilen eğitim verisi, ağa görsel ipuçlarını (gölgeler, renk yayılımı, parlak noktalar) yerel aydınlatma koşullarıyla ilişkilendirmeyi öğretir.

Güçlü ve Zayıf Yönler: Birincil gücü pratikliğidir. <20ms çalışma süresi ve SH çıktısı, onu mevcut AR motorları için "tak-çalıştır" bir çözüm haline getirir; bu, tam HDR ortam haritaları çıktılayan yöntemlerle keskin bir tezat oluşturur. Geometrisiz doğası, CNN'i karmaşık ışın izleme için bir vekil olarak kullanan akıllı bir çözümdür. Ancak, zayıflıkları önemlidir. İlk olarak, temelde eğitim verisinden aydınlatmanın bir enterpolasyonudur. Tamamen gözlemlenmemiş bölgelerdeki (örn., kapalı bir dolabın içi) aydınlatmayı hayal edemez. İkinci olarak, 5. derece SH, hızlı olmasına rağmen, küçük ışık kaynaklarından keskin gölgeler gibi yüksek frekanslı aydınlatma detaylarını yakalayamaz—bu, SH yaklaşımlarının bilinen bir sınırlamasıdır. Üçüncüsü, performansı eğitim kümesinin çeşitliliğine bağlıdır; oldukça yeni ortamlarda başarısız olabilir.

Uygulanabilir Kavrayışlar: Araştırmacılar için ileriye giden yol açıktır: 1) Hibrit Modeller: Tahmin edilen kaba SH'yi, yüksek frekanslı etkileri kurtarmak için hafif bir sinirsel ışınım alanı (NeRF) veya öğrenilmiş küçük bir sanal nokta ışıkları seti ile entegre et. 2) Belirsizlik Tahmini: Ağ, tahmini için bir güven ölçüsü çıktılamalıdır; bu, güvenlik açısından kritik AR uygulamaları için çok önemlidir. 3) Dinamik Sahneler: Mevcut yöntem statiktir. Bir sonraki sınır, optik akış veya tekrarlayan ağlar entegre edilerek, dinamik sahneler ve hareketli ışık kaynakları için zamansal olarak tutarlı aydınlatma tahminidir. Uygulayıcılar için bu yöntem, mevcut SDK tekliflerine göre gerçekçiliği önemli ölçüde artırmak için mobil AR uygulamalarına pilot entegrasyona hazırdır.

5. Analiz Çerçevesi Örneği

Senaryo: Yöntemin sınır durumlardaki sağlamlığını değerlendirmek.
Girdi: Bir köşesinin derin gölgeli olduğu, herhangi bir pencere veya ışık kaynağından uzak bir odanın görüntüsü. Sanal bir nesne o karanlık köşeye yerleştirilecektir.
Çerçeve Uygulaması:

  1. Bağlam Sorgusu: Ağ, görüntüyü ve gölgeli köşenin (u,v) koordinatlarını alır.
  2. Öznitelik Analizi: Kodlayıcı, düşük parlaklık, doğrudan ışık yollarının eksikliği ve bitişik duvarlardan olası renk sapması (çevresel ışık) gibi öznitelikleri çıkarır.
  3. Tahmin: Birleştirilmiş öznitelikler, kod çözücüyü düşük yoğunluklu, dağınık ve potansiyel olarak renk sapmalı bir aydınlatma ortamını temsil eden SH katsayılarını tahmin etmeye yönlendirir.
  4. Doğrulama: İşlenmiş sanal nesne, köşenin görsel bağlamıyla eşleşecek şekilde loş aydınlatılmış, yumuşak gölgeli ve soluk renkli görünmelidir. Bir başarısızlık, nesnenin odanın merkezindeki kadar parlak aydınlatılmış görünmesi olurdu; bu, ağın mekansal koşullandırmayı göz ardı ettiğini gösterir.
Bu örnek, mekansal değişim temel iddiasını test eder. Global bir yöntem [8] burada başarısız olur, köşedeki nesneye odanın "ortalama" aydınlatmasını uygular.

6. Gelecek Uygulamalar ve Yönelimler

  • Gelişmiş AR/VR: Nesne yerleştirmenin ötesinde, sanal kişinin görünüşte bulunduğu yerel ortamla tutarlı bir şekilde aydınlatılması gereken gerçekçi avatar telepresence için.
  • Hesaplamalı Fotoğrafçılık: Mekansal farkındalığa sahip fotoğraf düzenleme araçlarını (örn., "bu kişiyi yeniden aydınlat" ile "şu nesneyi yeniden aydınlat"ı farklı şekilde) yönlendirmek.
  • Robotik ve Otonom Sistemler: Robotlara, malzeme algısını ve planlamayı iyileştirmek için sahne aydınlatmasının hızlı, geometrisiz bir anlayışını sağlamak.
  • Sinirsel İşleme: Ters işleme görevleri için hızlı bir aydınlatma ön bilgisi olarak veya NeRF gibi daha karmaşık ancak daha yavaş modelleri başlatmak için hizmet etmek.
  • Gelecek Araştırmalar: Dış mekan sahnelerine genişletme, dinamik aydınlatma değişimlerini modelleme ve daha da doğru görünürlük mantığı için örtük geometri (örn., tek kamera derinlik tahmincisinden) ile birleştirme.

7. Referanslar

  1. Kajiya, J. T. (1986). The rendering equation. ACM SIGGRAPH Computer Graphics.
  2. Gardner, M., et al. (2017). Learning to Predict Indoor Illumination from a Single Image. ACM TOG.
  3. Zhu, J., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN). ICCV.
  4. Ramamoorthi, R., & Hanrahan, P. (2001). An efficient representation for irradiance environment maps. ACM SIGGRAPH.
  5. Apple Inc. (2017, 2018). ARKit Documentation and WWDC Sessions.
  6. Mildenhall, B., et al. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV.
  7. Garon, M., Sunkavalli, K., Hadap, S., Carr, N., & Lalonde, J. (2019). Fast Spatially-Varying Indoor Lighting Estimation. arXiv:1906.03799.