1. Utangulizi

Ukadiriaji wa mwangaza wa eneo kutoka kwa picha moja ni tatizo la msingi lakini lisilo na suluhisho moja katika taswira ya kompyuta, muhimu kwa matumizi kama vile uhalisia wa kuongezwa (AR) na utengenezaji wa picha kulingana na picha. Njia za jadi zinategemea vitu vinavyojulikana (vichunguzi taa) au data ya ziada (kina, maoni mengi), na hivyo kuzuia utumiaji wa vitendo. Njia za hivi karibuni zinazotegemea kujifunza, kama ile ya Gardner et al. [8], zinabashiri mwangaza wa jumla lakini hazishiki hali ya kubadilika kwa nafasi ya taa ya ndani, ambapo ukaribu na vyanzo vya mwanga na vizuizi huunda tofauti kubwa za ndani. Mifumo ya kibiashara ya AR (k.m., ARKit) hutoa makadirio ya msingi ya mwangaza lakini hayana ukomavu wa kutosha kwa uwekaji upya wa taa kwa uhalisia.

Makala haya yanawasilisha njia ya wakati halisi ya kukadiria taa ya ndani inayobadilika kwa nafasi kutoka kwa picha moja ya RGB. Kwa kuzingatia picha na eneo la pikseli 2D, Mtandao wa Neural wa Convolutional (CNN) unabashiri uwakilishi wa Harmonics ya Duara (SH) ya mpangilio wa 5 wa mwangaza katika eneo hilo maalum kwa chini ya ms 20, na kuwezesha uingizwaji wa kitu cha uwongo kilicho halisi popote katika eneo.

Ufahamu Muhimu

  • Ndani Kuliko Kimataifa: Taa ya ndani hailingani; makadirio moja ya kimataifa husababisha matokeo ya AR yasiyo ya kweli.
  • Ufanisi ni Muhimu: Utendaji wa wakati halisi (<20ms) hauwezi kubadilishwa kwa matumizi ya AR ya kuingiliana.
  • Bila Jiometri: Njia hii inabaini uwazi wa mwanga wa ndani na kuzuiwa kutoka kwa picha, bila kuhitaji pembejeo ya kina.
  • Uwakilishi wa Vitendo: Kutumia Harmonics ya Duara yenye mwelekeo mdogo (vigawo 36) huwezesha utabiri wa haraka na ujumuishaji wa moja kwa moja katika mifumo ya kawaida ya utengenezaji.

2. Njia ya Utafiti

Wazo kuu ni kufunza CNN kurejesha vigawo vya Harmonics ya Duara vilivyoshikamana na eneo la picha la 2D.

2.1 Muundo wa Mtandao

Mtandao huu huchukua pembejeo mbili: picha ya pembejeo ya RGB na kuratibu za 2D $(u, v)$ zilizosanidiwa hadi $[-1, 1]$. Picha hupitia kiwasaishi cha kipengele (k.m., kinachotegemea ResNet). Kuratibu za 2D hushughulikiwa kupitia tabaka zilizounganishwa kabisa ili kutoa usimbaji wa nafasi. Vipengele vya picha na usimbaji wa nafasi huchanganywa, kwa kawaida kupitia kuunganisha au mifumo ya umakini, kabla ya kiwasaishi kidogo kubashiri vigawo vya mwisho vya SH kwa njia za rangi za RGB. Muundo huu unaweka wazi utabiri wa mwangaza kulingana na eneo la nafasi.

2.2 Uwakilishi wa Harmonics ya Duara

Mwanga katika hatua unawakilishwa kwa kutumia Harmonics ya Duara ya mpangilio wa 5. SH hutoa uwakilishi mfupi, unaotegemea mzunguko wa chaguo za kukokotoa kwenye duara. Mwangaza $E$ katika hatua ya uso wenye kawaida $\mathbf{n}$ unakadiriwa kama:

$E(\mathbf{n}) \approx \sum_{l=0}^{L} \sum_{m=-l}^{l} c_{l}^{m} Y_{l}^{m}(\mathbf{n})$

ambapo $L=5$, $Y_{l}^{m}$ ni kazi za msingi za SH, na $c_{l}^{m}$ ni vigawo vinavyotabiriwa na mtandao (vigawo 9 kwa kila njia ya rangi, jumla 27 kwa RGB). Matokeo haya yenye mwelekeo mdogo ndio ufunguo wa utabiri wa wakati halisi.

3. Majaribio na Matokeo

Muda wa Utabiri

< 20 ms

Kwenye Nvidia GTX 970M

Mpangilio wa SH

Mpangilio wa 5

Jumla ya vigawo 27

Upendeleo wa Mtumiaji

~75%

Kuliko ya kisasa zaidi [8]

3.1 Tathmini ya Kiasi

Njia hii ilitathminiwa kwenye seti za data za bandia na za kweli. Vipimo vilijumuisha Kosa la Pembe kati ya ramani za mazingira zilizotabiriwa na za ukweli wa msingi na RMSE kwenye vitu vilivyotengenezwa. Njia iliyopendekezwa inayobadilika kwa nafasi ilifanya vizuri zaidi kuliko njia ya ukadiriaji wa mwangaza wa kimataifa ya Gardner et al. [8], hasa kwa nafasi zilizo mbali na katikati ya picha ambapo mwangaza unatofautiana.

3.2 Utafiti wa Watumiaji

Utafiti wa mtazamo wa watumiaji ulifanywa ambapo washiriki walilinganisha vitu vya uwongo vilivyowekwa taa upya kwa kutumia mwangaza kutoka kwa njia tofauti. Matokeo yalionyesha upendeleo mkubwa (takriban 75%) kwa matokeo yaliyotengenezwa kwa kutumia mwangaza unaobadilika kwa nafasi uliopendekezwa kuliko yale yaliyotumia makadirio ya kimataifa kutoka [8], na kuthibitisha umuhimu wa mtazamo wa athari za mwangaza wa ndani.

3.3 Utendaji wa Wakati Halisi

Mtandao huu unafikia nyakati za utabiri wa chini ya milisekunde 20 kwenye GPU ya daraja la kompyuta ya mkononi (Nvidia GTX 970M). Utendaji huu huwezesha matumizi ya AR ya wakati halisi ambapo mwangaza unaweza kusasishwa mara moja kitu cha uwongo au kamera inaposogea.

4. Uchambuzi wa Kiufundi na Ufahamu Msingi

Ufahamu Msingi: Mafanikio ya msingi ya makala haya sio tu mfano mwingine wa ukadiriaji wa mwangaza; ni mabadiliko ya kimkakati kutoka kwa mfumo wa mwangaza unaozingatia eneo hadi unaozingatia hatua. Wakati sanaa ya awali kama kazi ya Gardner et al. (ambayo mara nyingi hulinganishwa na kanuni za tafsiri ya picha-hadi-picha za aina ya CycleGAN kwa matatizo yasiyo na suluhisho moja) ilichukulia picha kwa ujumla ili kutoa mwangaza mmoja wa kimataifa, kazi hii inatambua kwamba kwa AR, mwangaza pekee unao na maana ni mwangaza katika hatua maalum ya uingizaji. Hii ni mabadiliko makubwa yanayolingana na mahitaji ya taswira za wakati halisi, ambapo shaders huhesabu mwangaza kwa kila kipande, sio kwa kila eneo.

Mtiririko wa Mantiki: Mantiki hii ni rahisi kwa ustadi: 1) Kubali tofauti ya nafasi kama tatizo la kwanza katika mazingira ya ndani (inayoungwa mkono na kanuni za msingi za radiometri kutoka kwa vyanzo mamlaka kama Mlinganyo wa Utengenezaji wa Kajiya). 2) Chagua uwakilishi (SH) ambao unaonyesha uelewa wa mwangaza wa ndani wa masafa ya chini na unaolingana kwa asili na virekebishaji vya wakati halisi (k.m., kupitia PRT au tathmini ya moja kwa moja ya SH katika shaders). 3) Buni mtandao ambao wazi huchukua eneo kama pembejeo, na kumlazimisha kujifunza ramani kutoka kwa muktadha wa picha ya ndani hadi vigezo vya ndani vya SH. Data ya mafunzo, ambayo kwa uwezekano imetokana na maeneo ya 3D ya bandia au yaliyokamatwa na mwangaza unaojulikana, hufundisha mtandao kuunganisha dalili za kuona (vivuli, damu ya rangi, mwangaza maalum) na hali za mwangaza wa ndani.

Nguvu na Kasoro: Nguvu kuu ni utendaji wake wa vitendo. Muda wa utendaji wa <20ms na matokeo ya SH hufanya iwe suluhisho la "kudondosha" kwa injini zilizopo za AR, tofauti kubwa na njia zinazotoa ramani kamili za mazingira za HDR. Hali yake ya kutokuwa na jiometri ni njia mwepesi ya kutatua tatizo, kwa kutumia CNN kama wakala wa kufuatilia miale changamano. Hata hivyo, kasoro ni kubwa. Kwanza, kimsingi ni kuingiliana kwa mwangaza kutoka kwa data ya mafunzo. Haiwezi kubuni mwangaza katika maeneo yasiyoonekana kabisa (k.m., ndani ya kabati iliyofungwa). Pili, SH ya mpangilio wa 5, ingawa ni ya haraka, haishiki maelezo ya mwangaza ya masafa ya juu kama vivuli vikali kutoka kwa vyanzo vidogo vya mwanga—kikomo kinachojulikana cha makadirio ya SH. Tatu, utendaji wake unahusishwa na anuwai ya seti yake ya mafunzo; inaweza kushindwa katika mazingira mapya sana.

Ufahamu Unaoweza Kutekelezwa: Kwa watafiti, njia ya mbele ni wazi: 1) Mifumo Mseto: Unganisha SH iliyokadiriwa ya kawaida na uwanja wa mionzi ya neural nyepesi (NeRF) au seti ndogo ya taa za uwongo zilizojifunza ili kurejesha athari za masafa ya juu. 2) Ukadiriaji wa Kutokuwa na Hakika: Mtandao unapaswa kutoa kipimo cha ujasiri kwa utabiri wake, muhimu kwa matumizi ya AR yanayohitaji usalama. 3) Maeneo Yanayobadilika: Njia ya sasa ni tuli. Kipengele cha mbele ni ukadiriaji wa mwangaza unaolingana kwa wakati kwa maeneo yanayobadilika na vyanzo vya mwanga vinavyosogea, labda kwa kuunganisha mtiririko wa macho au mitandao ya kurudia. Kwa watendaji, njia hii iko tayari kwa ujumuishaji wa majaribio katika programu za AR za rununu ili kuongeza uhalisia kwa kiasi kikubwa kuliko ofa za sasa za SDK.

5. Mfano wa Mfumo wa Uchambuzi

Hali: Kutathmini uthabiti wa njia katika kesi ya kona.
Pembejeo: Picha ya chumba ambapo kona moja iko kwenye kivuli kirefu, mbali na dirisha lolote au chanzo cha mwanga. Kitu cha uwongo kinapaswa kuwekwa katika kona ile yenye giza.
Utumiaji wa Mfumo:

  1. Swala la Muktadha: Mtandao hupokea picha na kuratibu za (u,v) za kona yenye kivuli.
  2. Uchambuzi wa Kipengele: Kiwasaishi kinatoa vipengele vinavyoonyesha mwangaza wa chini, ukosefu wa njia za mwanga wa moja kwa moja, na uwezekano wa rangi kutoka kwa kuta zilizo karibu (mwanga wa mazingira).
  3. Utabiri: Vipengele vilivyochanganywa vinaongoza kiwasaishi kubashiri vigawo vya SH vinavyowakilisha mazingira ya mwangaza yenye nguvu ya chini, iliyosambaa, na inayoweza kuwa na upendeleo wa rangi.
  4. Uthibitishaji: Kitu cha uwongo kilichotengenezwa kinapaswa kuonekana kikiwa na mwangaza dhaifu, na vivuli laini na rangi zilizopunguzwa, zikilingana na muktadha wa kuona wa kona. Kushindwa kungekuwa ikiwa kitu kinaonekana kikiwa na mwangaza mkali kama kile kilicho katikati ya chumba, ikionyesha mtandao umepuuza masharti ya nafasi.
Mfano huu unajaribu madai ya msingi ya tofauti ya nafasi. Njia ya kimataifa [8] ingeshindwa hapa, ikitumia mwangaza wa "wastani" wa chumba kwa kitu cha kona.

6. Matumizi ya Baadaye na Mwelekeo

  • AR/VR ya Juu: Zaidi ya uingizaji wa vitu, kwa uwepo wa avatar halisi ambapo mtu wa uwongo lazima awe na mwangaza unaolingana na mazingira ya ndani wanayoonekana kukaa.
  • Upigaji Picha wa Kihisabati: Kuendesha zana za uhariri wa picha zinazotambua nafasi (k.m., "weka taa upya mtu huyu" tofauti na "weka taa upya kitu hicho").
  • Robott na Mifumo ya Kujitegemea: Kuwapa roboti uelewa wa haraka, usio na jiometri wa mwangaza wa eneo ili kuboresha mtazamo wa nyenzo na upangaji.
  • Utengenezaji wa Neural: Kutumika kama utangulizi wa haraka wa mwangaza kwa kazi za utengenezaji kinyume au kuanzisha mifano changamano zaidi lakini ya polepole kama NeRF.
  • Utafiti wa Baadaye: Kupanuliwa kwa maeneo ya nje, kuiga mabadiliko ya mwangaza yanayobadilika, na kuchanganya na jiometri ya uwazi (k.m., kutoka kwa kikadiriaji cha kina cha monocular) kwa mantiki sahihi zaidi ya kuonekana.

7. Marejeo

  1. Kajiya, J. T. (1986). The rendering equation. ACM SIGGRAPH Computer Graphics.
  2. Gardner, M., et al. (2017). Learning to Predict Indoor Illumination from a Single Image. ACM TOG.
  3. Zhu, J., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (CycleGAN). ICCV.
  4. Ramamoorthi, R., & Hanrahan, P. (2001). An efficient representation for irradiance environment maps. ACM SIGGRAPH.
  5. Apple Inc. (2017, 2018). ARKit Documentation and WWDC Sessions.
  6. Mildenhall, B., et al. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV.
  7. Garon, M., Sunkavalli, K., Hadap, S., Carr, N., & Lalonde, J. (2019). Fast Spatially-Varying Indoor Lighting Estimation. arXiv:1906.03799.