Chagua Lugha

PointAR: Ukadiriaji Bora wa Mwanga kwa Uhalisia Augmented ya Rununu

Uchambuzi wa PointAR, mfumo mpya wa ukadiriaji bora wa mwanga unaotofautiana kwa nafasi kwenye vifaa vya rununu kwa kutumia mawingu ya pointi na harmonics za spherical.
rgbcw.cn | PDF Size: 4.5 MB
Ukadiriaji: 4.5/5
Ukadiriaji Wako
Umekadiria waraka huu tayari
Kifuniko cha Waraka PDF - PointAR: Ukadiriaji Bora wa Mwanga kwa Uhalisia Augmented ya Rununu

1. Utangulizi

Makala haya yanashughulikia changamoto muhimu ya ukadiriaji wa mwanga kwa Uhalisia Augmented ya Rununu (AR) katika mazingira ya ndani. Uchoraji wa vitu vya kuwazi unaohusiana na ukweli unahitaji habari sahihi ya mwanga katika eneo maalumu ambalo kitu kimewekwa. Simu za rununu za kawaida hazina kamera za panorama 360°, na hivyo kukamata moja kwa moja kuwa haiwezekani. Kazi hii inazidi kuwa ngumu zaidi kwa sababu ya vikwazo vitatu muhimu: 1) Kukadiria mwanga katika eneo la uchoraji tofauti na mtazamo wa kamera, 2) Kukisia mwanga nje ya uwanja mdogo wa mtazamo (FoV) wa kamera, na 3) Kufanya ukadiriaji kwa kasi ya kutosha ili kufanana na viwango vya fremu vya uchoraji.

Njia zilizopo za kujifunza [12,13,25] mara nyingi ni kubwa, ngumu kwa hesabu, na hazifai kwa utumizi wa rununu. PointAR inapendekezwa kama njia mbadala yenye ufanisi, ikigawanya tatizo hili katika mabadiliko ya mtazamo yenye ufahamu wa jiometri na moduli ya ujifunzaji kulingana na wingu la pointi, ikipunguza kwa kiasi kikubwa ugumu huku ikidumisha usahihi.

2. Njia ya Utafiti

2.1. Uundaji wa Tatizo & Muhtasari wa Mfumo

Lengo la PointAR ni kukadiria mgawo wa Harmonics za Spherical (SH) wa mpangilio wa pili unaowakilisha mwanga unaoingia katika eneo lengwa la 2D ndani ya picha moja ya RGB-D. Ingizo ni fremu moja ya RGB-D na uratibu wa pikseli 2D. Matokeo ni vekta ya mgawo wa SH (mfano, mgawo 27 kwa RGB ya mpangilio wa pili). Mfumo huu una hatua kuu mbili:

  1. Mabadiliko ya Mtazamo Yenye Ufahamu wa Jiometri: Hubadilisha wingu la pointi linalozingatia kamera kuwa uwakilishi unaozingatia eneo lengwa.
  2. Ujifunzaji Kulingana na Wingu la Pointi: Mtandao wa neuroni unachakata wingu la pointi lililobadilishwa ili kutabiri mgawo wa SH.

2.2. Mabadiliko ya Mtazamo Yenye Ufahamu wa Jiometri

Badala ya kutumia mtandao wa neuroni kujifunza mahusiano ya anga kwa njia ya kufichika (kama ilivyo [12,13]), PointAR hutumia mfano wa hisabati wa wazi. Kwa kuzingatia vigezo vya ndani vya kamera na ramani ya kina, wingu la pointi 3D hutengenezwa. Kwa pikseli lengwa $(u, v)$, eneo lake la 3D $P_{target}$ linahesabiwa. Kisha wingu lote la pointi husogezwa ili $P_{target}$ ikawa asili mpya. Hatua hii inashughulikia moja kwa moja changamoto ya kutofautiana kwa anga kwa kupanga mfumo wa kuratibu na sehemu ya uchoraji, ikitoa ingizo thabiti la kijiometri kwa moduli ya kujifunza.

2.3. Point Cloud-Based Learning

Ikiongozwa na ushirikiano wa Monte Carlo unaotumika katika taa ya SH ya wakati halisi, PointAR huunda ukadiriaji wa mwanga kama tatizo la kujifunza moja kwa moja kutoka kwa mawingu ya pointi. Wingu la pointi, linalowakilisha mtazamo wa sehemu ya eneo, hutumika kama seti ya sampuli chache za mazingira. Mtandao wa neuroni (mfano, unaotegemea PointNet au lahaja nyepesi) hujifunza kukusanya habari kutoka kwa pointi hizi ili kukisia mazingira kamili ya mwanga. Njia hii ni bora zaidi kuliko kuchakata picha nzito za RGB na kwa asili inalingana na fizikia ya usafirishaji wa mwanga.

3. Maelezo ya Kiufundi

3.1. Uwakilishi wa Harmonics za Spherical

Mwanga unawakilishwa kwa kutumia Harmonics za Spherical za mpangilio wa pili. Mwangaza $E(\mathbf{n})$ katika sehemu ya uso yenye kawaida $\mathbf{n}$ unakadiriwa kama: $$E(\mathbf{n}) \approx \sum_{l=0}^{2} \sum_{m=-l}^{l} L_l^m Y_l^m(\mathbf{n})$$ ambapo $L_l^m$ ni mgawo wa SH inayotakiwa kutabiriwa, na $Y_l^m$ ni kazi za msingi za SH. Uwakilishi huu mfupi (thamani 27 kwa RGB) ni wa kawaida katika uchoraji wa wakati halisi, na hufanya matokeo ya PointAR yatumike moja kwa moja na injini za AR za rununu.

3.2. Muundo wa Mtandao wa Neuroni

Makala yanaonyesha matumizi ya mtandao nyepesi unaofaa kwa mawingu ya pointi. Ingawa muundo halisi haujaelezewa kwa kina katika muhtasari, pengine unahusisha uchimbaji wa sifa kwa kila pointi (kwa kutumia MLPs), kazi ya ushirikiano ya ulinganifu (kama max-pooling) ili kuunda maelezo ya eneo la ulimwengu, na tabaka za mwisho za urejeshaji ili kutoa mgawo wa SH. Kanuni kuu ya muundo ni ufanisi wa kwanza-kwa-rununu, ikipa kipaumbele idadi ndogo ya vigezo na FLOPs.

4. Majaribio & Matokeo

4.1. Tathmini ya Kiasi

PointAR inathminiwa ikilinganishwa na njia za kisasa kama zile za Gardner et al. [12] na Garon et al. [13]. Vipimo pengine vinajumuisha makosa ya pembe kati ya vekta za SH zilizotabiriwa na za ukweli, au vipimo vya mtazamo kwenye vitu vilivyochorwa. Makala yanadai PointAR inafikia makosa ya chini ya ukadiriaji wa mwanga ikilinganishwa na njia hizi za msingi, ikionyesha kuwa ufanisi hauji kwa gharama ya usahihi.

Vipengele Vikuu vya Utendaji

  • Usahihi: Makosa ya chini ya ukadiriaji kuliko njia za SOTA.
  • Ufanisi: Matumizi ya rasilimali yaliyo chini kwa kiwango kikubwa.
  • Kasi: Iliyoundwa kwa viwango vya fremu vya rununu.

4.2. Tathmini ya Ubora & Uwasilishaji wa Kuona

Kielelezo 1 kwenye PDF (kinachorejelewa kuonyesha sungura wa Stanford) kinatoa matokeo ya ubora. Safu ya kwanza inaonyesha vitu vya kuwazi (sungura) vilivyoangaziwa na mgawo wa SH uliotabiriwa na PointAR chini ya hali zinazotofautiana kwa nafasi. Safu ya pili inaonyesha uchoraji wa ukweli. Ufanano wa kuona kati ya safu hizi mbili unaonyesha uwezo wa PointAR wa kutoa vivuli vya kweli, vivuli, na kumwagika kwa rangi ambavyo vinalingana na mazingira ya kweli ya mwanga.

4.3. Uchambuzi wa Ufanisi wa Rasilimali

Hii ndio madai makubwa ya PointAR. Mfumo huu unahitaji rasilimali chini kwa kiwango kikubwa (kwa suala la ukubwa wa mfano, kumbukumbu, na hesabu) ikilinganishwa na njia za zamani za CNN. Ugumu wake unasemekana kuwa sawa na Mitandao ya Neuroni ya kina (DNNs) maalumu ya kisasa ya rununu, na hivyo kufanya utekelezaji wa wakati halisi kwenye kifaa kuwa ukweli wa vitendo.

5. Mfumo wa Uchambuzi & Utafiti wa Kesi

Uelewa Mkuu: Uzuri wa makala hii upo katika mgawanyiko wake. Wakati uwanja huu ulikuwa ukijenga CNN kubwa zaidi, zenye picha-hadi-mwanga (mwelekeo unaokumbusha mashindano ya mapema ya GAN/CNN), Zhao na Guo walichukua hatua nyuma. Walitambua kuwa tatizo la "kutofautiana kwa anga" kwa msingi ni la kijiometri, sio la mtazamo tu. Kwa kuhamisha hili kwa mabadiliko ya kijiometri ya wazi na nyepesi, walimwondoa mtandao wa neuroni kuzingatia tu kazi kuu ya ukisiaji kutoka kwa uwakilishi wa data unaofaa zaidi—wingu la pointi. Hii ni kanuni ya muundo ya "mfumo mzuri wa mseto" ambayo mara nyingi hupuuzwa katika utafiti wa kujifunza kina safi.

Mtiririko wa Mantiki: Mantiki hii ni kamili: 1) AR ya rununu inahitaji mwanga wa haraka, wenye ufahamu wa anga. 2) Picha zina data nzito na hazijui jiometri. 3) Mawingu ya pointi ndiyo uwakilishi wa asili wa 3D kutoka kwa sensorer za RGB-D na yanahusiana moja kwa moja na sampuli ya mwanga. 4) Kwa hivyo, jifunze kutoka kwa mawingu ya pointi baada ya kupangwa kwa kijiometri. Mtiririko huu unaonyesha mazoea bora katika robotiki (hisi->mfano->panga) kuliko maono ya kompyuta ya kawaida.

Nguvu & Mapungufu: Nguvu kuu ni ufanisi wake wa vitendo, ikishughulikia moja kwa moja kikwazo cha utumizi. Moduli ya kijiometri ya wazi inaeleweka na ni thabiti. Hata hivyo, mapungufu yanayowezekana ni utegemezi wake kwa data bora ya kina. Kelele au ukosefu wa kina kutoka kwa sensorer za rununu (mfano, LiDAR ya iPhone katika hali ngumu) kunaweza kudhoofisha mabadiliko ya mtazamo. Makala, kama yalivyowasilishwa katika muhtasari, huenda yasishughulikie kabisa suala hili la uthabiti, ambalo ni muhimu kwa AR ya ulimwengu halisi. Zaidi ya hayo, uchaguzi wa SH ya mpangilio wa pili, ingawa ni bora, unaweza kuwa na uwezo mdogo wa kuwakilisha maelezo ya mwanga ya masafa ya juu (vivuli vikali), ambavyo ni mabadiliko ambayo yanapaswa kujadiliwa wazi.

Uelewa Unaoweza Kutekelezwa: Kwa wataalamu, kazi hii ni mfano: daima tenga jiometri kutoka kwa ujifunzaji wa mwonekano katika kazi za 3D. Kwa watafiti, inafungua njia: 1) Kukuza wanaojifunza wa mawingu ya pointi wenye ufanisi zaidi (kwa kutumia kazi kama PointNeXt). 2) Kuchunguza uthabiti dhidi ya kelele ya kina kupitia moduli za usafishaji zilizojifunza. 3) Kuchunguza uteuzi wa mpangilio wa SH unaolingana kulingana na yaliyomo katika eneo. Hitimisho kubwa ni kwamba katika AR ya rununu, suluhisho litakaloshinda litakuwa mseto wa jiometri ya kitamaduni na AI nyepesi, sio mtandao wa neuroni wenye nguvu. Hii inalingana na mabadiliko makubwa ya tasnia kuelekea mifumo ya "Uchoraji wa Neuroni" inayochanganya michoro ya jadi na vipengee vilivyojifunza, kama inavyoonekana katika kazi kama NeRF, lakini kwa kuzingatia sana vikwazo vya rununu.

Uchambuzi wa Asili (300-600 maneno): PointAR inawakilisha marekebisho muhimu na ya lazima katika kutafuta AR ya rununu inayoaminika. Kwa miaka mingi, dhana kuu, iliyoathiriwa na mafanikio ya CNN katika usanisi wa picha (mfano, Pix2Pix, CycleGAN), imekuwa ni kutibu ukadiriaji wa mwanga kama tatizo la tafsiri ya picha-hadi-picha au picha-hadi-kigezo. Hii imesababisha miundo iliyokuwa na nguvu lakini nzito sana, ikipuuza vikwazo vya kipekee vya kikoa cha rununu—hesabu ndogo, bajeti ya joto, na hitaji la ucheleweshaji mdogo. Kazi ya Zhao na Guo ni ukosoaji mkali wa mwelekeo huu, uliotolewa sio kwa maneno bali kwa muundo. Uelewa wao mkuu—wa kutumia mawingu ya pointi—una pande nyingi. Kwanza, unakubali kuwa mwanga ni jambo la 3D, la kiasi. Kama ilivyowekwa katika maandiko ya msingi ya michoro na kazi muhimu ya ramani za mazingira na Debevec et al., mwanga unahusishwa na muundo wa 3D wa eneo. Wingu la pointi ni sampuli ya moja kwa moja, chache ya muundo huu. Pili, inaunganishwa na msingi wa kimwili wa taa ya Harmonics za Spherical yenyewe, ambayo inategemea ushirikiano wa Monte Carlo juu ya tufe. Wingu la pointi kutoka kwa sensorer ya kina linaweza kuonekana kama seti ya mwelekeo uliosampuliwa muhimu na thamani za mwangaza zinazohusiana (kutoka kwa picha ya RGB), na hivyo kufanya kazi ya kujifunza iwe na msingi zaidi. Njia hii inakumbusha falsafa ya "uchambuzi kwa usanisi" au michoro ya kinyume, ambapo mtu anajaribu kubadilisha mfano wa mbele (uchoraji) kwa kutumia muundo wake. Ikilinganishwa na njia ya kisanduku cha weusi ya njia za zamani, mfumo wa PointAR unaweza kuelezewa kwa urahisi zaidi: hatua ya kijiometri inashughulikia mabadiliko ya mtazamo, mtandao unashughulikia ukisiaji kutoka kwa data ya sehemu. Uwezo huu wa kugawanyika ni nguvu kwa utatuzi wa hitilafu na uboreshaji. Hata hivyo, kazi hii pia inaonyesha utegemezi muhimu: ubora wa sensorer za RGB-D za kawaida. Kuenea kwa hivi karibuni kwa sensorer za LiDAR kwenye simu za hali ya juu (Apple, Huawei) kunafanya PointAR iwe ya wakati, lakini utendaji wake kwenye kina kutoka kwa mfumo wa stereo au SLAM (ya kawaida zaidi) unahitaji uchunguzi. Kazi ya baadaye inaweza kuchunguza muundo wa pamoja wa kazi za ukadiriaji wa kina na ukadiriaji wa mwanga, au kutumia mtandao kuboresha wingu la pointi la awali lenye kelele. Mwishowe, mchango wa PointAR ni uthibitisho wake kwamba usahihi wa kisasa katika kazi ya mtazamo hauhitaji ugumu wa kisasa wakati ujuzi wa kikoa unapachikwa ipasavyo. Ni somo ambalo jumuiya pana ya AI ya rununu ingefaa kulisikiliza.

6. Matumizi ya Baadaye & Mwelekeo

  • Mwanga wa Wakati Halisi Unaobadilika: Kupanua PointAR kushughulikia vyanzo vya mwanga vinavyobadilika (mfano, kuwasha/kuzima taa) kwa kujumuisha habari ya muda au mawingu ya pointi yanayofuatana.
  • Ukadiriaji wa Mwanga wa Nje: Kubadilisha mfumo huu kwa AR ya nje, kushughulikia anuwai kubwa ya mwanga wa jua na kina kisicho na kikomo.
  • Ujumuishaji wa Uchoraji wa Neuroni: Kutumia mwanga uliotabiriwa na PointAR kama ingizo la masharti kwa uwanja wa mionzi ya neuroni kwenye kifaa (tiny-NeRF) kwa ajili ya kuweka vitu kwa njia ya kweli zaidi.
  • Uchanganyaji wa Sensorer: Kujumuisha data kutoka kwa sensorer zingine za rununu (vipimo vya inertia, sensorer za mwanga wa mazingira) ili kuboresha uthabiti na kushughulikia kesi ambapo kina hakiwezi kuaminika.
  • Ushirikiano wa Kingo-Wingu: Kuweka toleo nyepesi kwenye kifaa kwa matumizi ya wakati halisi, na mfano mzito zaidi, wenye usahihi zaidi kwenye wingu kwa ajili ya usafishaji wa mara kwa mara au usindikaji wa nje ya mtandao.
  • Ukadiriaji wa Nyenzo: Kukadiria pamoja mwanga wa eneo na sifa za nyuso za nyenzo (kukariri) kwa ajili ya usanisi wa kweli zaidi wa kimwili.

7. Marejeo

  1. Zhao, Y., & Guo, T. (2020). PointAR: Efficient Lighting Estimation for Mobile Augmented Reality. arXiv preprint arXiv:2004.00006.
  2. Gardner, M., et al. (2019). Learning to Predict Indoor Illumination from a Single Image. ACM TOG.
  3. Garon, M., et al. (2019). Fast Spatially-Varying Indoor Lighting Estimation. CVPR.
  4. Song, S., et al. (2019). Deep Lighting Environment Map Estimation from Spherical Panoramas. CVPR Workshops.
  5. Debevec, P. (1998). Rendering Synthetic Objects into Real Scenes. SIGGRAPH.
  6. Zhu, J., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. ICCV. (CycleGAN)
  7. Qi, C. R., et al. (2017). PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. CVPR.
  8. Mildenhall, B., et al. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV.