1. Utangulizi na Muhtasari

Uchoraji wa picha halisi katika Uhakiki Ulioongezwa wa Kielektroniki (AR) kwenye Rununu umepunguzwa kimsingi kwa ukosefu wa taarifa sahihi, za wakati halisi za mwanga wa pande zote katika nafasi zozote za uchoraji. Vifaa vya sasa vya rununu haviwezi kukamata panorama kamili ya digrii 360 kutoka kwa sehemu iliyokusudiwa ya kuwekewa kitu cha kufikirika. Kutumia data ya mwanga kutoka kwa sehemu ya uchunguzi ya mtumiaji husababisha uchoraji usio sahihi, usiobadilika kwa nafasi na kuvunja uingizaji katika ulimwengu huo.

Mfumo wa Xihe unawasilisha suluhisho jipya kwa kutumia maendeleo katika uchanganuzi wa 3D wa rununu—kama vile LiDAR ya ndani na vichunguzi vya kina—kukadiria mwanga wa mazingira. Ni mfumo unaosaidiwa na ukingo ulioundwa kutoa makadirio sahihi, yanayobadilika kwa nafasi ya mwanga kwa wakati halisi (kwa kasi ya takriban 20ms), na kuwezesha uzoefu wa hali ya juu wa AR kwenye vifaa vya watumiaji.

2. Mfumo wa Xihe

Muundo wa Xihe umejengwa kuzunguka mfano wa mteja-ukingo-seva, na kuuboresha kila sehemu kwa vikwazo maalum vya AR ya rununu: uwezo mdogo wa hesabu kwenye kifaa, ucheleweshaji wa mtandao, na hitaji la uhalisi wa mtazamo.

2.1 Muundo Mkuu na Mfuatano wa Kazi

Mfuatano wa kazi unajumuisha: 1) Kifaa cha rununu kinakamata wingu la pointi la 3D la mazingira kwa kutumia kichunguzi chake cha kina (k.m., LiDAR). 2) Algorithm mpya ya kuchagua inabana data hii. 3) Data iliyochakatwa inatumwa kwa seva ya ukingo inayoshikilia muundo wa kina wa kujifunza kwa ajili ya makadirio ya mwanga. 4) Vigezo vya mwanga vilivyokadiriwa (k.m., viambatanishi vya Spherical Harmonics) vinarejeshwa kwenye kifaa kwa ajili ya kuchora vitu vya kufikirika.

2.2 Uchaguzi Mpya wa Wingu la Pointi (Point Cloud)

Uvumbuzi muhimu ni mbinu bora ya kuchagua inayotokana na uchanganuzi wa majaribio ya seti za data za ndani za 3D. Badala ya kuchakata wingu kamili, lenye msongamano la pointi, Xihe huchagua kwa busara sehemu ndogo ya pointi ambazo zina taarifa nyingi zaidi kwa makadirio ya mwanga (k.m., pointi kwenye nyuso zilizo na mielekeo maalum au sifa za albedo). Hii inapunguza sana mzigo wa data bila kupoteza usahihi muhimu.

2.3 Mfuatano wa GPU Kwenye Kifaa

Ili kupunguza ucheleweshaji, uchakataji wa awali wa wingu la pointi (kuchuja, kurekebisha, kuchagua) unafanywa kwenye GPU ya kifaa cha rununu. Mfuatano huu uliobinafsishwa unahakikisha uchakataji mzito hauwezi kuwa kikwazo kabla ya usafirishaji wa mtandao.

2.4 Uamuzi Unaosaidiwa na Ukingo na Uboreshaji wa Mtandao

Muundo mgumu wa kina wa kujifunza wa kutambua mwanga kutoka kwa muundo wa 3D unafanya kazi kwenye seva ya ukingo. Xihe hutumia mpango maalum wa usimbuaji ili kufinyanga zaidi data ya wingu la pointi lililochaguliwa kabla ya usafirishaji, na kupunguza ucheleweshaji wa mtandao na matumizi ya upana wa bendi.

2.5 Kuanzisha Kwa Kukabiliana na Uwiano wa Muda

Xihe inajumuisha mkakati mwerevu wa kuanzisha. Haifanyi makadirio mapya ya mwanga kwa kila sura. Badala yake, inakadiria wakati hali ya mwanga au nafasi ya mtumiaji/mtazamo imebadilika kwa kiasi cha kutosha kuhitaji usasishaji. Zaidi ya hayo, inatoa njia za kuhakikisha uwiano wa muda kati ya makadirio, na kuzuia mwepesi au mabadiliko yasiyofuraha katika eneo la AR lililochorwa.

3. Utekelezaji wa Kiufundi na Maelezo

3.1 Msingi wa Hisabati

Mwanga mara nyingi huwasilishwa kwa kutumia Spherical Harmonics (SH). Shida kuu ya makadirio inaweza kuwekwa kama kutafuta viambatanishi vya SH $\mathbf{l}$ vinavyoelezea vyema mwangaza $B(\mathbf{n})$ uliozingatiwa kwenye pointi za uso zilizo na mwelekeo $\mathbf{n}$, kwa kuzingatia albedo $\rho$:

$B(\mathbf{n}) = \rho \int_{\Omega} L(\omega) (\mathbf{n} \cdot \omega)^+ d\omega \approx \rho \sum_{i} l_i Y_i(\mathbf{n})$

Ambapo $L(\omega)$ ndio mwangaza unaoingia, $Y_i$ ni kazi za msingi za SH, na $(\cdot)^+$ ni bidhaa ya nukta iliyoshinikizwa. Mtandao wa neva wa Xihe unajifunza uchoraji $f_\theta$ kutoka kwa wingu la pointi lililochaguliwa $P$ hadi viambatanishi hivi: $\mathbf{l} = f_\theta(P)$.

Mkakati wa kuchagua unalenga kuchagua pointi $p_i \in P$ zinazokuongeza zaidi faida ya taarifa kwa ajili ya kutatua shida hii ya uchoraji wa nyuma, mara nyingi ukizingatia pointi zilizo na dalili zisizo za Lambertian au uhusiano maalum wa kijiometri.

3.2 Mfumo wa Uchanganuzi na Mfano wa Kesi

Hali: Kuweka chungu cha kufikirika cha kauri kwenye meza ya mbao katika chumba cha kulala chenye dirisha upande mmoja na taa upande mwingine.

  1. Upokeaji wa Data: LiDAR ya iPhone inachunguza chumba, na kutengeneza wingu mnene la pointi (~500k pointi).
  2. Uchakataji Kwenye Kifaa (GPU): Mfuatano wa Xihe unachuja kelele, kupanga wingu, na kutumia algorithm yake ya kuchagua. Inatambua na kuhifadhi pointi hasa kwenye uso wa meza (kwa ajili ya mwanga wa kuruka kwa njia isiyo ya moja kwa moja), eneo la dirisha (chanzo kikuu cha mwanga), na kifuniko cha taa. Wingu linapunguzwa hadi ~5k pointi zinazowakilisha.
  3. Uamuzi wa Ukingo: Wingu hili la pointi lililobanwa na kusimbwa linatumwa kwenye ukingo. Mtandao wa neva unachambua usambazaji wa nafasi wa 3D na sifa zinazowezekana za nyenzo (zinazotambuliwa kutoka kwa jiometri/muktadha) ili kukadiria seti ya viambatanishi vya Spherical Harmonics vya mpangilio wa pili vinavyoelezea mwanga wa pande zote katika eneo la chungu.
  4. Uchoraji: Programu ya AR kwenye simu hutumia viambatanishi hivi vya SH kukivua kivuli chungu cha kufikirika. Upande unaokabiliwa na dirisha unaonekana mkali zaidi na miangaza inaonekana, wakati upande unaoelekea mbali unang'aa kwa upole kwa mwanga unaoruka kutoka kwenye meza ya mbao, na kufikia uhalisi wa picha unaobadilika kwa nafasi.

4. Tathmini ya Majaribio na Matokeo

Makala yanatathmini Xihe kwa kutumia programu ya kumbukumbu ya AR ya rununu. Vipimo vinalenga usahihi wa makadirio na kucheleweshwa hadi mwisho.

Ucheleweshaji wa Makadirio

20.67 ms

Wastani kwa kila makadirio

Uboreshaji wa Usahihi

9.4%

Bora kuliko msingi wa kisasa wa mtandao wa neva

Ubana wa Data

~100x

Kupunguzwa kutoka kwa wingu la pointi lisilochakatwa

4.1 Ufanisi wa Usahihi

Usahihi ulipimwa kwa kulinganisha picha zilizochorwa za vitu vya kufikirika chini ya mwanga uliokadiriwa wa Xihe dhidi ya uchoraji wa ukweli unaotumia ramani zinazojulikana za mazingira. Xihe ilifanya vizuri zaidi kuliko msingi wa kisasa wa mtandao wa neva kwa 9.4% kulingana na kipimo cha kawaida cha kufanana kwa picha (labda PSNR au SSIM). Faida hii imesababishwa na ufahamu wa muundo wa 3D uliotolewa na wingu la pointi, tofauti na njia zinazotegemea picha za kamera za 2D pekee.

4.2 Ucheleweshaji na Ufanisi

Mfuatano hadi mwisho unafikia ucheleweshaji wa wastani wa 20.67 millisekunde kwa kila makadirio ya mwanga, ndani kabisa ya bajeti ya AR ya wakati halisi (kawaida 16ms kwa 60 FPS). Hii imewezeshwa na uchakataji bora kwenye kifaa na uboreshaji wa mtandao. Utaratibu wa kuanzisha kwa kukabiliana unapunguza zaidi mzigo wa hesabu kwa kila sura.

4.3 Muhtasari wa Matokeo Muhimu

  • Inathibitisha Uwezekano: Inaonyesha kwamba makadirio sahihi, ya wakati halisi ya mwanga yanayotegemea uchanganuzi wa 3D yanawezekana kwenye majukwaa ya rununu.
  • Inasisitiza Faida ya 3D: Inaonyesha faida wazi ya usahihi kuliko njia zinazotegemea picha za 2D kwa kutumia muktadha wa kijiometri.
  • Inathibitisha Muundo wa Mfumo: Mfuatano unaosaidiwa na ukingo, ulioboreshwa unakidhi mahitaji madhubuti ya ucheleweshaji.

5. Uchanganuzi Muhimu na Ufahamu wa Mtaalamu

Ufahamu Mkuu: Xihe sio tu uboreshaji mwingine wa nyongeza katika uchoraji wa neva; ni hack ya kiufundi ya kiwango cha mifumo ambayo hatimaye inaunganisha pengo kati ya nadharia ya kisasa ya michoro na ukweli mgumu wa vifaa vya rununu. Ufahamu mkuu ni kwamba uwepo mpya wa vichunguzi vya 3D vya rununu (LiDAR) sio tu kwa ajili ya kupima vyumba—ni ufunguo uliopotea wa kutatua shida ya "mwanga kutoka popote" ambayo imekuwa ikiwatesa AR ya rununu kwa muongo mmoja. Wakati kazi kama NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (Mildenhall et al., 2020) zinavutia kwa ujenzi kamili wa eneo, hazina uwezo wa hesabu kwa matumizi ya wakati halisi ya rununu. Xihe inaepuka hila hii kwa busara kwa kutojaribu kujenga upya kila kitu; badala yake, inatumia data ya 3D kama data ya awali ya kijiometri iliyochanganyika, ili kuzuia shida ya makadirio ya mwanga, ambayo ni rahisi zaidi kushughulikiwa.

Mfuatano wa Mantiki: Mantiki ya makala inavutia: 1) Uhalisi wa picha unahitaji mwanga unaobadilika kwa nafasi. 2) Rununu haziwezi kuukamata moja kwa moja. 3) Lakini sasa zinaweza kukamata jiometri ya 3D kwa bei nafuu. 4) Jiometri inamaanisha vikwazo vya mwanga (k.m., kona giza dhidi ya karibu na dirisha). 5) Kwa hivyo, tumia mtandao wa neva kujifunza uchoraji wa "jiometri → mwanga". 6) Ili kuifanya iwe ya wakati halisi, boresha kila hatua kwa nguvu: chagua data ya 3D, peleka uamuzi mzito kwenye ukingo, na usikadirie isipokuwa ni lazima. Mfuatano huu kutoka kwa ufafanuzi wa shida hadi mfumo wa vitendo ni safi sana.

Nguvu na Kasoro: Nguvu yake kubwa ni utendaji wake wa vitendo. Kuanzisha kwa kukabiliana na uwiano wa muda ni sifa za uhandisi wa bidhaa halisi, sio tu onyesho la utafiti. Algorithm ya kuchagua ni busara, matunda yanayopatikana kwa urahisi na kutoa faida kubwa. Hata hivyo, mfumo una kasoro za asili. Unategemea kabisa ubora wa kichunguzi cha kina; utendaji katika mazingira yenye muundo mdogo au yenye mwangaza mkubwa unaweza kuwa na shaka. Muundo unaosaidiwa na ukingo unaanzisha utegemezi wa mtandao, na kuunda tofauti ya ucheleweshaji na wasiwasi wa faragha—fikiria programu ya AR ya kubuni ndani inayopeleka ramani za 3D za nyumba yako kwenye seva. Zaidi ya hayo, kama ilivyoelezewa katika utafiti wa Microsoft HoloLens, makadirio ya mwanga ni sehemu moja tu ya fumbo la kuunganisha; makadirio ya nyenzo za ulimwengu wa kweli ni muhimu sawa kwa ajili ya kuunganisha kwa urahisi, shida ambayo Xihe inaiepuka.

Ufahamu Unaoweza Kutekelezwa: Kwa watafiti, hitimisho ni kuzingatia zaidi njia mseto za kijiometri-neva. Kujifunza pekee ni mzito sana; jiometri pekee ni rahisi sana. Baadaye iko katika miundo kama Xihe inayotumia moja kuongoza nyingine. Kwa wasanidi programu, makala haya ni mwongozo: ikiwa unajenga programu kubwa ya AR ya rununu, lazima sasa uzingatie data ya kichunguzi cha 3D kama ingizo la kiwango cha kwanza. Anza kufanya mfano wa awali na API za kina za ARKit/ARCore mara moja. Kwa wazalishaji wa chip, mahitaji ya injini zenye nguvu zaidi za neva kwenye kifaa na vichunguzi bora vya kina yataongezeka tu—boresha mfuatano huu. Xihe inaonyesha kwamba njia ya AR ya hali ya juu ya picha halisi kwa watumiaji sio tu juu ya algorithms bora, lakini juu ya kubuni pamoja algorithms, vifaa, na muundo wa mfumo kwa umoja.

6. Matumizi ya Baadaye na Mwelekeo wa Utafiti

  • Biashara ya AR Iliyojitawanyika: Kuweka bidhaa za kufikirika (samani, mapambo, vifaa) na muunganisho kamili wa mwanga, na kuongeza viwango vya ubadilishaji katika biashara ya kielektroniki.
  • Ubunifu wa Kitaalamu na Uwasilishaji: Wasanifu wa majengo na wabunifu wa ndani wanaweza kuangalia mwisho, vifaa vya taa, na samani mahali pake kwa usahihi wa picha halisi kwenye kibao.
  • Michezo ya Hali ya Juu na Burudani: Michezo ya AR yenye msingi wa eneo ambapo wahusika wa kufikirika na vitu vinaingiliana kwa kweli na mwanga unaobadilika wa mazingira ya ulimwengu wa kweli (k.m., kutupa vivuli sahihi chini ya mawingu yanayosonga).
  • Mwelekeo wa Utafiti:
    1. Kujifunza Kwenye Kifaa: Kusogeza mtandao wa neva kabisa kwenye kifaa ili kuondoa ucheleweshaji wa mtandao na masuala ya faragha, kwa kutumia NPU za kizazi kijacho za rununu.
    2. Makadirio ya Pamoja ya Nyenzo na Mwanga: Kupanua mfumo ili pia kutambua sifa za nyuso za takriban za mazingira ya kweli (mgumu, metali) kwa ajili ya mwingiliano wa mwanga wenye uhalisi zaidi.
    3. Mwanga Unaobadilika na Vivuli: Kupanua kutoka kwa mwanga wa mazingira tuli hadi kushughulikia vyanzo vya mwanga vinavyobadilika (k.m., kuwasha/kuzima taa, kusogeza tochi).
    4. Muunganisho na Uwanja wa Mionzi ya Neva (NeRFs): Kutumia mfuatano bora wa Xihe kutoa data ya awali ya mwanga au uanzishaji kwa ajili ya ujenzi upya wa kasi, ulioboreshwa kwa rununu unaofanana na NeRF.

7. Marejeo

  1. Zhao, Y., & Guo, T. (2021). Xihe: A 3D Vision-based Lighting Estimation Framework for Mobile Augmented Reality. In The 19th Annual International Conference on Mobile Systems, Applications, and Services (MobiSys '21).
  2. Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., & Ng, R. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. In European Conference on Computer Vision (ECCV).
  3. Google ARCore. Depth API. https://developers.google.com/ar/discover/depth
  4. Apple. LiDAR Scanner and Depth Framework in iOS. https://developer.apple.com/documentation/arkit/understanding_world_tracking
  5. Microsoft Research. HoloLens and Environmental Understanding. https://www.microsoft.com/en-us/research/project/hololens/
  6. Ramamoorthi, R., & Hanrahan, P. (2001). An Efficient Representation for Irradiance Environment Maps. In Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques (SIGGRAPH '01).