2.1 核心架構與工作流程
工作流程包括:1) 行動裝置使用其深度感測器(例如LiDAR)擷取環境的3D點雲。2) 一種新穎的取樣演算法壓縮此資料。3) 處理後的資料被傳送到託管深度學習模型以進行光照估計的邊緣伺服器。4) 估計出的光照參數(例如球諧函數係數)被傳回裝置,用於渲染虛擬物體。
行動擴增實境(AR)中的擬真渲染,其根本限制在於無法在任意渲染位置取得準確、即時的全向光照資訊。目前的行動裝置無法從虛擬物體預期放置點擷取完整的360度全景。使用來自使用者觀察點的光照資料,會導致不準確、空間不變的渲染效果,破壞沉浸感。
曦和框架提出了一種新穎的解決方案,它利用行動裝置3D視覺技術的進步——例如內建的LiDAR和深度感測器——來估算環境光照。這是一個邊緣輔助系統,旨在即時(最快約20毫秒)提供準確、空間變化的光照估計,從而在消費級裝置上實現高擬真度的AR體驗。
曦和的架構圍繞著客戶端-邊緣-伺服器模型建構,針對行動AR的特定限制進行了各元件優化:裝置端計算能力有限、網路延遲,以及對感知真實感的需求。
工作流程包括:1) 行動裝置使用其深度感測器(例如LiDAR)擷取環境的3D點雲。2) 一種新穎的取樣演算法壓縮此資料。3) 處理後的資料被傳送到託管深度學習模型以進行光照估計的邊緣伺服器。4) 估計出的光照參數(例如球諧函數係數)被傳回裝置,用於渲染虛擬物體。
一個關鍵創新是源自對3D室內資料集進行實證分析的高效取樣技術。曦和並非處理完整、密集的點雲,而是智慧地選擇對光照估計最具資訊價值的點子集(例如,具有特定法線或反照率屬性的表面點)。這在不大幅損失準確度的情況下,大幅減少了資料負載。
為了最小化延遲,初始的點雲處理(濾波、正規化、取樣)在行動裝置的GPU上執行。這個量身打造的處理管線確保了繁重的預處理不會在網路傳輸前成為瓶頸。
用於從3D結構推論光照的複雜深度學習模型在邊緣伺服器上執行。曦和採用專門的編碼方案,在傳輸前進一步壓縮取樣後的點雲資料,以最小化網路延遲和頻寬使用。
曦和整合了智慧觸發策略。它不會為每一幀畫面執行新的光照估計。相反地,它會估算光照條件或使用者/視點位置是否已發生足夠顯著的變化,從而需要更新。此外,它提供了確保估計之間時間連貫性的機制,防止渲染的AR場景出現閃爍或突兀的過渡。
光照通常使用球諧函數(SH)來表示。核心的估計問題可以表述為:給定反照率 $\rho$,找到最能解釋在法線為 $\mathbf{n}$ 的表面點上觀察到的輻射亮度 $B(\mathbf{n})$ 的SH係數 $\mathbf{l}$:
$B(\mathbf{n}) = \rho \int_{\Omega} L(\omega) (\mathbf{n} \cdot \omega)^+ d\omega \approx \rho \sum_{i} l_i Y_i(\mathbf{n})$
其中 $L(\omega)$ 是入射輻射亮度,$Y_i$ 是SH基底函數,$(\cdot)^+$ 是鉗制點積。曦和的神經網路學習一個從取樣點雲 $P$ 到這些係數的映射 $f_\theta$:$\mathbf{l} = f_\theta(P)$。
取樣策略旨在選擇點 $p_i \in P$,以最大化解決此逆向渲染問題的資訊增益,通常專注於具有非朗伯反射線索或特定幾何關係的點。
情境: 在客廳的木製桌子上放置一個虛擬陶瓷花瓶,客廳一側有窗戶,另一側有燈具。
該論文使用一個參考行動AR應用程式評估曦和。指標側重於估計準確度和端到端延遲。
20.67 毫秒
每次估計平均值
9.4%
優於最先進的神經網路基準
~100倍
相對於原始點雲的壓縮率
準確度是透過比較在曦和估計光照下渲染的虛擬物體影像,與使用已知環境貼圖的真實渲染影像來衡量的。在標準影像相似度指標(可能是PSNR或SSIM)方面,曦和比最先進的神經網路基準表現優異9.4%。此增益歸因於點雲提供的3D結構感知能力,相對於僅依賴2D相機影像的方法。
端到端處理管線實現了每次光照估計平均20.67毫秒的延遲,完全符合即時AR的要求(通常60 FPS需要16毫秒)。這得益於高效的裝置端預處理和網路優化。自適應觸發機制進一步降低了有效的每幀計算負載。
核心洞見: 曦和不僅僅是神經渲染領域的另一個漸進式改進;它是一個務實的系統級解決方案,最終彌合了尖端圖形理論與行動硬體嚴酷現實之間的差距。核心洞見在於,行動3D感測器(LiDAR)的新普及性不僅僅是為了測量房間——它是解決困擾行動AR十年的「從任意位置獲取光照」問題的關鍵鑰匙。雖然像《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》(Mildenhall等人,2020)這樣的作品以完整的場景重建令人驚艷,但對於即時行動應用來說,其計算成本過高。曦和巧妙地避開了這個陷阱,它不試圖重建一切;相反地,它將3D資料用作稀疏的幾何先驗知識,來約束一個光照估計問題,這在處理上要容易得多。
邏輯流程: 論文的邏輯具有說服力:1) 擬真感需要空間變化的光照。2) 行動裝置無法直接擷取它。3) 但它們現在可以低成本地擷取3D幾何。4) 幾何意味著光照約束(例如,黑暗角落 vs. 靠近窗戶)。5) 因此,使用神經網路來學習「幾何 → 光照」的映射。6) 為了使其即時化,積極優化每一步:取樣3D資料、將繁重的推論推送到邊緣、除非必要否則不進行估計。這種從問題定義到實用系統的流程異常清晰。
優勢與缺陷: 其最大優勢在於它的務實性。自適應觸發和時間連貫性是為真實產品而非僅為研究演示進行工程設計的標誌。取樣演算法是一個聰明、容易實現且能帶來巨大收益的技術。然而,該框架有其固有的缺陷。它完全依賴於深度感測器的品質;在低紋理或高鏡面反射環境中的效能值得懷疑。邊緣輔助模型引入了網路依賴性,導致延遲變異性和隱私問題——想像一個AR室內設計應用程式將您家中的3D地圖串流到伺服器。此外,正如《Microsoft HoloLens》研究所指出的,光照估計只是合成拼圖的一部分;對真實世界材質的估計對於無縫融合同樣至關重要,而曦和迴避了這個問題。
可行洞見: 對於研究人員來說,關鍵在於加倍投入混合幾何-神經方法。純粹的學習方法過於繁重;純粹的幾何方法過於簡化。未來在於像曦和這樣的框架,它們使用一種方法來引導另一種。對於開發者,這篇論文是一個藍圖:如果您正在構建一個嚴肅的行動AR應用程式,您現在必須將3D感測器資料視為一級輸入。立即開始使用ARKit/ARCore的深度API進行原型設計。對於晶片製造商,對更強大、裝置端神經引擎和高效深度感測器的需求只會加劇——為此處理管線進行優化。曦和證明了,通往消費級擬真AR的道路不僅僅在於更好的演算法,更在於協同設計演算法、硬體和系統架構。