曦和：一個基於3D視覺的行動擴增實境光照估計框架

1. 簡介與概述

行動擴增實境（AR）中的擬真渲染，其根本限制在於無法在任意渲染位置取得準確、即時的全向光照資訊。目前的行動裝置無法從虛擬物體預期放置點擷取完整的360度全景。使用來自使用者觀察點的光照資料，會導致不準確、空間不變的渲染效果，破壞沉浸感。

曦和框架提出了一種新穎的解決方案，它利用行動裝置3D視覺技術的進步——例如內建的LiDAR和深度感測器——來估算環境光照。這是一個邊緣輔助系統，旨在即時（最快約20毫秒）提供準確、空間變化的光照估計，從而在消費級裝置上實現高擬真度的AR體驗。

2. 曦和框架

曦和的架構圍繞著客戶端-邊緣-伺服器模型建構，針對行動AR的特定限制進行了各元件優化：裝置端計算能力有限、網路延遲，以及對感知真實感的需求。

2.1 核心架構與工作流程

工作流程包括：1) 行動裝置使用其深度感測器（例如LiDAR）擷取環境的3D點雲。2) 一種新穎的取樣演算法壓縮此資料。3) 處理後的資料被傳送到託管深度學習模型以進行光照估計的邊緣伺服器。4) 估計出的光照參數（例如球諧函數係數）被傳回裝置，用於渲染虛擬物體。

2.2 創新的點雲取樣技術

一個關鍵創新是源自對3D室內資料集進行實證分析的高效取樣技術。曦和並非處理完整、密集的點雲，而是智慧地選擇對光照估計最具資訊價值的點子集（例如，具有特定法線或反照率屬性的表面點）。這在不大幅損失準確度的情況下，大幅減少了資料負載。

2.3 裝置端GPU處理管線

為了最小化延遲，初始的點雲處理（濾波、正規化、取樣）在行動裝置的GPU上執行。這個量身打造的處理管線確保了繁重的預處理不會在網路傳輸前成為瓶頸。

2.4 邊緣輔助推論與網路優化

用於從3D結構推論光照的複雜深度學習模型在邊緣伺服器上執行。曦和採用專門的編碼方案，在傳輸前進一步壓縮取樣後的點雲資料，以最小化網路延遲和頻寬使用。

2.5 自適應觸發與時間連貫性

曦和整合了智慧觸發策略。它不會為每一幀畫面執行新的光照估計。相反地，它會估算光照條件或使用者/視點位置是否已發生足夠顯著的變化，從而需要更新。此外，它提供了確保估計之間時間連貫性的機制，防止渲染的AR場景出現閃爍或突兀的過渡。

3. 技術實作與細節

3.1 數學基礎

光照通常使用球諧函數（SH）來表示。核心的估計問題可以表述為：給定反照率 $\rho$，找到最能解釋在法線為 $\mathbf{n}$ 的表面點上觀察到的輻射亮度 $B(\mathbf{n})$ 的SH係數 $\mathbf{l}$：

$B(\mathbf{n}) = \rho \int_{\Omega} L(\omega) (\mathbf{n} \cdot \omega)^+ d\omega \approx \rho \sum_{i} l_i Y_i(\mathbf{n})$

其中 $L(\omega)$ 是入射輻射亮度，$Y_i$ 是SH基底函數，$(\cdot)^+$ 是鉗制點積。曦和的神經網路學習一個從取樣點雲 $P$ 到這些係數的映射 $f_\theta$：$\mathbf{l} = f_\theta(P)$。

取樣策略旨在選擇點 $p_i \in P$，以最大化解決此逆向渲染問題的資訊增益，通常專注於具有非朗伯反射線索或特定幾何關係的點。

3.2 分析框架與案例說明

情境： 在客廳的木製桌子上放置一個虛擬陶瓷花瓶，客廳一側有窗戶，另一側有燈具。

資料擷取： iPhone的LiDAR掃描房間，生成密集點雲（約50萬點）。
裝置端處理（GPU）： 曦和的處理管線濾除雜訊、對齊點雲，並應用其取樣演算法。它識別並主要保留桌子表面（用於間接反射光）、窗戶區域（主要光源）和燈罩上的點。點雲被減少到約5千個代表性點。
邊緣推論： 這個壓縮、編碼後的點雲被傳送到邊緣。神經網路分析3D空間分佈和可能的材質屬性（從幾何/上下文推斷），以估計一組描述花瓶位置全向照明的二階球諧函數係數。
渲染： 手機上的AR應用程式使用這些SH係數為虛擬花瓶著色。面向窗戶的一側顯得更亮並可見高光，而背對的一側則由木桌反射的光線柔和照亮，實現了空間變化的擬真效果。

4. 實驗評估與結果

該論文使用一個參考行動AR應用程式評估曦和。指標側重於估計準確度和端到端延遲。

估計延遲

20.67 毫秒

每次估計平均值

準確度提升

9.4%

優於最先進的神經網路基準

資料壓縮

~100倍

相對於原始點雲的壓縮率

4.1 準確度效能

準確度是透過比較在曦和估計光照下渲染的虛擬物體影像，與使用已知環境貼圖的真實渲染影像來衡量的。在標準影像相似度指標（可能是PSNR或SSIM）方面，曦和比最先進的神經網路基準表現優異9.4%。此增益歸因於點雲提供的3D結構感知能力，相對於僅依賴2D相機影像的方法。

4.2 延遲與效率

端到端處理管線實現了每次光照估計平均20.67毫秒的延遲，完全符合即時AR的要求（通常60 FPS需要16毫秒）。這得益於高效的裝置端預處理和網路優化。自適應觸發機制進一步降低了有效的每幀計算負載。

4.3 關鍵結果摘要

證明可行性： 展示了在行動平台上實現準確、即時、基於3D視覺的光照估計是可行的。
凸顯3D優勢： 透過利用幾何上下文，顯示出相對於2D影像方法的明顯準確度優勢。
驗證系統設計： 邊緣輔助、優化的處理管線滿足了嚴格的延遲要求。

5. 關鍵分析與專家洞見

核心洞見： 曦和不僅僅是神經渲染領域的另一個漸進式改進；它是一個務實的系統級解決方案，最終彌合了尖端圖形理論與行動硬體嚴酷現實之間的差距。核心洞見在於，行動3D感測器（LiDAR）的新普及性不僅僅是為了測量房間——它是解決困擾行動AR十年的「從任意位置獲取光照」問題的關鍵鑰匙。雖然像《NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis》（Mildenhall等人，2020）這樣的作品以完整的場景重建令人驚艷，但對於即時行動應用來說，其計算成本過高。曦和巧妙地避開了這個陷阱，它不試圖重建一切；相反地，它將3D資料用作稀疏的幾何先驗知識，來約束一個光照估計問題，這在處理上要容易得多。

邏輯流程： 論文的邏輯具有說服力：1) 擬真感需要空間變化的光照。2) 行動裝置無法直接擷取它。3) 但它們現在可以低成本地擷取3D幾何。4) 幾何意味著光照約束（例如，黑暗角落 vs. 靠近窗戶）。5) 因此，使用神經網路來學習「幾何 → 光照」的映射。6) 為了使其即時化，積極優化每一步：取樣3D資料、將繁重的推論推送到邊緣、除非必要否則不進行估計。這種從問題定義到實用系統的流程異常清晰。

優勢與缺陷： 其最大優勢在於它的務實性。自適應觸發和時間連貫性是為真實產品而非僅為研究演示進行工程設計的標誌。取樣演算法是一個聰明、容易實現且能帶來巨大收益的技術。然而，該框架有其固有的缺陷。它完全依賴於深度感測器的品質；在低紋理或高鏡面反射環境中的效能值得懷疑。邊緣輔助模型引入了網路依賴性，導致延遲變異性和隱私問題——想像一個AR室內設計應用程式將您家中的3D地圖串流到伺服器。此外，正如《Microsoft HoloLens》研究所指出的，光照估計只是合成拼圖的一部分；對真實世界材質的估計對於無縫融合同樣至關重要，而曦和迴避了這個問題。

可行洞見： 對於研究人員來說，關鍵在於加倍投入混合幾何-神經方法。純粹的學習方法過於繁重；純粹的幾何方法過於簡化。未來在於像曦和這樣的框架，它們使用一種方法來引導另一種。對於開發者，這篇論文是一個藍圖：如果您正在構建一個嚴肅的行動AR應用程式，您現在必須將3D感測器資料視為一級輸入。立即開始使用ARKit/ARCore的深度API進行原型設計。對於晶片製造商，對更強大、裝置端神經引擎和高效深度感測器的需求只會加劇——為此處理管線進行優化。曦和證明了，通往消費級擬真AR的道路不僅僅在於更好的演算法，更在於協同設計演算法、硬體和系統架構。

6. 未來應用與研究方向

普及化AR商務： 虛擬產品擺放（家具、裝飾、家電）與完美光照整合，驅動電子商務更高的轉換率。
專業設計與視覺化： 建築師和室內設計師可以在平板電腦上以擬真準確度現場預覽飾面、燈具和家具。
進階遊戲與娛樂： 基於位置的AR遊戲，虛擬角色和物體能與真實世界環境的動態光照（例如，在移動雲層下投射正確的陰影）進行真實互動。
研究方向：
1. 裝置端學習： 將神經網路完全移至裝置端，以消除網路延遲和隱私問題，利用下一代行動NPU。
2. 聯合材質與光照估計： 擴展框架以同時推斷真實環境的近似表面材質屬性（粗糙度、金屬性），實現更真實的光照互動。
3. 動態光照與陰影： 從靜態環境光照擴展到處理動態光源（例如，開/關燈、移動手電筒）。
4. 與神經輻射場（NeRF）整合： 使用曦和的高效處理管線為更快、行動優化的類NeRF重建提供光照先驗知識或初始化。

7. 參考文獻

Zhao, Y., & Guo, T. (2021). Xihe: A 3D Vision-based Lighting Estimation Framework for Mobile Augmented Reality. In The 19th Annual International Conference on Mobile Systems, Applications, and Services (MobiSys '21).
Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., & Ng, R. (2020). NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis. In European Conference on Computer Vision (ECCV).
Google ARCore. Depth API. https://developers.google.com/ar/discover/depth
Apple. LiDAR Scanner and Depth Framework in iOS. https://developer.apple.com/documentation/arkit/understanding_world_tracking
Microsoft Research. HoloLens and Environmental Understanding. https://www.microsoft.com/en-us/research/project/hololens/
Ramamoorthi, R., & Hanrahan, P. (2001). An Efficient Representation for Irradiance Environment Maps. In Proceedings of the 28th Annual Conference on Computer Graphics and Interactive Techniques (SIGGRAPH '01).