2.1 核心架構與工作流程
工作流程包括:1) 流動裝置使用其深度感測器(例如LiDAR)捕捉環境嘅3D點雲。2) 一種創新採樣算法壓縮呢啲數據。3) 處理後嘅數據被傳送到託管深度學習模型進行光照估算嘅邊緣伺服器。4) 估算出嘅光照參數(例如球諧函數係數)傳回裝置,用於渲染虛擬物件。
流動擴增實境(AR)要實現相片級真實感渲染,根本限制在於無法喺任意渲染位置獲取準確、實時嘅全方位光照資訊。目前嘅流動裝置冇辦法從虛擬物件嘅預設擺放點捕捉完整360度全景。使用來自用戶觀察點嘅光照數據,會導致不準確、空間不變嘅渲染效果,破壞沉浸感。
曦和框架提出咗一個創新解決方案,利用流動3D視覺技術(例如內置LiDAR同深度感測器)嘅進步來估算環境光照。佢係一個邊緣輔助系統,旨在提供準確、空間變化嘅實時光照估算(最快約20毫秒),令消費級裝置都能體驗高保真度AR。
曦和嘅架構圍繞客戶端-邊緣-伺服器模型構建,針對流動AR嘅特定限制(裝置端計算能力有限、網絡延遲、需要感知真實感)優化每個組件。
工作流程包括:1) 流動裝置使用其深度感測器(例如LiDAR)捕捉環境嘅3D點雲。2) 一種創新採樣算法壓縮呢啲數據。3) 處理後嘅數據被傳送到託管深度學習模型進行光照估算嘅邊緣伺服器。4) 估算出嘅光照參數(例如球諧函數係數)傳回裝置,用於渲染虛擬物件。
一個關鍵創新係一種高效嘅採樣技術,源自對3D室內數據集嘅實證分析。曦和唔係處理完整、密集嘅點雲,而係智能地選取對光照估算最具資訊價值嘅點子集(例如,具有特定法線方向或反照率屬性嘅表面上嘅點)。呢種方法喺唔顯著損失準確度嘅情況下,大幅減少數據負載。
為咗將延遲降到最低,初始點雲處理(過濾、標準化、採樣)喺流動裝置嘅GPU上進行。呢個度身訂造嘅處理管道確保繁重嘅預處理唔會喺網絡傳輸前成為瓶頸。
用於從3D結構推斷光照嘅複雜深度學習模型運行喺邊緣伺服器上。曦和採用專門嘅編碼方案,喺傳輸前進一步壓縮採樣後嘅點雲數據,從而將網絡延遲同頻寬使用降到最低。
曦和包含一個智能觸發策略。佢唔會為每一幀都進行新嘅光照估算。相反,佢會估算光照條件或用戶/視點位置係咪已經發生足夠大嘅變化,需要更新。此外,佢提供機制確保估算之間嘅時間一致性,防止渲染嘅AR場景出現閃爍或突兀嘅過渡。
光照通常使用球諧函數(SH)來表示。核心估算問題可以表述為:喺給定反照率 $\rho$ 嘅情況下,搵出最能解釋具有法線 $\mathbf{n}$ 嘅表面點上觀察到嘅輻射亮度 $B(\mathbf{n})$ 嘅SH係數 $\mathbf{l}$:
$B(\mathbf{n}) = \rho \int_{\Omega} L(\omega) (\mathbf{n} \cdot \omega)^+ d\omega \approx \rho \sum_{i} l_i Y_i(\mathbf{n})$
其中 $L(\omega)$ 係入射輻射亮度,$Y_i$ 係SH基函數,$(\cdot)^+$ 係鉗制點積。曦和嘅神經網絡學習一個從採樣點雲 $P$ 到呢啲係數嘅映射 $f_\theta$:$\mathbf{l} = f_\theta(P)$。
採樣策略旨在選擇點 $p_i \in P$,令其為解決呢個逆向渲染問題帶來最大資訊增益,通常集中喺具有非朗伯線索或特定幾何關係嘅點上。
場景: 喺客廳嘅木枱上放置一個虛擬陶瓷花瓶,客廳一邊有窗,另一邊有燈。
論文使用一個參考流動AR應用程式評估曦和。指標集中於估算準確度同端到端延遲。
20.67 毫秒
每次估算平均
9.4%
優於最先進嘅神經網絡基線
~100倍
相比原始點雲嘅壓縮率
準確度係通過比較虛擬物件喺曦和估算光照下嘅渲染圖像,與使用已知環境貼圖嘅真實渲染圖像來衡量。曦和喺標準圖像相似度指標(可能係PSNR或SSIM)上,表現比最先進嘅神經網絡基線優越9.4%。呢個增益歸因於點雲提供嘅3D結構感知能力,有別於僅依賴2D相機圖像嘅方法。
端到端管道實現每次光照估算平均20.67毫秒嘅延遲,完全符合實時AR嘅要求(通常60 FPS需要16毫秒)。呢個係由高效嘅裝置端預處理同網絡優化實現嘅。自適應觸發機制進一步降低咗有效嘅每幀計算負載。
核心見解: 曦和唔只係神經渲染領域嘅另一個漸進式改進;佢係一個務實嘅系統級解決方案,終於彌合咗尖端圖形理論同流動硬件殘酷現實之間嘅差距。核心見解係,流動3D感測器(LiDAR)嘅新普及性唔只係用嚟量度房間——佢係解決困擾流動AR十年嘅「從任何位置獲取光照」問題嘅關鍵。雖然好似NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis(Mildenhall等人,2020)呢類作品以完整場景重建令人驚嘆,但佢哋嘅計算量對於實時流動應用係難以負擔嘅。曦和聰明地避開咗呢個陷阱,佢唔嘗試重建所有嘢;相反,佢將3D數據用作一個稀疏嘅幾何先驗,去約束一個光照估算問題,呢個問題處理起嚟容易得多。
邏輯流程: 論文嘅邏輯令人信服:1) 相片級真實感需要空間變化嘅光照。2) 流動裝置無法直接捕捉。3) 但佢哋而家可以廉價地捕捉3D幾何。4) 幾何意味著光照約束(例如,暗角 vs. 近窗)。5) 因此,使用神經網絡學習「幾何 → 光照」映射。6) 為咗令佢實時,積極優化每一步:採樣3D數據、將繁重推論推送到邊緣、除非必要否則唔估算。呢個從問題定義到實用系統嘅流程異常清晰。
優點與缺點: 佢最大嘅優點係務實性。自適應觸發同時間一致性係為真實產品而非僅係研究演示而進行工程設計嘅標誌。採樣算法係一個聰明、容易實現且能帶來巨大收益嘅方案。然而,該框架有固有缺點。佢完全依賴深度感測器嘅質量;喺低紋理或高鏡面反射環境中嘅表現存疑。邊緣輔助模型引入咗網絡依賴性,導致延遲可變性同私隱問題——想像一下一個AR室內設計應用程式將你屋企嘅3D地圖串流到伺服器。此外,正如Microsoft HoloLens研究所指出,光照估算只係合成難題嘅一部分;現實世界嘅材質估算對於無縫融合同樣關鍵,呢個問題曦和迴避咗。
可行見解: 對於研究人員,啟示係要加倍投入混合幾何-神經方法。純粹學習太重;純粹幾何太簡單。未來在於像曦和咁樣用一個引導另一個嘅框架。對於開發者,呢篇論文係一個藍圖:如果你正在構建一個嚴肅嘅流動AR應用程式,你而家必須將3D感測器數據視為首要輸入。立即使用ARKit/ARCore嘅深度API開始原型設計。對於芯片製造商,對更強大嘅裝置端神經引擎同高效深度感測器嘅需求只會加劇——要為呢個管道優化。曦和展示咗,通往消費級相片級真實感AR嘅道路,唔只係關於更好嘅算法,而係要同步協同設計算法、硬件同系統架構。