當(dāng)前位置：主頁 > 資訊 > 前沿 >

Facebook開源DeepFocus實現(xiàn)逼真散焦效果

來源：映維網(wǎng) 瀏覽數(shù)：
責(zé)任編輯：傳說的落葉時間：2018-12-21 09:14

分享到：

[導(dǎo)讀]Facebook開源DeepFocus，實現(xiàn)逼真散焦效果，推動下一代VR頭顯技術(shù)

Facebook Reality Labs（FRL）在今年早些時候亮相了Half Dome，這款頭顯原型的眼動追蹤攝像頭、寬視場光學(xué)元件、以及自主聚焦的顯示器都預(yù)告著行業(yè)朝逼真VR體驗前進(jìn)的下一步。通過調(diào)整顯示器以匹配用戶眼睛運動，Half Dome的變焦設(shè)計能夠令每一個虛擬對象清晰對焦。在為VR創(chuàng)建更為舒適、自然和身臨其境的感覺目標(biāo)中，這一方法帶來了真正的進(jìn)步。但要實現(xiàn)其所有的潛能，Half Dome的先進(jìn)硬件需要搭載同樣先進(jìn)的軟件。

在今年OC5大會的主題演講中，Oculus首席科學(xué)家邁克爾·亞伯拉什就透露過借助可以實時實現(xiàn)“自然注視跟隨模糊”的AI渲染器DeepFocus，他們“在解決這個問題上已經(jīng)取得了相當(dāng)大的進(jìn)步”。他同時表示Oculus將在未來幾個月內(nèi)發(fā)表他們的研究成果。

今天，Oculus正式向我們分享了DeepFocus。這一基于AI的渲染系統(tǒng)能夠協(xié)助Half Dome實現(xiàn)模擬人類感知世界的散焦效果。它是第一款能夠?qū)崿F(xiàn)如此效果的系統(tǒng)，可以模糊用戶當(dāng)下無法聚焦的場景部分，并且是以一種逼真、實時的注視跟隨方式實現(xiàn)。于本月在日本東京召開的SIGGRAPH亞洲大會上，Oculus已經(jīng)展示了相關(guān)的研究論文，他們同時開源了DeepFocus，包括系統(tǒng)的代碼和用于訓(xùn)練的數(shù)據(jù)集，目標(biāo)是幫助更廣泛的VR研究人員將模糊融入至他們的研究之中。以下映維網(wǎng)整理了Oculus團(tuán)隊的具體分享。

渲染模糊對超逼真體驗而言十分關(guān)鍵

DeepFocus由FRL的多學(xué)科研究團(tuán)隊開發(fā)。這與電影美學(xué)或炫酷的視覺效果無關(guān)。實際上，渲染模糊越精確，用戶就越不可能注意到它。FRL的視覺科學(xué)家瑪麗娜·贊諾麗（Marina Zannoli）很早就加入了DeepFocus項目，并認(rèn)為對于真正逼真的體驗而言，關(guān)鍵是聚焦和散焦視覺效果的組合。贊諾麗指出：“我們最終的目標(biāo)是提供與現(xiàn)實無法區(qū)分的視覺體驗。我們的眼睛就像是微小的相機：當(dāng)它們聚焦于一個特定的對象時，不同深度的場景部分將看起來很模糊。那些模糊的區(qū)域有助于我們的視覺系統(tǒng)理解世界的三維結(jié)構(gòu)，并幫助我們決定下一個焦點。盡管變焦VR頭顯可以在用戶注視的任何位置提供清晰的圖像，但DeepFocus使得我們能夠像現(xiàn)實世界一樣渲染場景的其余部分：自然模糊。”

逼真視網(wǎng)膜模糊一個最大的潛在優(yōu)勢是，其可以帶來更為舒適的VR體驗。FRL的顯示系統(tǒng)研究小組負(fù)責(zé)人道格拉斯·蘭曼（Douglas Lanman）解釋說：“重點是實現(xiàn)全天候的身臨其境。無論你是連續(xù)數(shù)小時開玩游戲，還是查閱一個無聊的電子表格，眼睛疲勞，視覺疲勞，以及你愿意花一天時間看著的精美圖片，所有這一切都很重要。”

在2015年Half Dome項目仍位于早期階段的時候，蘭曼就已經(jīng)認(rèn)識到了渲染模糊的必要性。即便開展項目只是僅數(shù)月時間，但早期原型已經(jīng)展示了在VR中創(chuàng)造清晰焦點的積極前景。但基于軟件的散焦效果是一個主要障礙。我們的過程無法利用現(xiàn)有的技術(shù)來渲染非VR游戲中的實時模糊，因為它們更多是與影視攝制方法有關(guān)，目標(biāo)是產(chǎn)生炫酷的電影效果（如精美的散焦背景），并且專門用于平板顯示器和電視，而非奔著逼真感這個目的去。這種快速但不準(zhǔn)確的“游戲模糊”實現(xiàn)方法與Half Dome的任務(wù)背道而馳。對于Half Dome，其目標(biāo)是忠實地還原光線進(jìn)入人類視網(wǎng)膜的方式。

我們投入了數(shù)個月的時間來探索如何通過傳統(tǒng)技術(shù)來優(yōu)化計算顯示，但結(jié)果仍然不夠快，無法產(chǎn)生真正的實時模糊，無法準(zhǔn)確匹配物理現(xiàn)實。這些早期的努力揭示了在VR中渲染逼真模糊的雙重挑戰(zhàn)，亦即我們需要令人難以置信的高渲染速度，以及先進(jìn)頭顯所需的高圖像質(zhì)量水平。渲染模糊不是應(yīng)用于場景時的一次性過程。注視跟隨的模糊必須實現(xiàn)快速，近乎即時的散焦效果，從而才能基本上匹配每個眼睛的運動。與此同時，其保真度無法單純通過降低非聚焦對象的分辨率來實現(xiàn)。

蘭曼發(fā)現(xiàn)，單純地投入更多的處理能力來解決問題并不可行。對于2016年的Half Dome demo，其通過稱為累積緩沖渲染（accumulation buffer rendering）的過程實現(xiàn)了實時模糊，其中每個場景渲染32次。但這種方法可行的原因只是因為整個場景十分簡單，它不可能支持更廣泛的VR體驗，尤其是因為蘭曼專注于為整個VR社區(qū)提供所有的軟件解決方案。蘭曼指出：“我希望它能夠立即用于每一個游戲，這樣我們就不必要求開發(fā)者改變他們的游戲，我渴望開箱即用的解決方案。”

2. 將深度學(xué)習(xí)帶到VR

蘭曼決定開發(fā)由AI驅(qū)動的軟件，而不是被動地等待未來的處理器來滿足我們的要求，或者要求用戶自行提供更多的處理能力。具體而言，他希望利用深度學(xué)習(xí)，一種能夠通過對大量相關(guān)數(shù)據(jù)進(jìn)行訓(xùn)練，并從中學(xué)習(xí)如何執(zhí)行特定任務(wù)的AI系統(tǒng)。深度學(xué)習(xí)算法通常用于分析圖像，甚至是生成圖像。盡管芯片廠商一直在朝這個方向發(fā)展，通過在最新的芯片中添加兼容AI的學(xué)習(xí)核心來提高圖像質(zhì)量的上限，但在與VR相關(guān)的系統(tǒng)中，深度學(xué)習(xí)卻少之又少。蘭曼說道：“我們決定利用那些正在推動行業(yè)趨勢的相同AI工具。不僅僅只是生成像素，而且要提供前所未有的真實感。”

對于這個深度學(xué)習(xí)戰(zhàn)略，蘭曼從聘請不列顛哥倫比亞大學(xué)的人工智能研究員肖磊開始，后者的博士研究包括數(shù)值優(yōu)化和計算攝影學(xué)的機器學(xué)習(xí)。蘭曼指出：“我相信當(dāng)時是肖磊來到實驗室的第一天，我告訴他道，‘我希望像Half Dome這樣的計算顯示器能夠首次實時運行，而且這個解決方案必須適用于Oculus Store中的每款內(nèi)容，無需要求開發(fā)者進(jìn)行重新編譯。”

對于已經(jīng)成為FRL研究科學(xué)家的肖磊，他的任務(wù)是根據(jù)已經(jīng)用于ASW 2.0幀平滑技術(shù)，以及大多數(shù)游戲引擎都普遍提供的基本顏色和深度（RGB-D）輸入來生成逼真的模糊，而不是根據(jù)一些復(fù)雜的，與焦點相關(guān)的新參數(shù)。這一領(lǐng)域早已存在相關(guān)的研究，但在虛擬場景深度不連續(xù)處出現(xiàn)的偽影，以及現(xiàn)代VR顯示分辨率下的運行時性能不足一直都在對其造成困擾。理論上，如果AI系統(tǒng)有著對散焦的充分理解，這時無論相鄰像素的相對深度或3D注視位置如何，它都可以預(yù)測相鄰像素是如何混合在一起。如果這種技術(shù)可以用于簡單的RGB-D輸入，我們就可以將逼真的模糊應(yīng)用于幾乎所有的VR體驗。

為了實現(xiàn)成熟圖像理解和直接輸入的這種組合，肖磊建立了一個全新的神經(jīng)網(wǎng)絡(luò)架構(gòu)：一個專門針對實時渲染模糊進(jìn)行優(yōu)化的架構(gòu)。與用于深度學(xué)習(xí)圖像分析的更傳統(tǒng)AI系統(tǒng)不同，肖磊研發(fā)的系統(tǒng)可以處理視覺效果，并且同時維持高質(zhì)量VR所需的超清晰圖像分辨率。

但與所有基于深度學(xué)習(xí)的系統(tǒng)一樣，F(xiàn)RL需要大量的訓(xùn)練數(shù)據(jù)。具體來說，DeepFocus需要瀏覽數(shù)千個以不同距離放置各種對象的圖像，并建立起對聚焦和散焦的理解。但是，沒有現(xiàn)成的數(shù)據(jù)集能夠提供DeepFocus團(tuán)隊所需的各種曲面和形狀。所以肖磊和FRL的技術(shù)美術(shù)馬特·查普曼（Matt Chapman）自行創(chuàng)建了這樣一個數(shù)據(jù)庫。

DeepFocus團(tuán)隊

查普曼是從Oculus產(chǎn)品團(tuán)隊來到FRL，而他在產(chǎn)品團(tuán)隊期間曾創(chuàng)建過一系列著名和優(yōu)秀的demo。對于DeepFocus，查普曼將美學(xué)放在了一邊，并為肖磊提供了一個虛擬對象的交互式堆積場。查普曼的隨機場景生成器生成了由大量對象組成的場景，包括來自盧浮宮雕塑的3D掃描，以及合成球體，立方體和3D曲線。這些對象隨機放置在3D空間中，深度范圍從25厘米到10米。

由此產(chǎn)生的對象集合令人眼花繚亂，但一種方法可以解決隨機場景生成器的視覺問題。這種不自然的，令人眼花繚亂的幾何形狀和遮擋物具有比現(xiàn)實生活中更多種類的紋理，表面和其他特征，但可以作為深度學(xué)習(xí)系統(tǒng)的一種焦點分析訓(xùn)練營。“這是我第一次與技術(shù)美術(shù)進(jìn)行密切合作。”肖磊如是說道。像馬特·查普曼這樣的技術(shù)美術(shù)在研究機構(gòu)中很少見，但對于FRL的AR和VR創(chuàng)新方法而言至關(guān)重要。肖磊表示：“為了改進(jìn)隨機場景生成器，從微調(diào)對象，紋理和材料的分布到減少ground truth圖像的渲染時間，馬特和我進(jìn)行了大量的迭代。”總的來說，他們利用隨機場景生成器繪制了196000張圖像來對系統(tǒng)進(jìn)行訓(xùn)練，使得DeepFocus能夠理解如何在多變和不熟悉的VR環(huán)境中渲染模糊。

在接下來的一年中，DeepFocus團(tuán)隊增加了視覺科學(xué)家（如贊諾麗），以及研究科學(xué)家亞歷山大·費克斯（Alexander Fix）和安東·凱普蘭延（Anton Kaplanyan）。他們幫助設(shè)計了系統(tǒng)的深度學(xué)習(xí)方法。FRL的圖形研究團(tuán)隊負(fù)責(zé)人凱普蘭延表示：“對于之前用于渲染高度逼真模糊的方法，它們?nèi)际腔谌斯ぶ谱鞯臄?shù)學(xué)模型，邊界情況與限制會導(dǎo)致低質(zhì)量的結(jié)果和偽影。利用深度學(xué)習(xí)，我們的系統(tǒng)能夠?qū)崿F(xiàn)復(fù)雜的效果和關(guān)系，例如前景與背景散焦，以及遮擋邊界處的正確模糊。通過生成豐富的ground truth數(shù)據(jù)庫，我們能夠覆蓋更廣泛的散焦效果，并為景深合成設(shè)立了新的標(biāo)準(zhǔn)。”

為了幫助證明DeepFocus能夠?qū)嶋H應(yīng)用于Half Dome，并且利用當(dāng)前的處理器來實時渲染模糊，F(xiàn)RL的研究軟件工程師薩拉·諾里（Salah Nouri）加入了項目。曾參與過3A級游戲制作的諾里表示：“當(dāng)我加入團(tuán)隊時，他們已經(jīng)建立好網(wǎng)絡(luò)架構(gòu)，而且運行時已經(jīng)足夠用于以1080p分辨率運行的常規(guī)PC或主機游戲。但我們至少需要將性能提高四倍，因為VR的要求更高。”

諾里能夠在搭載四枚顯卡的設(shè)備上演示DeepFocus和Half Dome。盡管這是比消費者目前可用的設(shè)備功能更強大，但仍然屬于一項重大的技術(shù)進(jìn)步。諾里表示：“我們需要非常小心地將四枚顯卡之間的工作并行化，以便它們之間的內(nèi)存?zhèn)鬏敳粫a(chǎn)生任何額外的延遲，同時幾乎無需任何計算成本。”

FRL對軟件或硬件的探索尚未結(jié)束，我們的最終目標(biāo)是在一枚顯卡上實時運行渲染模糊。但無論是將人工智能技術(shù)集成到圖形渲染中，還是開發(fā)新的，更具沉浸感的逼真VR體驗，我們在SIGGRAPH亞洲大會展示的四顯卡demo與研究代表了一個重要的里程碑。蘭曼說道：“我們想看看渲染模糊可以為VR帶來什么增益，但它必須是在真實的游戲和真實的VR設(shè)置中運行。我們做到了，而那解鎖了全新的理解。”

3. 未來屬于DeepFocus

對于DeepFocus和Half Dome，我們現(xiàn)在擁有了可以更好理解真實感如何對用戶AR與VR體驗作出貢獻(xiàn)的工具。盡管我們現(xiàn)在是將DeepFocus用于Hald Dome之中，但系統(tǒng)的深度學(xué)習(xí)可以實現(xiàn)跨硬件兼容。我們的研究論文表明，除了在變焦顯示器上渲染實時模糊外，DeepFocus同時支持用于多焦點和光場顯示的高質(zhì)量圖像合成。這使得我們的系統(tǒng)適用于所有下一代頭顯技術(shù)。

通過開源我們的DeepFocus與訓(xùn)練數(shù)據(jù)，我們不僅為開發(fā)新VR系統(tǒng)的工程師提供了框架，而且為視覺科學(xué)家和研究長期感知問題的其他研究人員提供了框架。例如，我們的視覺系統(tǒng)是如何利用環(huán)境中的模糊來重新聚焦呢？對于世界的三維結(jié)構(gòu)，模糊可以為大腦提供什么信息呢？DeepFocus有可能提供了渲染實時模糊的最后一塊拼圖，但基于我們系統(tǒng)的前沿研究才剛剛開始。

免責(zé)聲明：本文僅代表作者個人觀點，與納金網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關(guān)內(nèi)容。

TAGS：AR VR 增強現(xiàn)實虛擬現(xiàn)實