您現在的位置是：首頁 > 遊戲

愛奇藝“能動的海報”刷爆全網！我們距離裸眼3D還有多遠？

由大資料文摘發表于遊戲2021-12-18

3D 2D 視差 VR 技術

簡介3D電影低成本製作不再是夢大資料文摘聯絡到了愛奇藝技術產品團隊，他們表示在3D海報視差圖精修部分所涉及到的人像摳圖、人臉重建等技術還有非常多的應用前景

實體距離和眼鏡看到的距離一樣嗎

大資料文摘出品

作者：牛婉楊

不知道大家有沒有印象，小時候很多書籍封面或者小卡片都是用“光柵立體卡”做的，以光學的原理把不同的圖案印刷在特殊材料上，從不同的角度可以看到不同的畫面，將平面轉換成了3D效果。

圖片取自網路影片

現在這種光柵立體卡彷彿很少見了，但人們對於將平面立體化的研究卻從未停止，例如從1922年世界上第一部3D電影《愛情的力量》誕生開始，3D電影創造了一個又一個票房奇蹟，3D技術也一直在進化迭代。

隨著5G時代到來，VR也迎來了應用端的新紀元，而3D內容成為了構建VR生態的“主力軍”。從光柵立體卡這種實體卡片，到3D電影，再到現在火熱的VR應用

，3D技術還能給我們帶來哪些驚喜？

3D海報時代來了！

上週五，愛奇藝技術產品團隊釋出了一篇文章，文章顯示AI透過深度學習可以實現2D到3D的轉換了！這一技術可以延伸到3D海報的製作。

該團隊表示，3D海報是一張2D圖片加上其深度關係圖，透過一系列的新視點渲染，得到一組動態的，人能感知的立體影像。

為什麼會想到把海報做成3D的呢？

因為相對於2D內容，優質的3D內容有輸出符合真實景深關係的能力，使用者在觀看時具有更好的沉浸感。

那除了海報，3D轉換技術還可以用在哪裡呢？

3D轉換讓廣告也能變“套娃”？3D電影低成本製作不再是夢

大資料文摘聯絡到了愛奇藝技術產品團隊，他們表示在3D海報視差圖精修部分所涉及到的

人像摳圖、人臉重建等技術還有非常多的應用前景。

在2D轉3D技術研發的初期，他們的目的是做電影的自動2D-To-3D轉制，擴充3D內容的資源數量。3D海報其實算是研發過程中的一個“副產品”，最近他們也在計劃一些新的應用方向，如

3D直播

等。

而2D-To-3D作為一系列技術的組合，不光能進行景深預測、修圖，作為一項基礎的技術積累未來也可能應用到更多方向，例如：景深預測可以在影片廣告軟植入中根據物體的景深進入無縫的貼圖，什麼意思呢？

讓我們想象一下：

廣告中一個人從電視機前走過，那麼這個電視機裡能不能也透過系列技術讓它很自然的播放我們想要的廣告呢？

在觀眾看來，或許很難區分這是後期處理，但卻可以讓植入廣告變得更加的自然、炫酷。

另外，愛奇藝技術產品團隊還表示會在包括

內容、VR硬體平臺生態、人體重建、人機互動等方向

上繼續探索，帶來更多新奇的體驗。

我們可以大膽展望下行業以後的發展：3D製作的低成本化及自動化會促進硬體側如裸眼3D外設裝置、3D電視等硬體的發展，使用者側如VR，AR等非影院的觀影體驗行業的發展，或成為一些低成本電影或者無3D版本電影重新發行3D版本的一種選擇。

說了這麼多，那麼技術上究竟是如何實現的呢？接下來就和文摘菌一起看看是如何用AI從2D轉換成3D內容的吧~

嘗試各種新視角生成方案，終於找到看起來最不暈的那個了！

要想研究3D，就必須瞭解人眼的成像特點。為什麼我們看到的世界是立體的？因為人的左眼和右眼看到的像是有差別的，也就是所謂的視差。然而“腦子是個好東西”，這兩個角度的成像經過大腦處理之後便產生了深度。

那一隻眼睛也是可以看出立體感的啊，沒錯，因為我們在看東西時不是像照相機一樣拍下物體的瞬間，而是可以看到一個連續的畫面，所以即使一隻眼睛也可以看出遠近的距離感，只不過兩隻眼睛看到的更加立體。

所以，要想模仿人眼所看到的立體感，就要用到一個工具——

雙目相機

。沒錯，它可以模仿人雙眼的深度成像，依靠拍攝的兩張圖片（彩色RGB或者灰度圖）就可以計算深度。

圖1 雙目相機成像與視差原理

如圖1左所示，兩個相機拍攝同一場景生成的影象會存在差異，這種差異叫視差，其產於與真實的三維空間。

視差不能透過平移消除，同時離相機近的物體視差偏移較大，反之越小。

人的左右眼就如同圖中的左右相機一樣，分別獲取對應影象後，透過大腦合成處理這種差異，從而獲取真實世界的 3D 感知，透過圖 1 右可得出視差與相機焦距和軸間距間的關係：

公式（1）

其中z為物體距離相機的深度，x為三維對映到二維的影象平面，f為相機焦距，b為兩個相機間的距離軸間距，

和

分別為物體在左右不同相機中成像的座標，因此可知左右圖對應畫素

和

的視差

。

同時，考慮到轉制的物件為2D介質，因此，透過單目深度估計合成新視點的演算法原型誕生：透過公式（1）可知，假設有一個函式

那麼就有：

公式（2）

透過公式（2）可知，只需要將圖1左作為訓練輸入，圖1右作為參考，即可建立深度學習模型，透過大量雙目圖片對訓練估計出函式。這樣就可在已知相機引數（，）的前提下獲取對應的深度值，完成單目深度估計的任務。

透過公式（1）與公式（2）可以發現，深度與視差成反比，因此深度估計和視差估計的方法可以互用。Deep3D［1］雖然透過視差機率估計實現2D到3D介質的轉換，但固定視差的設定，難以適應不同解析度2D介質輸入；

方法［2］沒有充分利用雙目資訊作指導，景深不夠細；monodepth［3］在方法［2］的基礎上，充分利用了雙目資訊進行對抗指導，學習到更多深度細節；

SfmLearner［4］這類方法引入幀間時序資訊，結構較複雜，執行速度慢。因此透過實現及適用性考慮最終我們選擇以monodepth為baseline，其框架結構如圖2所示：

monodepth框架圖

透過以上方法對大量3D電影真實視差的學習與建模，完成從單目檢視到雙目檢視的轉換。這樣做的好處，一是節約了技術成本，二是適用多種場景的真實3D視差關係，使用者基本不會感到不適。

畢竟每一部3D電影的後期製作，動輒幾千萬的資金成本，需要上百人的團隊長達幾個月時間才能完成。而利用AI模型，能夠快速、批次、全自動的把2D轉製成3D內容，能極大的減少3D內容製作成本，同時以很快的速度豐富3D內容生態。

既省錢，又不暈，可以說是非常有前景的一套方案了。

類似的技術在國際上也有，前陣子Meng-Li Shih團隊在CVPR2020上發表了一篇論文，透過上下文感知三維影象分層深度修復技術，可以把2D照片變為3D。

該團隊稱，他們提出了一種方法，將單個RGB-D輸入影象轉換為3D照片，即這是一種新穎檢視合成的多層表示，包含了原始檢視中被遮擋區域的幻覺顏色和深度結構。他們使用具有顯式畫素連線的分層深度影象作為底層表示，並提出了一個基於學習的inpainting模型，該模型以空間上下文感知的方式迭代地將新的區域性顏色和深度內容合成到閉塞區域。生成的3D照片可以有效地使用標準圖形引擎的運動視差進行呈現。

Meng-Li Shih團隊的3D轉換成果

相關連結：

https：//shihmengli。github。io/3D-Photo-Inpainting/

那愛奇藝的這次3D變換在技術上與CVPR2020這篇論文中提到的技術有什麼區別嗎？

愛奇藝團隊稱，他們對這篇文章也有所關注，其本質是基於已知深度的影象修復，其作用與他們後處理中引入的Gated-conv結構類似，實際測試發現，前者在單幀的情況下某些場景空洞修補的效果較好，但是連續幀測試會出現修補部分幀間不連續問題，體現為影片抖動。

愛奇藝團隊認為Gated-conv結構較為輕量，可實現連續幀的end-to-end訓練，幀間連續修補效果好一些。

隨著AI領域的發展，3D內容將迎來更多可能

不知道大家是否像文摘菌一樣好奇，他們是怎麼想到這個idea的呢？

愛奇藝稱，他們團隊主要的研究方向是計算機視覺，而且團隊裡有資深的演算法成員具備豐富的3D視覺經驗，同時結合愛奇藝自身的業務，他們便開始了2D轉3D這一創新研究。

儘管專案初期非常艱難，影片內容的2D轉3D少有研究可以借鑑，他們嘗試了非常多的方案都很不理想。好不容易可以在技術上實現2D轉3D，又發現還有幀間抖動、物體空洞、物體邊緣和背景存在模糊流動區域等非常影響觀眾體驗的問題。

為了解決以上問題，他們採用BicycleGAN的“雙輪訓練”結構來解決不同資料集相機引數不同帶來的問題，video2video的結構來解決幀間預測不連續的問題，用影象修復中的Gated-conv結構作為後處理網路以解決插值空洞的問題。

AI模型生成的3D紅藍視差圖（3D紅藍視差圖是能夠表現出靜態視差的圖，帶上常見的紅藍眼鏡即可看到有3D效果的畫面）

現在看來，能有如此效果已經非常棒了。愛奇藝團隊也表示，這項技術目前已經申請了一些專利，更多專利申請在進行中。

未來，一方面他們還會繼續繼續最佳化模型，

將模型應用拓展到更多的應用方向；

另一方面，還會繼續結合目標檢測、摳圖、影象修補等技術來完成對特定場景下的景深修正，

來更逼真的還原那些特效場景。

在這漫長的研發過程中，他們也會遇到挫折，甚至陷入了瓶頸期。

團隊中多是剛畢業沒多久的的年輕人，很多人第一次接觸3D視覺這個方向，在初期有一大段時間陷入研發瓶頸期，大家的情緒上都難免有所懈怠氣餒。

怎麼解決？

在他們眼中，沒什麼是一頓火鍋解決不了的！如果不行，那就兩頓！

2D轉3D對影片/影視行業的價值思考

在過去3D技術應用創造商業價值，受制於兩個方面：在硬體層面，拿前兩年火熱的3D電視舉例，限制3D技術應用發展的其實是內容。一部昂貴的3D電視，結果花不了多少時間就把所有能看的3D內容全看完了，之後就淪為一臺普通的電視。

而VR裝置除了3D內容的缺乏因素，還有笨重、眩暈、清晰度等硬體技術上的問題，不過近兩年VR裝置都在快速進行產品迭代最佳化，相信未來幾年VR裝置能夠更輕更強大，帶給使用者更好的體驗。甚至是類似Google Glass之類的輕量級VR眼鏡也不是沒有可能出現。

軟體和技術層面，2D轉3D技術其實近年來也不乏有相關研究，但是更多的是在2D圖片轉成有3D立體感的圖片（類似3D海報應用）上，而能夠將影片轉製成3D並且保留良好觀影體驗，甚至從效果上很難區分是原生3D還是AI模型轉制的3D，這個是比較難做到的，愛奇藝在這個領域的研究具備一些優勢。

但有挑戰也就充滿機遇：

在影視行業每一部3D電影的後期製作，動輒幾千萬起步的資金成本，上百人團隊長達幾個月時間和人力成本，都是阻礙3D內容豐富發展的痛點。但成熟的AI模型也許能夠快速、批次、全自動的把2D轉製成3D內容，能極大的減少電影公司的製作成本，同時以很快的速度豐富公司的3D內容生態，同時研發過程中積累的技術和內容，能夠為之後幾年的5G、VR、AR的發展提供一些積累。

隨著5G技術的應用，更快的網路傳輸能夠承載更多的資訊，大型的實時場景如春晚、體育賽事的直播等內容，可能在很短時間內就能在VR端得到普及。以往VR場景裡3D內容的缺乏是行業內的一個痛點，但是如果AI能夠快速、批次、全自動製作3D內容，也許能更加繁榮VR行業。

此外，隨著三維感測器的快速發展，還有智慧移動機器人、無人駕駛、AR等三維應用場景快速發展衍生的強烈需求。近幾年三維視覺技術開始從實驗室走向尋常百姓家，服務於人們的生活和娛樂，如掃地機器人移動中的避障、復原文化古蹟的三維結構等，也創造了更多的3D技術應用場景。

上一篇：衛子夫受漢武帝寵愛30多年，為何最終卻自盡而死？

下一篇：《克魯蘇的呼喚》：即使仍有不足，那也是目前最好的克魯蘇遊戲！