您現在的位置是：首頁 > 遊戲

機器之心的進化——現實世界的AI

由冰巴克發表于遊戲2023-01-26

簡介配圖22：The Architecture of Tesla AutoPilotFSD 的自動駕駛步驟大概如下：視覺影像收集：透過車載的 6 個 1280x960 解析度的攝像頭，採集 12bit 色深的影片，識別出環境中的各種物體和 Tr

ai裡面怎麼加陰影

轉自 INDIGO 的數字映象

過去對無人操作電梯的擔憂與我們今天聽到的對無人駕駛汽車的擔憂十分相似。——Garry Kasparov

現實世界的 AI（Real World AI），按照 Elon Musk 的定義就是 “模仿人類來感知和理解周圍的世界的 AI”，它們是可以與人類世界共處的智慧機器。我們在本文前面四章中提到的用 AI 來解決的問題，大多數都是你輸入資料或者提出目標，然後 AI 反饋給你結果或者完成目標，很少涉及和真實世界的環境互動。在真實世界中，收集大量資料是極其困難的，除非像 Tesla 一樣擁有幾百萬輛帶著攝像頭還實時聯網的電車來幫你採集資料；其次感知、計劃再到行動，應該會涉及到多種神經網路和智慧演算法的組合，就像大腦控制人的行為那樣，這同樣也是對研發和工程學的極端挑戰。但在 Transformer 模型誕生之後，能夠征服現實世界的 AI 又有了新的進展。

5.1 自動駕駛新前沿

就在前幾周 Ford 旗下的 Argo AI 宣佈倒閉，一時間又給備受爭議的自動駕駛領域蒙上了陰影。目前還沒有一家做自動駕駛方案的公司真正盈利，除了傳奇的 George Hotz 所創辦的 Comma。ai，這個當年 Elon Musk 都沒撬動的軟體工程師和高階駭客。

技術路線的選擇

一輛可以自動駕駛汽車，實際上就是一臺是需要同時解決硬體和軟體問題的機器人。它需要用攝像頭、雷達或其他硬體裝置來感知周圍環境，軟體則是在瞭解環境和物理位置的情況下規劃路線，最終讓車輛駛達目的地。

目前的自動駕駛主要兩大流派：純視覺的系統和基於鐳射雷達的系統。Google 的 Waymo 是鐳射雷達方案的先驅，還有剛破產的 Argo AI 也是，其實大部分都是這個流派，因為優勢很明顯，鐳射雷達可以精準的識別三維世界，不需要太複雜的神經網路訓練就能輕鬆上路，但大功率鐳射雷達的成本是個大問題；採用純視覺方案的只有 Tesla 和 Comma 這樣的另類公司，它們完全靠攝像頭和軟體，無需任何輔助感知硬體。

鐳射雷達還有另一個問題，它眼中的世界沒有色彩也沒有紋理，必須配合攝像頭才能描繪真實世界的樣子。但兩種資料混合起來會讓演算法極其複雜，因此 Tesla 完全放棄了鐳射雷達，甚至是超聲波雷達，節省成本是很重要的一個原因，另一個原因是現實世界都道路都是為人類駕駛設計的，人只靠視覺就能完成這個任務為什麼人工智慧不行？這個理由很具 Elon Musk 的風格，只需要加大在神經網路上的研發投入就可以。

Waymo 和 Tesla 是自動駕駛領域的領跑者，Gartner 的副總裁 Mike Ramsey 這樣評價：“如果目標是為大眾提供自動駕駛輔助，那麼 Tesla 已經很接近了；如果目標讓車輛能夠安全的自動行駛，那麼 Waymo 正在取得勝利”。Waymo 是 Level 4，可以在有限的地理條件下自動駕駛，不需要司機監督，但驅動它的技術還沒有準備好讓其在測試領域之外的大眾市場上使用，而且造價昂貴。從 2015 年開始，Tesla 花了六年多的時間趕上了 Waymo 現在的測試資料，同時用於自動駕駛的硬體越來越少，成本越來越低。Tesla 的戰略很有意思：“自動駕駛要適應任何道路，讓車像人一樣思考”，如果成功的話，它的可擴充套件性會大得多。

讓車看見和思考

Tesla 在 AI 上的押注是從 2017 年 Andrej Karpathy 的加入開始的，一個靈魂人物確實能改變一個行業。Andrej 領導的 AI 團隊完全重構了原有的自動駕駛技術，採用最新的神經網路模型 Transformer 訓練了完全基於視覺的自動導航系統 FSD Beta 10，在 2021 年的 AI Day 上，Tesla AI 團隊也毫無保留了分享了這些最新的研發成果，目的是為了招募更多人才加入。

為了讓車可以像人一樣思考，Tesla 模擬了人類大腦處理視覺資訊的方式，這是一套的由多種神經網路和邏輯演算法組合而成的複雜流程。

配圖22：The Architecture of Tesla AutoPilot

FSD 的自動駕駛步驟大概如下：

視覺影像收集：透過車載的 6 個 1280x960 解析度的攝像頭，採集 12bit 色深的影片，識別出環境中的各種物體和 Triggers（道路情況）

向量空間生成：人類看到的世界是大腦根據感知資料實時構建還原的三維世界，Tesla 用同樣的機制把車周圍世界的全部資訊都投射到四維向量空間中，再做成動態的 BEV 鳥瞰圖，讓車在立體的空間中行使和預測，從而可以精準控制。在 2021 年之前採用的是基於 Transformer 模型的 HydraNets，現在已經升級到最新的 Occupancy Networks，它可以更加精準的識別物體在 3D 空間中的佔用情況

神經網路路線規劃：採用蒙特卡洛演算法（mcts）在神經網路的引導下計算，快速完成自己路徑的搜尋規劃，而且演算法還能給所有移動的目標都做計劃，並且可以及時改變計劃。看別人的反應作出自己的決策，這不就是人類思維麼？

Tesla FSD 能夠如此快速的感知和決策，還得靠背後超級電腦 Tesla Dojo 的神經網路訓練，這和 OpenAI 還有 Google 訓練 LLMs 類似，只不過這些資料不來自網際網路，而是跑在路上的每一輛 Tesla 汽車，透過 Shadow Mode 為 Dojo 提供真實的 3D 空間訓練資料。

大自然選擇了眼睛來作為最重要的資訊獲取器官，也許是冥冥之中的進化必然。一個有理論認為 5。3 億年前的寒武紀物種大爆發的部分原因是因為能看見世界了，它讓新的物種可以在快速變化的環境中移動和導航、規劃行動了先和環境做出互動，生存機率大幅提高。同理，讓機器能看見，會不會一樣讓這個新物種大爆發呢？

5.2 不是機器人，是智慧代理

並不是所有的機器人都具備感知現實世界的智慧。對於一個在倉庫搬運貨物的機器人來說，它們不需要大量的 Deep Learning，因為環境是已知的和可預測的，大部分在特定環境中使用的自動駕駛汽車也是一樣的道理。就像讓人驚歎的 Boston Dynamic 公司機器人的舞蹈，他們有世界上最好的機器人控制技術，但要做那些安排好的動作，用程式把規則寫好就行。很多看官都會覺得 Tesla 在今年九月釋出的機器人 Tesla Optimus 那慢悠悠的動作和 Boston Dynamic 的沒法比，但擁有一個優秀的機器大腦和可以量產的設計更重要。

自動駕駛和真實世界互動的核心是安全，不要發生碰撞；但 AI 驅動的機器人的核心是和真實世界發生互動，理解語音，抓握避讓物體，完成人類下達的指令。驅動 Tesla 汽車的 FSD 技術同樣會用來驅動 Tesla Optimus 機器人，他們有相同的心臟（FSD Computer）和相同的大腦（Tesla Dojo）。但訓練機器人比訓練自動駕駛還要困難，畢竟沒有幾百萬個已經投入使用的 Optimus 幫你從現實世界採集資料，這時 Metaverse 概念中的虛擬世界就能展露拳腳了。

虛擬世界中的模擬真實

為機器人感知世界建立新的基礎模型將需要跨越不同環境大量資料集，那些虛擬環境、機器人互動、人類的影片、以及自然語言都可以成為這些模型的有用資料來源，學界對使用這些資料在虛擬環境中訓練的智慧代理有個專門的分類 EAI（Embodied artificial intelligence）。在這一點上，李飛飛再次走在了前列，她的團隊釋出了一個標準化的模擬資料集 BEHAVIOR，包含 100 個類人常見動作，例如撿玩具、擦桌子、清潔地板等等，EAI 們可以在任何虛擬世界中進行測試，希望這個專案能像 ImageNet 那樣對人工智慧的訓練資料領域有傑出的學術貢獻。

在虛擬世界中做模擬，Meta 和 Nvidia 自然不能缺席。佐治亞理工學院的計算機科學家 Dhruv Batra 也是 Meta AI 團隊的主管，他們創造了一個名叫 AI 棲息地（AI Habitat）虛擬世界，目標是希望提高模擬速度。在這裡智慧代理只需掛機 20 分鐘，就可以學成 20 年的模擬經驗，這真是元宇宙一分鐘，人間一年呀。Nvidia 除了給機器人提供計算模組之外，由 Omniverse 平臺提供支援的 NVIDIA Isaac Sim 是一款可擴充套件的機器人模擬器與合成數據生成工具，它能提供逼真的虛擬環境和物理引擎，用於開發、測試和管理智慧代理。

機器人本質上是具體化的智慧代理，許多研究人員發現在虛擬世界中訓練成本低廉、受益良多。隨著參與到這個領域的公司越來越多，那麼資料和訓練的需求也會越來越大，勢必會有新的適合 EAI 的基礎模型誕生，這裡面潛力巨大。

Amazon Prime 最新的科幻劇集《The Peripheral》，改編自 William Gibson 在 2014 年的出版的同名小說，女主角就可以透過腦機介面進入到未來的智慧代理。以前一直覺得 Metaverse 是人類用來逃避現實世界的，但對於機器人來說，在 Metaverse 中修行才是用來征服現實世界的。

ARK Invest 在他們的 Big Ideas 2022 報告中提到，根據萊特定律，AI 相對計算單元（RCU - AI Relative Compute Unit）的生產成本可以每年下降 39%，軟體的改進則可以在未來八年內貢獻額外 37% 的成本下降。換句話說，到 2030 年，硬體和軟體的融合可以讓人工智慧訓練的成本以每年 60% 的速度下降。