您現在的位置是:首頁 > 飲食

演算法、算力、資料,AI落地現在還需要AI工程化

由 鈦媒體APP 發表于 飲食2022-10-02
簡介這意味著,在當下場景落地成為主流的階段,並非只具備了精巧的演算法、充沛的算力、足夠的資料就一定能夠做好AI場景應用、實現好技術的價值——正如Gartner所言,“AI 要成為企業的生產力,就必須以工程化的技術來解決模型開發、訓練、預測等全鏈

嘎賽膏南昌話什麼意思

演算法、算力、資料,AI落地現在還需要AI工程化

圖片來源@視覺中國

文|智慧相對論,作者|葉遠風

2020年,Gartner釋出《2021年重要戰略技術趨勢》,認為AI工程化(AI Engineering)將是“需要深挖的趨勢”,到了2021年年底,在Gartner的《2022年十二大重要戰略技術趨勢》中,AI工程化又被進一步明確為未來三到五年“企業數字業務創新的加速器”;

幾乎就在同一時期,阿里釋出面向AI工程化的一體化大資料和AI產品體系“靈傑”,稱要推動“AI落地正規化的升級,共同推動AI產業邁向新的增長”;

到了不久前落幕的服貿會上,人工智慧資料企業雲測資料釋出了面向AI工程化的新一代資料解決方案,其價值設定為“高度支援企業所需資料的高效流轉、持續進行資料處理任務,提高規模化生產效率”;

而即將召開的由 LF AI & DATA 基金會主辦、關注AI領域前沿革新的 AICON 2022,將為AI工程化設定專門的分論壇……

毫無疑問,在AI加速實現場景落地的今天,“AI工程化”已經成為行業普遍的議題,被認為是AI發展必然的趨勢之一。

什麼是AI工程化?

按Gartner比較官方的定義,是“使用資料處理、預訓練模型、機器學習流水線(MLOps) 等開發AI軟體的技術統稱,幫助企業更高效的利用AI創造價值”。“智慧相對論”認為,AI工程化更簡單的理解,就是已經十分成熟的軟體工程將“軟體”擴充套件到AI後的一種針對AI開發特點的適配與進化,透過系統化、規範化、可度量地使用各種工程方法和工具,確保AI軟體能夠達到預期。

AI工程化為什麼得到從權威機構、網際網路大廠到資料服務創新企業的普遍重視?這可能要從AI發展的階段性需求談起。

演算法、算力、資料……AI落地現在還需要AI工程化

AI的發展有標準的演算法、算力、資料三要素,在Gartner看來,任何一個行業、企業,只要有場景,有積累的資料,有算力,都可以落地AI應用。但Gartner同時指出,落地的效率、週期可能會遠超預期,其研究擺明,“只有53%的專案能夠從AI原型有效轉化為生產”。

這意味著,在當下場景落地成為主流的階段,並非只具備了精巧的演算法、充沛的算力、足夠的資料就一定能夠做好AI場景應用、實現好技術的價值——正如Gartner所言,“AI 要成為企業的生產力,就必須以工程化的技術來解決模型開發、訓練、預測等全鏈路生命週期的問題。”

“智慧相對論”認為,傳統的軟體工程針對“產品”,主要經歷需求分析、系統設計、程式碼實現、驗證、釋出以及運維的過程,瀑布式的流水線走下來,“產品”做好了發出去、做做售後就可以了。

而AI的場景落地雖然也給出的是“產品”,但其背後本質上是一系列智慧化“能力”的組合。既然是能力,開發流程就與傳統軟體有較大出入,是問題抽象、資料準備、演算法設計、模型訓練、模型評估與調優、模型部署的過程,在部署之後,還需要根據場景實踐不斷反饋到資料準備和演算法設計上,從而讓AI的“能力”不斷接近和達到預期。

因此,傳統的軟體工程體系做法已經無法支撐AI開發的需要,必須要有新的方式來推動,AI工程化提供了專門適配AI開發的一系列方法、工具和實踐的集合,就起到了這個價值,為算力、演算法和資料提供了新的利用方式,持續為場景創造價值。

這也說明,大規模落地階段,AI工程化更加被深刻需要。

而除了能夠積極推動AI開發的效率和效果,隨著AI的大規模場景落地,開發過程中所面臨的日益嚴峻的風險問題的規避,也迫切呼喚AI工程化。

這一點,尤其體現在資料安全上——大批次的資料、極為繁雜的資料傳遞過程,造成了越來越明顯的資料安全隱患和越來越難以承受的資料安全事故級別,必須有對應系統化應對機制而不能只是片面的“補漏洞”。

所以,可以看到雲測資料給出的解決方案就特別強調了資料安全的能力,包括了一套安全交付的標準和多個ISO企業安全體系認證。

以安全交付標準為例,方案嘗試在硬體配置、網路安全、物理安全、人員安全管理上都進行能力設定,這些能力針對AI開發中涉及資料儲存、傳輸的方方面面,以事先體系化佈局而不是事後一個個補漏的方式來規避資料安全風險,而這,就是“工程化”的直觀表達。

透過面向資料服務的AI工程化過程,資料安全的提升是顯而易見的。例如,最直觀的,由於這套體系讓資料儲存、資料標註、資料傳遞等有統一的管理,如果能夠有效落地,將實現資料的流轉等不需要經過人力環節(人力主要負責工單而不是資料本身的流轉,比如不用人力遞送資料硬碟),這使得AI開發的資料環節大大降低了對人的依賴,減少了失誤等風險發生的可能性。

正向的促進作用,規避負向的風險,AI工程化成為趨勢也就成為必然。

水到渠成,AI工程化是AI軟體開發不斷成熟的結果

Gartner在《2022年十二大重要戰略技術趨勢》認為,到2025年,前10%做到AI工程化最佳實踐的企業相對於之後90%的企業,將從AI創新中得到超過3倍的價值,足見AI工程化的重要性。

所以,相關企業尋求AI工程化成為一種必要,也催生出較為廣闊的產業鏈機遇空間。

只不過,從已有的行業引領性動作來看,AI工程化雖然是某種程度上的藍海市場,但卻並非人人都可以參與進來提供相關的解決方案以獲取市場機會。

目前而言,市面上大體有兩種面向AI工程化的做法,但無論哪種,都基於已有的AI開發實踐或服務積累,不是憑空而來,是長期的AI工程化實踐(但沒有喊出這個概念)抽離、整合而來。

一種是AI開發框架型,也即原本就提供AI開發服務的各種深度學習框架,將服務延展而來,其優勢在於AI框架原本就是AI領域的基礎軟體,處於承上啟下的位置,提供面向AI工程化的服務“近水樓臺”。

這方面,以Google、Meta等科技巨頭為代表,國內有華為、百度等,以TensorFlow、PyTorch、MindSpore、PaddlePaddle等各自的深度學習框架為基礎,提供一系列與AI工程相關的生態技術和工具,如領域套件、模型視覺化工具、除錯調優工具、高階API等。

另一種是AI服務平臺型,也即過去為企業提供算力、演算法、資料相關服務的企業,隨著客戶需求的發展專門提供面向AI工程化的能力。阿里的“靈傑”(演算法方面)與雲測資料面向AI工程化的解決方案(資料方面)都是如此。

以雲測資料為例,其解決方案提供豐富的資料標註工具。

以及一個在流程和邏輯上閉環的資料流轉管理體系(這個體系也可以幫助對AI工程化究竟做了什麼有比較直觀的印象)。

而這兩大內容,顯然不是一個新晉玩家所能提供的,它們都源於企業過去向AI企業提供通用資料集、資料標註平臺與資料管理系統等生產工具以及多年的AI訓練資料服務的行業成熟經驗。

雲測資料的主要業務是面向智慧駕駛、智慧城市、智慧家居、智慧金融、新零售等眾多領域提供一站式AI資料處理服務,已經先後推出過“雲測資料標註平臺”、“AI資料集管理系統”等面向市場的成果,其資料標註精度最高做到了99。99%,曾幫助某自動駕駛車企實現資料清洗、標註工作與原流程相比提升2倍的流轉效率。

可以看到,正是因為過去實現了從“資料原料”到最後的“資料成品”全鏈條打通,做到場景資料專業化、高質量交付,有足夠的技術成熟度和標註經驗與管理流程,現在面向AI工程化的資料解決方案才能呈現出來。

而更進一步看,AI工程化機遇只屬於有行業經驗的企業,也促成後者能夠進行更多業務合作的探索,商業空間進一步開啟,生態合作的內容進一步豐富。

例如,AI的開發工作除了技術性的內容,還離不開AI人力相關的管理,離不開專案管理,而云測資料基於其過去在資料方面的人才、專案管理經驗,在解決方案中也提供有匹配人員管理與專案管理的一套並行的體系作為支撐,包括招聘體系、專案管理體系、責任安全體系等,其本質是以認知資源的共享換取商業價值,典型如,雲測資料更瞭解資料標註人才的需要、更知道從哪裡可以找到特定的人才、如何培育人才、更知道怎麼管理專案。

當然,作為一種根本上的To B服務,儘管有先天優勢,但不管是百度、阿里,還是雲測資料來做面向AI工程化的資料服務,其落地還需要考慮對不同AI開發企業的適配,畢竟AI工程化是系統工程,牽扯麵往往較廣。

這方面,透過API整合遮蔽不同企業的差異、做到廣泛適配是服務方的共識,例如雲測資料的解決方案中就透過標準協議介面、資料價值視覺化、資料處理工作臺、資料許可權管理來讓不同企業的管理體系都能快速進行對接。

AI應用的“工業化大生產”來臨,AI工程化與大模型匯流

AI工程化的價值和機遇不僅在於AI開發過程,其對大模型的促進作用也不容忽視。

從更宏觀的視野看,AI工程化的趨勢與當下AI領域的熱點大模型一樣,都是在推動AI“工業化大生產”(高效率的批次化AI落地,而不是作坊式的一個個生產),只不過一個從開發全過程出發,一個從模型本身出發。

二者碰撞到一起並非只是一種巧合,AI工程化與大模型也在實現著協同。

一方面,這體現在大模型開發本身,也即“預訓練”階段的工程化。

例如,知名NLP領域的大模型GPT-3其模型複雜度非常高,僅模型引數就高達1750億個,訓練資料量達到45TB,訓練出的模型有700GB大小。

這麼複雜的工作,肯定不是有了演算法、算力以及資料就能搞定的,其開發工作有31位參與者,形成了一套在資料處理、模型設計、程式碼編寫、除錯引數等領域各司其職的複雜工作體系來保障工作的順利推進,其本質就是AI工程化。

另一方面,這體現在大模型的場景調優上,也即“微調”階段的工程化。

大模型時代許多場景下的模型只要基於基礎大模型進行微調便可以產生優質的場景應用,雲測資料總經理賈宇航認為,AI工程化在這個“微調”的階段將起到重要的作用,幫助更多場景應用高效、高質量交付與持續最佳化。

當然,也有預訓練階段與“微調”階段通吃的AI工程化服務做法,例如阿里的“靈傑”就宣稱既可以實現超大規模模型的構建,也可以實現垂直場景小模型“蒸餾”。

無論如何,AI工程化與大模型匯流,共同推動AI應用加速實現更廣泛、更優質的場景落地,這其中湧現了新的商業合作機遇,但更重要的是在工程化開發與預訓練的優勢疊加下,AI將真正走入千行百業,變得更加普惠。

推薦文章