您現在的位置是：首頁 > 遊戲

多模態人工智慧崛起，“白澤”強在哪裡？

由人民中科發表于遊戲2023-01-22

簡介單模態的預訓練主要利用影象或影片的補全、文字掩碼預測等自監督任務，可以有效地學習自身模態內部的特徵表示，從而服務於檢測、識別、跟蹤、行為理解等單模態下游任務，為物理空間中實現多源協同物體跟蹤、跨尺度物體檢測和拓撲結構的行為識別等提供技術支撐

多模態ctai價目怎麼樣

在傳統的AI認知中，視覺領域、語音領域、自然語言領域等領域之前是獨立演進的技術和應用，可以認為是單模態技術，而人是一個看、聽、說多模態共同工作的智慧體，

所以多模態技術是未來人工智慧應用發展的方向。

世界是多模態的，資訊往往同時存在於語言、聲音、影象等多個模態當中。當前人工智慧發展迅速，在自然語言處理（NLP）、自動語音識別（ASR）和計算機視覺（CV）各自領域都有重大突破，但這種單一領域的突破仍然與真實世界有著明顯不同。為構建真正理解人類世界的人工智慧，它需要有對多模態資料識別和響應的能力。

因此人工智慧的長期目標是構建多模態神經網路，即AI能夠學習不同模態之間的概念，從而更好地理解世界。

多模態學習與跨模態理解

多模態學習在多媒體領域並不新鮮。早在20世紀90年代中期，多媒體領域開始“起飛”之時，人們就開始研究多模態學習的問題。

近年來，由於多模態資料的快速增長，

多模態學習

再次受到了研究者的廣泛關注。

通常，技術的崛起很大程度上取決於底層技術的發展和突破。多模態學習對於實際系統的效能最佳化至關重要，同時也是一個難題。它通常需要將不同模態資料嵌入到一個公共表示空間中，以便進行對齊、比較和融合。

在早期，人們使用手工方法，根據先驗知識和常識尋找一個良好的嵌入空間，但如何找到最佳嵌入空間是一個極其困難的問題。而現在，藉助深度學習技術已經能夠有效地尋找良好的嵌入空間。一旦這個統一的嵌入表示空間構建成功，就能有效地對不同模態的資料進行統一的特徵表達，不僅能夠實現不同模態資料的融合，更能夠將不同模態的資訊進行相互轉換（例如：文字到影象，影片到文字等），從而實現跨模態的智慧理解與表示。

因此，跨模態理解可以理解為多模態學習的高階階段。多模態學習的早期是期望實現不同模態間資訊的融合，而

多模態學習與跨模態理解

跨模態則是更進一步實現不同模態的統一表達，從而實現不同模態資訊的相互“翻譯”和“跨越”。

“白澤”跨模態智慧內容搜尋

“白澤”搜尋引擎主頁面

“白澤”的核心技術就是以

“白澤”是人民中科跨模態智慧內容搜尋引擎，是對全網海量內容進行高通量感知、機器理解、智慧檢索並自主進化的計算平臺。

，整體架構如圖1。

圖1 “白澤”技術核心—多源異構跨模態預訓練模型及其下游技術體系

其中，

自主研發的以多源異構跨模態預訓練模型為核心及其下游多種創新技術構成的多源跨模態資料理解與搜尋的整體技術體系

。該預訓練模型充分利用了海量多源異構的網際網路資料（文字、影象、影片、AR/VR、使用者屬性、行為等）進行訓練。

基於多源異構跨模態預訓練模型提供跨模態知識和表示基礎，根據具體業務場景衍生了三大下游技術分支：

多源異構跨模態預訓練模型是整個體系的核心和知識庫

面向網路空間的跨模態搜尋技術體系

主要包括跨模態影片開集標籤生成、跨模態標題生成、跨模態影片內容搜尋、跨語種影片文字描述；

面向物理空間的跨模態搜尋技術體系

主要包括：多源協同物體跟蹤、跨尺度物體檢測、基於拓撲結構的行為識別；

面向元宇宙（混合空間）的跨模態搜尋技術體系

主要包括：多模態合成內容鑑別、多源協同偽造人臉鑑別、跨模態內容生成等。

“白澤”突破了內容的智慧理解與結構化、跨模態統一的表示與度量、高通量資料的計算成本這三大跨模態搜尋方面的核心技術，在內容的智慧理解與結構化方面真正做到了多方面、多層次。

“白澤”核心演算法

網際網路中存在著大量如：影象、音訊、影片、文字甚至不同語言的文字等多模態資料。

此外，這些資料的來源與結構也不盡相同。有的來自社交網路，有的來自使用者屬性，有的來自使用者行為等。這些資料儘管表現形式各不相同，但都是對世界資訊（world information）的一種體現。

而世界資訊作為通用的載體，相同的資訊之間具有相同的語義。因此，

例如，中文的“蘋果”和英文的“apple”都對應世界資訊中的蘋果實體，透過學習“中文-英文-圖片”這三種模態之間的對齊，即可實現“中文-圖片跨模態檢索”、“英文-圖片跨模態檢索”甚至“基於影象的中英互譯”等任務。

為此，

學習多源異質跨模態資料與世界資訊的對齊，即可以世界資訊為中介橋接各種不同的模態，並實現非常豐富的實際應用。

該模型就是一種利用網際網路上廣泛存在的大規模多源異構資料進行訓練的模型。

模型設計上，採用“

我們專門為“白澤”設計了跨語種跨模態異構預訓練大模型作為技術核心和基礎知識核心。

”和“

單模態預訓練

”兩種方式相結合。單模態的預訓練主要利用影象或影片的補全、文字掩碼預測等自監督任務，可以有效地學習自身模態內部的特徵表示，從而服務於檢測、識別、跟蹤、行為理解等單模態下游任務，為物理空間中實現多源協同物體跟蹤、跨尺度物體檢測和拓撲結構的行為識別等提供技術支撐。

多模態預訓練主要利用

多模態預訓練

，透過不同模態之間的掩碼不齊、模態對比學習、基於視覺的文字生成等代理任務，實現不同模態的對齊，從而服務於網際網路場景下的跨模態檢索、視覺問答等判別型任務及視覺-文字生成等創作型任務。

“白澤”結合對境內外多平臺內容的檢索，可跨平臺實現

圖-文、視-文

等功能。

此外，充分利用單模態捕捉區域性細節的特點以及多模態捕捉不同模態之間的語義特性，聯合訓練能夠充分發揮各自的優勢，在

文字搜圖片、文字搜影片、圖片搜影片、影片搜影片、圖片搜文字、影片搜文字

場景下的探索混合空間中，利用該模型

元宇宙

。

該模型的架構

能夠實現多模態合成內容識別、多源協同偽造人臉鑑別以及跨模態生成等虛擬現實技術，為未來在VR+AR的應用中提供先導

極大地降低了預訓練模型對資料標註數量和質量的要求，並引入外部知識自動有效地對不同模態資料的進行語義對齊。

一方面

在模型訓練過程中採用了多種學習策略，充分將自監督、弱監督、無監督各種學習模型進行協同訓練，極大地提高了訓練的效率和效果。

在使用上，“白澤”系統無需配置傳統內容搜尋所需的複雜匹配規則，透過自然語言描述即可快速檢索出相同語義的影片，可有效應對新事件和突發事件，同時不需要依賴大規模算力，資源複用率高。

透過智慧化的理解和檢索，“白澤”可實現對網際網路內容的日常巡查、對可預判的重要事件的提前預警、對輿情熱點的監測分析、對行業風險案例的解讀分析等，廣泛運用於

另一方面

等應用場景，有效幫助各網際網路主體降低內容風險，保障運營安全。

目前，

新零售、傳媒、網際網路金融、線上教育、政府、安防、資訊通訊

“白澤”企業公共服務平臺已釋出

向客戶提供

，

等產品和服務。目前已經在各級各類機構的內容風控，媒體深度融合與發展領域，以及金融、教育等應用場景發揮出不可或缺的作用。

責編：嶽青植

監製：李紅梅

上一篇：多動症兒童有哪些表現？該如何治療？

下一篇：免疫治療+化療，中國鼻咽癌患者可嘗試創新療法

您現在的位置是：首頁 > 遊戲

多模態人工智慧崛起，“白澤”強在哪裡？

相關文章

推薦文章