您現在的位置是:首頁 > 藝術

JCIM|基於圖神經網路的深度學習預測溶劑化自由能

由 中大唯信 發表于 藝術2023-01-18
簡介本文研究中,作者提出了一種化學可解釋圖相互作用網路(CIGIN),用於預測有機小分子在任何常用有機溶劑中的溶劑化自由能

溶劑化結構怎麼理解

JCIM|基於圖神經網路的深度學習預測溶劑化自由能

引言

溶劑化自由能是影響各種化學和生物學過程的基本屬性,例如反應速率、蛋白質摺疊、藥物結合和藥物的生物利用度等等。本工作中,作者提出了一種基於圖網路的深度學習方法,可以準確地預測有機小分子的溶劑化自由能。所提出的深度學習模型包括三個階段,即資訊傳遞、相互作用和預測,能夠預測任何通用有機溶劑中的溶劑化自由能,平均絕對誤差為0。16 kcal/mol。在準確性方面,當前模型目前優於所有此前提出的基於機器學習的其他模型。此外,作者對基於機器學習的模型的魯棒性進行了全面測試,並通過幾個示例驗證了其解釋預測的能力。

背景介紹

溶劑化是一個主要由溶質和溶劑分子之間相互作用的性質驅動的過程,在許多物理、化學和生物過程中具有極其重要的意義。大多數化學和生物過程都在溶液中發生,因此,溶劑化自由能起著核心作用。溶劑化自由能與分子設計中至關重要的許多目標特性以及其他重要應用有關,並且可以使用溶劑化自由能來評估藥代動力學性質,即分佈和吸收。當前溶劑化自由能的計算通常使用分子動力學(MD)模擬進行,並且主要使用鍊金術自由能方法進行。兩種最常用的鍊金術方法是自由能微擾(FEP)和熱力學積分(TI)。這些方法已顯示出與實驗結果相媲美的自由能值,但同時這些方法在計算上也是昂貴的,這使得定量快速和準確地估計溶劑化自由能難以實現。

在過去的幾年中,已經提出了幾種使用FreeSolv資料集的機器學習方法來預測類藥物分子的水溶性。這些方法固有地限於對單一溶劑(水)的溶劑化自由能的預測,並且不能推廣到所有有機溶劑。最近,Lim和Jung提出了一種模型“Delfos”,該模型使用遞迴神經網路來預測分子在任何通用溶劑中的溶解度。在Delfos模型中,使用Mol2Vec特徵化手段從SMILES序列獲得分子embedding。儘管SMILES表示已被廣泛用作類藥物分子的特徵表示,但近年來已廣泛轉向基於化學圖的表示。這主要是因為SMILES表示方法的侷限性:首先,SMILES表示沒有明確說明分子相似性,使得使用基於深度學習的模型學習SMILES語法存在一些挑戰;另一方面,基於化學圖的表示形式可以恰當地捕獲分子結構,並且可以更輕鬆地對與化學性質相關的藥效團進行建模。

本文研究中,作者提出了一種化學可解釋圖相互作用網路(CIGIN),用於預測有機小分子在任何常用有機溶劑中的溶劑化自由能。該方法在分子圖上工作,使用資訊傳遞神經網路(MPNN)和相互作用層精確地模擬溶劑化自由能,並且作為預測任務的一部分計算出的相互作用圖能夠解釋溶劑化自由能的大小。作者進行了廣泛的分析以評估模型的預測能力和魯棒性,並且使用了幾個示例來證明相互作用圖的化學可解釋性。此外,作者以前藥開發為例說明了該模型的潛在用例。

方法

資料集:

結合使用Solv@TUM資料庫和FreeSolv資料集。Solv@TUM資料庫具有5952個溶劑化自由能的實驗值。使用由元素C,H,N,O,F,P,Cl,S,Br和I組成的分子,其餘的元素被濾出,總共形成5597個唯一的溶質-溶劑對。由於此資料集僅包含非水溶劑中的溶劑化自由能,因此將包含642種有機分子的水合自由能的FreeSolv資料集與該資料集結合,這樣就得到了總共6239種獨特的溶質-溶劑對組合,其中包括935種獨特的溶質和146種獨特的溶劑。使用RDKit處理最終資料集以構建分子圖。

分子圖:

使用RDKit提取分子給定的節點(原子)和邊(鍵)特徵,並使用Deep Graph Library(DGL)製備分子圖。

建模:

如圖1所示,所提出的模型包括三個不同的階段:資訊傳遞階段、相互作用階段和預測階段。

訓練:

所有的訓練、驗證和分析都是使用PyTorch框架進行,將資料集分為10個子集,其中1個用作測試集,其餘9個成為訓練集。此外,為了確保測試集的最小差異,進行了五次獨立的10倍交叉驗證。

JCIM|基於圖神經網路的深度學習預測溶劑化自由能

圖1。 基於圖神經網路的體系結構

圖片源自JCIM

結果1. CIGIN預測的化學準確性和模型的魯棒性

作者統計了相對於不同溶劑-溶質對的實驗溶劑化自由能和預測溶劑化自由能之間的相關性。兩者之間達到了近乎完美的線性關係,R2值為0。98,即超過98%的預測值都在實驗溶劑化自由能值的1 kcal/mol的差值之內。同時還比較了CIGIN模型的不同變體相對應的MAEs,CIGIN模型在五個獨立的10倍交叉驗證中獲得的預測溶劑化自由能的準確性很高,平均絕對誤差為0。16±0。01。此外,作者透過去除模型不同的階段來檢驗每個階段的重要性,如透過資訊傳遞層學習分子embedding可以幫助模型更好地捕獲影響溶解度的特徵。表1比較了MoleculeNet中提供的CIGIN、Delfos和MPNN基準測試的效能,顯示CIGIN優於其他兩個,並且在測試集上獲得0。76±0。11的高精度。這也證明了原子間相互作用的共同學習有助於模型獲得更好的效能。

JCIM|基於圖神經網路的深度學習預測溶劑化自由能

表1。 使用平均絕對誤差(kcal/mol)在FreeSolv資料集上比較CIGIN(本工作),Delfos和MPNN模型的效能

表格源自JCIM

結果2. 模型學到的化學資訊

機器學習應用(尤其是自然科學)的主要質疑之一是缺乏可解釋性。為了使CIGIN模型有用,它不應僅僅是黑匣子模型,而應提供有意義的化學資訊和解釋。如分子間相互作用的估計:CIGIN模型中的相互作用階段旨在量化所有溶質-溶劑原子對之間的原子間相互作用。圖2中給出了對叔丁醇和乙醇溶質-溶劑對的相互作用圖。5×3矩陣對應於溶質的所有非氫原子與溶劑分子之間的相互作用。所計算的相互作用圖的最小-最大歸一化值被描繪為熱圖。在兩個氧原子之間觀察到最有利的相互作用,從化學意義上講這意味著氫鍵相互作用。在乙醇的氧和叔丁醇的中心碳之間觀察到最小的相互作用,這是由於中心碳原子不可及及其疏水性,這種相互作用是不利的;而在末端碳之間觀察到中間值,這可以認為是疏水性貢獻。

JCIM|基於圖神經網路的深度學習預測溶劑化自由能

圖2。 叔丁醇(溶質)和乙醇(溶劑)原子之間的相互作用圖以及預測的溶劑化自由能

圖片源自JCIM

結果3.在分子設計中的應用

CIGIN模型中引入的相互作用圖的概念有助於理解原子級別的細節,尤其是當分子設計涉及兩個實體的時候(例如,透過最大化與某種蛋白質的相互作用來設計分子)。以前藥設計為例,設計前藥涉及對高價值候選藥物進行化學修飾,以改善其藥代動力學特性並降低其毒性。例如,對藥物進行化學修飾可有效地用於改變其溶解度,從而可提高其生物利用度;或者如果分子太親水,則可以使用某些取代基團來增加親脂性,從而改善跨細胞膜的滲透性。圖3中提供了兩個這樣的例子。其中Penciclovir是一種核苷類似物,它是有效的抗病毒藥物。但是,該藥物的口服生物利用度僅為4%,經過化學修飾後可提高到75%以上,其前藥famciclovir透過酯酶和氧化作用轉化為原始藥物。Penciclovir與其前藥之間的ΔΔGhyd(目的是使前者更具親脂性)為8。60 kcal/mol。CIGIN模型所做的這些預測很好地證實了實驗觀察,並且從藥物到前藥分子的相互作用圖譜的變化解釋了原子效應。因此,當需要對分子進行化學修飾以最佳化其溶解度分佈圖時,本文提出的預測模型以及相互作用圖不僅可以用於準確的預測,而且可以透過相互作用圖指導的定向修飾來幫助進行有效的最佳化。

JCIM|基於圖神經網路的深度學習預測溶劑化自由能

圖3。 (a) Penciclovir及其前藥famciclovir。(b)雙氯芬酸及其前藥雙氯芬酸和甘油複合物

圖片源自JCIM

總結

本文作者提出了一種基於圖神經網路來預測有機分子在任何通用有機溶劑中的溶解度的新穎方法。所提出的模型框架包括三個階段,即資訊傳遞、相互作用和預測階段。溶質原子與溶劑原子之間的原子間相互作用是透過相互作用圖在端到端過程中共同學習的。通過幾個示例說明在相互作用圖中可以捕獲不同的化學相互作用。同時透過實際使用案例,作者展示了其在前藥開發中的潛在應用。最後值得一提的是,本文提出的模型可以用於研究任何兩個分子系統之間的相互作用,例如藥物-靶標相互作用,引入的相互作用圖可以用於在最佳化分子的分子特徵時提供一定最佳化的方向和參考。

程式碼下載地址

https://github。com/devalab/CIGIN/tree/master/CIGIN_V2

參考文獻

Yashaswi Pathak, Sarvesh Mehta and U。 Deva Priyakumar, Learning Atomic Interactions through Solvation Free Energy Prediction Using Graph Neural Networks, J。 Chem。 Inf。 Model。 2021, 61, 2, 689-698。 DOI: 10。1021/acs。jcim。0c01413。

相關文章

JCIM | 靶向藥物設計方法:深度學習與水藥效團模型的結合

Nature Machine Intelligence | 基於開箱即用的深度學習的藥物特性預測

JCIM | AIScaffold: 基於深度學習的線上骨架衍生工具

JCIM | 深度學習加速新型靶蛋白的藥物從頭設計

JMC | 藥物化學中的分子表徵學習

JCIM|基於圖神經網路的深度學習預測溶劑化自由能

推薦文章