
上海有機(jī)所交叉中心開(kāi)發(fā)結(jié)構(gòu)信息驅(qū)動(dòng)的深度生成模型MetGenX用于代謝物鑒定
在代謝組學(xué)研究中,未知代謝物的結(jié)構(gòu)解析仍是當(dāng)前領(lǐng)域的主要瓶頸之一?;跀?shù)據(jù)庫(kù)的譜圖匹配被認(rèn)為是代謝物注釋的金標(biāo)準(zhǔn),但其適用范圍僅限于具有參考譜圖的已知代謝物。對(duì)于未知代謝物的注釋?zhuān)瑹o(wú)論是“已知的未知代謝物”(已存在于結(jié)構(gòu)數(shù)據(jù)庫(kù)中但缺乏參考譜圖)還是“完全未知代謝物”(具有全新結(jié)構(gòu)),仍然構(gòu)成代謝組學(xué)研究中的根本性挑戰(zhàn)。隨著人工智能技術(shù)的發(fā)展,深度生成模型為探索已知化學(xué)空間之外的新型結(jié)構(gòu)提供了新的可能。然而,由于高質(zhì)量參考質(zhì)譜數(shù)據(jù)的匱乏,人工智能方法在代謝物注釋中的潛力尚未得到充分發(fā)揮。
近日,中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所生物與化學(xué)交叉研究中心朱正江團(tuán)隊(duì)在Nature Communications雜志在線發(fā)表了題為“Structure-informed deep generation enables de novo metabolite annotation in untargeted metabolomics”的研究論文(https://www.nature.com/articles/s41467-026-72149-6)。該研究提出了一種基于結(jié)構(gòu)模板的深度生成模型MetGenX,實(shí)現(xiàn)了基于代謝組學(xué)數(shù)據(jù)的大規(guī)模代謝物鑒定,并有助于發(fā)現(xiàn)化學(xué)結(jié)構(gòu)數(shù)據(jù)庫(kù)中未收錄的全新代謝物。

與傳統(tǒng)方法不同,MetGenX并不直接基于查詢(xún)質(zhì)譜碎裂譜圖進(jìn)行結(jié)構(gòu)解析,而是采用一種模態(tài)表示轉(zhuǎn)換策略:首先通過(guò)譜圖相似性搜索,將查詢(xún)譜圖映射到一組結(jié)構(gòu)相似的代謝物;隨后以這些檢索到的結(jié)構(gòu)為模板,指導(dǎo)從頭生成過(guò)程?;谧V圖相似度獲得的結(jié)構(gòu)相似化合物可作為重要的先驗(yàn)信息,為目標(biāo)化學(xué)結(jié)構(gòu)的生成提供有效約束。該策略將代謝物鑒定由傳統(tǒng)的“譜圖到結(jié)構(gòu)”解析,轉(zhuǎn)化為“結(jié)構(gòu)到結(jié)構(gòu)”的生成過(guò)程,通過(guò)引入結(jié)構(gòu)模板彌合實(shí)驗(yàn)譜圖與結(jié)構(gòu)生成之間的差距,從而顯著提升模型性能。

圖1.?基于結(jié)構(gòu)模板的深度生成模型MetGenX在質(zhì)譜碎裂譜圖結(jié)構(gòu)解析中的應(yīng)用
通過(guò)這一策略創(chuàng)新,MetGenX實(shí)現(xiàn)了在同一模型架構(gòu)上,對(duì)結(jié)構(gòu)生成模型進(jìn)行結(jié)構(gòu)預(yù)測(cè)任務(wù)的預(yù)訓(xùn)練和譜圖解析任務(wù)的微調(diào),從而使得模型可以利用大型化學(xué)結(jié)構(gòu)數(shù)據(jù)集進(jìn)行模型訓(xùn)練。MetGenX首先在超過(guò)200萬(wàn)個(gè)生物相關(guān)的化學(xué)結(jié)構(gòu)數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,并使用NIST20中標(biāo)準(zhǔn)質(zhì)譜碎裂譜圖數(shù)據(jù)庫(kù)對(duì)模型進(jìn)行了微調(diào),以適應(yīng)基于質(zhì)譜碎裂譜圖的代謝物結(jié)構(gòu)解析任務(wù)。通過(guò)“預(yù)訓(xùn)練-微調(diào)”的兩階段訓(xùn)練,MetGenX克服了質(zhì)譜碎裂譜圖訓(xùn)練數(shù)據(jù)不足的問(wèn)題,實(shí)現(xiàn)了實(shí)現(xiàn)高準(zhǔn)確性的代謝物結(jié)構(gòu)注釋?zhuān)瑫r(shí)具備探索新型代謝物的能力。
在NIST20譜圖數(shù)據(jù)庫(kù)的獨(dú)立測(cè)試集中,MetGenX在1388張質(zhì)譜碎裂譜圖上分別取得了55.9%的Top-1準(zhǔn)確率和76.1%的Top-3準(zhǔn)確率。在五種真實(shí)生物樣本的1681張質(zhì)譜碎裂譜圖上,其Top-1和Top-3準(zhǔn)確率進(jìn)一步提升至68.5%和89.2%。與其他常用代謝物注釋工具相比,MetGenX在注釋準(zhǔn)確率和覆蓋率方面均表現(xiàn)出明顯優(yōu)勢(shì)。值得注意的是,作為一種基于結(jié)構(gòu)模板的生成模型,在正離子模式下訓(xùn)練的MetGenX可直接遷移至負(fù)離子模式質(zhì)譜碎裂譜圖的解析,而無(wú)需額外訓(xùn)練。在2319張負(fù)離子模式生物樣本譜圖上,MetGenX仍取得了60.7%的Top-1準(zhǔn)確率和82.5%的Top-3準(zhǔn)確率,體現(xiàn)了其在復(fù)雜生物樣本中的解析能力以及跨離子模式的良好泛化性能。此外,為模擬真實(shí)代謝物注釋流程,作者構(gòu)建了一個(gè)基于MetGenX的多步注釋工作流,并應(yīng)用于小鼠肝臟非靶向代謝組學(xué)數(shù)據(jù)分析。通過(guò)該流程,研究成功發(fā)現(xiàn)并驗(yàn)證了兩個(gè)未被現(xiàn)有主流代謝組學(xué)數(shù)據(jù)庫(kù)收錄的代謝物,進(jìn)一步證明了MetGenX在新型代謝物發(fā)現(xiàn)方面的潛力。

圖2.?MetGenX在真實(shí)生物樣本中的代謝物注釋性能評(píng)估
綜上所述,MetGenX通過(guò)人工智能技術(shù)實(shí)現(xiàn)了大規(guī)模代謝物注釋與未知代謝物的發(fā)現(xiàn),有助于解析代謝組學(xué)數(shù)據(jù)中的“暗物質(zhì)”,提升數(shù)據(jù)集的注釋覆蓋度,從而推動(dòng)非靶向代謝組學(xué)研究的進(jìn)一步發(fā)展。中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所生物與化學(xué)交叉研究中心朱正江課題組博士研究生王洪淼是論文的第一作者。朱正江研究員為論文的通訊作者。中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所生物與化學(xué)交叉研究中心為第一單位。上述工作的相關(guān)技術(shù)已經(jīng)申請(qǐng)了國(guó)家發(fā)明專(zhuān)利與國(guó)家軟件著作權(quán),相關(guān)技術(shù)的商業(yè)用途需要聯(lián)系朱正江研究員進(jìn)行授權(quán)使用。
該工作得到了國(guó)家自然科學(xué)基金委、中國(guó)科學(xué)院、上海市科委和上海尚思自然科學(xué)研究院的資助。
原文鏈接:https://www.nature.com/articles/s41467-026-72149-6
附件下載:

