
上海有機(jī)所交叉中心發(fā)表知識(shí)與數(shù)據(jù)雙層代謝網(wǎng)絡(luò)驅(qū)動(dòng)的代謝組規(guī)?;珳?zhǔn)注釋技術(shù) MetDNA3
中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所生物與化學(xué)交叉研究中心朱正江研究員課題組在Nature Communications雜志在線發(fā)表了題為“Knowledge and data-driven two-layer networking for accurate metabolite annotation in untargeted metabolomics”的研究論文(https://doi.org/10.1038/s41467-025-63536-6)。該研究開(kāi)發(fā)了新一代代謝組規(guī)模化注釋技術(shù) MetDNA3。該方法通過(guò)知識(shí)與數(shù)據(jù)雙層代謝網(wǎng)絡(luò)的交互驅(qū)動(dòng),在非靶向代謝組學(xué)的質(zhì)譜數(shù)據(jù)中實(shí)現(xiàn)了代謝物化學(xué)結(jié)構(gòu)的高覆蓋率與高準(zhǔn)確度注釋,并顯著提升了大規(guī)模代謝物注釋的計(jì)算效率。

非靶向代謝組學(xué)旨在系統(tǒng)解析生命體內(nèi)的內(nèi)源性小分子代謝物,為細(xì)胞代謝研究、疾病機(jī)制探索及生物標(biāo)志物發(fā)現(xiàn)提供關(guān)鍵技術(shù)支撐。然而,由于代謝物種類繁多且結(jié)構(gòu)復(fù)雜,代謝物化學(xué)結(jié)構(gòu)注釋始終是該領(lǐng)域的核心挑戰(zhàn)。目前,質(zhì)譜碎裂譜圖庫(kù)匹配方法僅能注釋少量具有標(biāo)準(zhǔn)碎裂質(zhì)譜圖的代謝物,難以有效覆蓋已知結(jié)構(gòu)但缺乏標(biāo)準(zhǔn)碎裂譜圖的“已知未知”代謝物(known unknown)以及化學(xué)結(jié)構(gòu)全新的“未知未知”代謝物(unknown unknown)。近年來(lái),基于代謝網(wǎng)絡(luò)的代謝物注釋方法逐漸成為重要的發(fā)展方向。朱正江課題組前期結(jié)合質(zhì)譜技術(shù)與人工智能算法,提出了“結(jié)構(gòu)譜學(xué)關(guān)聯(lián)—代謝網(wǎng)絡(luò)迭代—生化信息演進(jìn)”等創(chuàng)新策略,系統(tǒng)開(kāi)發(fā)了基于代謝網(wǎng)絡(luò)的規(guī)?;珳?zhǔn)定性技術(shù)MetDNA和MetDNA2(Nat. Commun.,2019,10: 1516;Nat. Commun.,2022,13: 6656),實(shí)現(xiàn)了已知與未知代謝物的大規(guī)模結(jié)構(gòu)鑒定。然而,由于代謝組學(xué)質(zhì)譜數(shù)據(jù)高度復(fù)雜,網(wǎng)絡(luò)解析仍然存在覆蓋度有限、未知代謝物鑒定難度大等挑戰(zhàn)。
為突破這些瓶頸,本研究在前期工作的基礎(chǔ)上開(kāi)發(fā)了新一代代謝組規(guī)?;⑨尲夹g(shù)MetDNA3。該方法首次發(fā)展了知識(shí)與數(shù)據(jù)雙層代謝網(wǎng)絡(luò)的交互驅(qū)動(dòng)算法,分別通過(guò)數(shù)據(jù)和知識(shí)雙網(wǎng)絡(luò)數(shù)據(jù)預(yù)映射,及雙層網(wǎng)絡(luò)交互驅(qū)動(dòng)的代謝物傳播式迭代注釋,顯著提升了非靶向代謝組學(xué)中代謝物注釋的效率、覆蓋度與準(zhǔn)確度。具體而言,該研究首先利用圖神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)構(gòu)建了更全面的代謝反應(yīng)網(wǎng)絡(luò)(知識(shí)網(wǎng)絡(luò)),顯著提升了其覆蓋度與連通性;隨后,將非靶向代謝組學(xué)質(zhì)譜實(shí)驗(yàn)數(shù)據(jù)依次通過(guò)母離子匹配、代謝反應(yīng)關(guān)系映射及碎裂質(zhì)譜相似性約束等步驟預(yù)映射到知識(shí)網(wǎng)絡(luò),從而形成了知識(shí)與數(shù)據(jù)雙層代謝網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。最后,以種子代謝物為起點(diǎn),在雙層網(wǎng)絡(luò)中實(shí)現(xiàn)遞歸傳播式的迭代注釋,從而高效擴(kuò)展了代謝物注釋的范圍(圖1)。

圖1. 基于知識(shí)與數(shù)據(jù)雙層代謝網(wǎng)絡(luò)驅(qū)動(dòng)的代謝組規(guī)模化精準(zhǔn)注釋技術(shù)MetDNA3
在算法機(jī)制上,MetDNA3通過(guò)雙層網(wǎng)絡(luò)拓?fù)鋵?shí)現(xiàn)了遞歸式的代謝物注釋傳播,僅需檢索鄰居代謝物及其鄰居特征,并確認(rèn)預(yù)先映射的跨網(wǎng)絡(luò)鏈接,即可完成注釋過(guò)程。這一機(jī)制有效避免了傳統(tǒng)方法中冗余的母離子匹配和碎裂質(zhì)譜相似度計(jì)算,大幅提升了計(jì)算效率,尤其適用于基于大型復(fù)雜網(wǎng)絡(luò)的遞歸傳播式迭代注釋。與上一代算法MetDNA2相比,MetDNA3在傳播過(guò)程中顯著減少了鄰居代謝物檢索和MS2相似度計(jì)算次數(shù),將每個(gè)數(shù)據(jù)集的平均計(jì)算時(shí)間由1082分鐘縮短至77分鐘,效率提升約14倍(圖2)。

圖2. MetDNA3計(jì)算效率顯著提升
在多種生物樣本的代謝組學(xué)數(shù)據(jù)集測(cè)試中,MetDNA3共成功注釋1,652個(gè)種子代謝物,平均每個(gè)樣品可注釋約600至1,000個(gè)代謝物。在此基礎(chǔ)上,通過(guò)雙網(wǎng)絡(luò)驅(qū)動(dòng)的傳播式迭代注釋,最終注釋了超過(guò)12,500個(gè)潛在的代謝物,其中包括9,410個(gè)已知代謝物和3,098個(gè)未知代謝物(圖3)。性能評(píng)估結(jié)果顯示,MetDNA3的注釋覆蓋率提升至68.1%,正確率提升至84.4%,均顯著優(yōu)于MetDNA2。這些結(jié)果充分展示了MetDNA3在覆蓋度與準(zhǔn)確性方面的卓越表現(xiàn)(圖3)。此外,算法還發(fā)現(xiàn)并驗(yàn)證了兩種未收錄于人類代謝組數(shù)據(jù)庫(kù)的新代謝物。研究同時(shí)表明,高特異性的知識(shí)網(wǎng)絡(luò)對(duì)于提高網(wǎng)絡(luò)注釋的準(zhǔn)確性和傳播效果至關(guān)重要。

圖3. MetDNA3提高代謝物注釋的覆蓋率和正確率
綜上,本研究創(chuàng)新性發(fā)展了基于知識(shí)與數(shù)據(jù)雙層代謝網(wǎng)絡(luò)驅(qū)動(dòng)的代謝組規(guī)?;珳?zhǔn)注釋技術(shù)MetDNA3,結(jié)合圖神經(jīng)網(wǎng)絡(luò)代謝反應(yīng)預(yù)測(cè),及數(shù)據(jù)和知識(shí)雙網(wǎng)絡(luò)數(shù)據(jù)預(yù)映射,在無(wú)需冗余計(jì)算的情況下,即可在大規(guī)模復(fù)雜代謝組學(xué)質(zhì)譜數(shù)據(jù)中實(shí)現(xiàn)高效而精準(zhǔn)的代謝物遞歸傳播式迭代注釋。MetDNA3顯著提升了非靶向代謝組學(xué)中代謝物注釋的效率、覆蓋度和準(zhǔn)確度,為代謝組學(xué)研究及相關(guān)生命科學(xué)與醫(yī)學(xué)應(yīng)用提供了有力的技術(shù)支撐。
MetDNA3可在MetDNA網(wǎng)站(http://metdna.zhulab.cn/)免費(fèi)使用。該工作所開(kāi)發(fā)的基于知識(shí)與數(shù)據(jù)雙層代謝網(wǎng)絡(luò)驅(qū)動(dòng)的代謝組規(guī)?;珳?zhǔn)注釋算法及軟件已經(jīng)申請(qǐng)了國(guó)家發(fā)明專利和國(guó)家軟件著作權(quán)。相關(guān)技術(shù)和軟件的商業(yè)用途需要聯(lián)系朱正江研究員進(jìn)行授權(quán)使用。
中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所生物與化學(xué)交叉研究中心朱正江課題組博士研究生張浩松是論文的第一作者,中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所生物與化學(xué)交叉研究中心為第一單位。該工作得到了國(guó)家自然科學(xué)基金委、科技部、中國(guó)科學(xué)院及上海市科委等的資助。
附件下載:

