
上海有機(jī)所開(kāi)發(fā)AI大模型DeepSeMS揭示全球海洋微生物隱藏的生物合成潛能
次級(jí)代謝產(chǎn)物是微生物自身調(diào)控以及與環(huán)境或宿主之間的互作因子,其生物活性往往能夠干預(yù)細(xì)胞特定的代謝途徑,因而是很多現(xiàn)代藥物的來(lái)源,例如抗生素、免疫抑制劑以及抗腫瘤藥物等。隨著抗生素耐藥性危機(jī)的日益嚴(yán)重,以及對(duì)更加安全的天然藥物需求不斷增長(zhǎng),尋找和發(fā)現(xiàn)新穎的微生物次級(jí)代謝產(chǎn)物分子骨架及其生物活性成為了生命科學(xué)領(lǐng)域的前沿課題。但是,現(xiàn)有次級(jí)代謝產(chǎn)物的獲取仍主要依賴(lài)于可培養(yǎng)的微生物,并且發(fā)現(xiàn)新穎的天然分子化學(xué)結(jié)構(gòu)越來(lái)越困難。
中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所與復(fù)旦大學(xué)、同濟(jì)大學(xué)等單位合作,開(kāi)發(fā)了AI大模型DeepSeMS,首次實(shí)現(xiàn)了從微生物基因序列出發(fā)直接預(yù)測(cè)生成次級(jí)代謝產(chǎn)物化學(xué)結(jié)構(gòu),并利用該模型發(fā)現(xiàn)了6萬(wàn)多種新的海洋天然產(chǎn)物,揭示了全球海洋微生物隱藏的生物合成潛能。相關(guān)成果于近日在線(xiàn)發(fā)表在Nature Computational Science(Xu T et al. Nat. Comput. Sci.?2026. DOI: 10.1038/s43588-026-00983-1),并以“Translating biodiversity into chemical diversity”為題同期配發(fā)Research Briefings(https://www.nature.com/articles/s43588-026-00984-0),遴選為核心亮點(diǎn)成果予以專(zhuān)題評(píng)述。
DeepSeMS是一個(gè)基于Transformer架構(gòu)的序列到結(jié)構(gòu)大語(yǔ)言模型(LLM),旨在從微生物生物合成基因簇(BGC)中預(yù)測(cè)可能次級(jí)代謝產(chǎn)物化學(xué)結(jié)構(gòu)。DeepSeMS模型采用專(zhuān)門(mén)設(shè)計(jì)的序列表征策略和數(shù)據(jù)增強(qiáng)算法,實(shí)現(xiàn)了對(duì)各種復(fù)雜微生物次級(jí)代謝產(chǎn)物化學(xué)結(jié)構(gòu)的精確預(yù)測(cè),并能預(yù)測(cè)未知生物合成反應(yīng)生產(chǎn)的新穎天然產(chǎn)物,顯示了AI在揭示生物合成潛力方面的強(qiáng)大能力,為從生物多樣性(Biodiversity)到化學(xué)多樣性(Chemical diversity)的系統(tǒng)轉(zhuǎn)譯提供了一種可執(zhí)行的新范式。

圖1. DeepSeMS模型架構(gòu)、序列表征策略和數(shù)據(jù)增強(qiáng)算法
作者利用DeepSeMS模型大規(guī)模挖掘了全球海洋微生物基因組,預(yù)測(cè)生成了60,327個(gè)次級(jí)代謝產(chǎn)物化學(xué)結(jié)構(gòu),其中97%為新的結(jié)構(gòu)類(lèi)型、69%具有新的結(jié)構(gòu)骨架、58%具有新的骨架形狀。特別是在北冰洋、南冰洋以及深層海域(深度>4,500 m,氧含量<100 μmol kg?1,水溫~5–15 °C)中發(fā)現(xiàn)的次級(jí)代謝產(chǎn)物化學(xué)結(jié)構(gòu)新穎性、多樣性和特異性分布特征,為后續(xù)海洋天然藥物開(kāi)發(fā)、微生物生態(tài)分析和全球元素循環(huán)等研究建立了一個(gè)龐大的參考數(shù)據(jù)集。

圖2. 全球海洋微生物次級(jí)代謝產(chǎn)物化學(xué)結(jié)構(gòu)新穎性、多樣性和特異性分布
作者進(jìn)一步利用基于結(jié)構(gòu)的虛擬篩選,發(fā)現(xiàn)了7,554個(gè)獨(dú)特的海洋微生物次級(jí)代謝產(chǎn)物,含有幾乎所有已知的抗菌活性結(jié)構(gòu)特征,且具有與當(dāng)前已知抗生素不同的新型側(cè)鏈或取代基,表明它們具有規(guī)避現(xiàn)有抗菌耐藥機(jī)制的潛力。研究還識(shí)別出1,884個(gè)與ectoine相關(guān)的候選分子。Ectoine是一類(lèi)天然細(xì)胞保護(hù)劑,與微生物適應(yīng)高鹽、低溫等環(huán)境壓力密切相關(guān),其結(jié)構(gòu)類(lèi)似物在醫(yī)藥、化妝品和生物技術(shù)領(lǐng)域具有進(jìn)一步探索價(jià)值。研究還從未定義 BGC 類(lèi)別中發(fā)現(xiàn)了587個(gè)候選分子,提示仍有大量未知生物合成區(qū)域有待深入解析。這些發(fā)現(xiàn)揭示了全球海洋微生物先前未被表征的生物合成特征和天然藥物開(kāi)發(fā)潛能,為生物醫(yī)學(xué)創(chuàng)新提供了新機(jī)遇。

圖3. 海洋中發(fā)現(xiàn)的新型類(lèi)抗生素結(jié)構(gòu)、細(xì)胞保護(hù)劑候選物和未知生物合成通路
此外,為了促進(jìn)AI在微生物次級(jí)代謝產(chǎn)物發(fā)現(xiàn)中的廣泛應(yīng)用,作者已將DeepSeMS模型和代碼開(kāi)源,參數(shù)規(guī)模僅1.2億,可在單張消費(fèi)級(jí)顯卡上部署。作者還開(kāi)發(fā)了DeepSeMS模型的網(wǎng)絡(luò)服務(wù)器(Web Server)版本,方便研究人員免部署在線(xiàn)使用模型。同時(shí),作者也將本研究挖掘的全球海洋微生物次級(jí)代謝產(chǎn)物作為開(kāi)源數(shù)據(jù)庫(kù),在DeepSeMS網(wǎng)絡(luò)服務(wù)器上實(shí)現(xiàn)數(shù)據(jù)可視化瀏覽、篩選和分析,促進(jìn)海洋天然藥物的快速開(kāi)發(fā)和生物資源的高效利用。

圖4. DeepSeMS加速基于AI的新穎微生物次級(jí)代謝產(chǎn)物發(fā)現(xiàn)
本工作主要由上海有機(jī)所化學(xué)科學(xué)數(shù)據(jù)中心徐挺軍副研究員,在復(fù)旦大學(xué)趙國(guó)屏院士、焦娜研究員、同濟(jì)大學(xué)朱瑞新教授等的合作和指導(dǎo)下完成,感謝中心主任薛小松研究員的大力支持。本工作得到了科技部、國(guó)家自然科學(xué)基金委和中國(guó)科學(xué)院相關(guān)項(xiàng)目的資助。
DeepSeMS模型在線(xiàn)使用:
https://biochemai.cstspace.cn/deepsems/
DeepSeMS模型開(kāi)源代碼:
https://github.com/lab-of-biochemai/DeepSeMS
論文信息:
Xu, T. et al. DeepSeMS: revealing the hidden biosynthetic potential of the global ocean microbiome with a large language model. Nature Computational Science (2026) https://doi.org/10.1038/s43588-026-00983-1.
附件下載:

