語音播報
近日,中國科學(xué)院深圳先進技術(shù)研究院合成生物學(xué)研究所趙國屏課題組(周豪魁為通訊作者,廖天華為第一作者)在微生物組學(xué)數(shù)據(jù)挖掘領(lǐng)域取得新突破,相關(guān)論文tmap: an integrative framework based on topological data analysis for population-scale microbiome stratification and association studies(《tmap微生物組大數(shù)據(jù)挖掘方法開發(fā)——基于拓?fù)鋵W(xué)數(shù)據(jù)分析的人群分層及宿主表型關(guān)聯(lián)分析》)在線發(fā)表在期刊Genome Biology上。
隨著高通量多組學(xué)技術(shù)的發(fā)展,傳統(tǒng)的數(shù)據(jù)分析方法難以在日益復(fù)雜、規(guī)模龐大的微生物組數(shù)據(jù)中挖掘出有效可靠的信息,在數(shù)據(jù)集龐大、樣本之間存在各種復(fù)雜差異性,微生物組和宿主表型特征之間存在的細(xì)微關(guān)聯(lián)可能是研究目的所在,但是極易被掩蓋掉。這是對數(shù)據(jù)分析工作的挑戰(zhàn),也對開發(fā)創(chuàng)新性分析方法提出迫切需求。
本課題組結(jié)合mapper算法和網(wǎng)絡(luò)富集分析,開發(fā)基于拓?fù)鋵W(xué)數(shù)據(jù)分析(topological data analysis, TDA)的tmap軟件,提供了整合大規(guī)模人群微生物組數(shù)據(jù)的分析框架。tmap將不同國家地區(qū)、不同疾病類型和不同宿主表型的人群微生物組大數(shù)據(jù)加以整合,融合不同來源的微生物組及其宿主表型的醫(yī)療健康大數(shù)據(jù),是目前微生物組數(shù)據(jù)共享和整合的創(chuàng)新性方法。這對大規(guī)模人群隊列的數(shù)據(jù)分析而言,不僅歸納總結(jié)了數(shù)據(jù)隱含的規(guī)律,也對科學(xué)假設(shè)的提出,科學(xué)問題的提煉有很大幫助。
本研究中tmap的大致工作流程是將高維微生物組數(shù)據(jù)轉(zhuǎn)化為拓?fù)鋵W(xué)網(wǎng)絡(luò)結(jié)構(gòu),并用于微生物組人群分層及相關(guān)性分析。通過Mapper算法及網(wǎng)絡(luò)分析,tmap利用樣本的微生物組數(shù)據(jù)構(gòu)建TDA網(wǎng)絡(luò)結(jié)構(gòu),并通過SAFE score量化了樣本表型或者物種在一簇樣本中的富集程度?;?span>SAFE score可以實現(xiàn)以下3個分析目的:一是Ranking,即對每個表型或物種的SAFE score之和排序,其含義與linear regression中的effective size類似,但是對線性及非線性的關(guān)聯(lián)都可以較好地識別;二是Ordination,對SAFE score做PCA,目的為展示一個整體富集規(guī)律(overall enrichment pattern)不僅可以識別對微生物組變化貢獻最大的物種或表型,也可以了解哪些表型或物種的聯(lián)系比較緊密;三是Co-enrichment network,這里的網(wǎng)絡(luò)基于物種及表型關(guān)聯(lián)的顯著性構(gòu)建,用于探索其生物學(xué)意義上的關(guān)聯(lián)或者混雜因素(confounder),需要以研究目的和意義為導(dǎo)向。
另外,本研究通過對4個數(shù)據(jù)集(包括1個合成數(shù)據(jù)和3個真實世界數(shù)據(jù))對tmap方法加以驗證,結(jié)果表明與傳統(tǒng)的線性方法(如envfit, adonis, ADONISM)相比,tmap都表現(xiàn)更好,對非線性關(guān)聯(lián)及潛在規(guī)律都有較好的識別。以比利時隊列FGFP為例:2016年發(fā)表在Science,研究內(nèi)容為健康正常人群的腸道微生物組。研究納入了1106個糞便16S rRNA樣本,及樣本的69個宿主表型特征,包括了7個metadata類別:社會人口學(xué)特征,生活方式,血液指標(biāo),健康狀況,飲食習(xí)慣,腸道健康狀況及病史用藥情況。文章表明,僅有7.63%的微生物組改變與宿主表型的變化有關(guān)。tmap提高了識別并解讀population-scale的微生物組-宿主表型關(guān)聯(lián)的能力。如下圖所示,tmap不僅可以較好地復(fù)現(xiàn)envfit這種基于線性回歸的方法,也在對非線性變化的捕捉上,比envfit更加靈敏。通過對FGFP數(shù)據(jù)轉(zhuǎn)化的SAFE score分析,可以得到許多原始文章中沒有挖掘到的規(guī)律和線索。如下圖所示,比如兩種藥物雖然與同一種疾病相關(guān)聯(lián),但其對微生物組的影響是不同的,具體表現(xiàn)為在網(wǎng)絡(luò)圖上的富集部位不一樣。這都是傳統(tǒng)線性分析難以得到的。
總的來說,tmap有助于將不同國家地區(qū)、不同疾病類型、不同宿主表型的人群微生物組大數(shù)據(jù)加以整合,對人群做精細(xì)分層,為特異性的干預(yù)性治療、數(shù)據(jù)來源多樣化的meta分析等研究提供了有效線索。有效融合不同來源的微生物組及其宿主的醫(yī)療健康大數(shù)據(jù),是實現(xiàn)微生物組數(shù)據(jù)共享和整合的創(chuàng)新性方向。其次,tmap不僅可以勝任傳統(tǒng)線性研究對線性關(guān)系的刻畫,也對非線性關(guān)聯(lián)靈敏,優(yōu)于傳統(tǒng)分析方法。且基于微生物組網(wǎng)絡(luò)地圖,可以挖掘基于微生物組變化背景的宿主表型關(guān)聯(lián),使表型之間的關(guān)系不會與微生物組變化割裂開來。最后,了解不同宿主表型在網(wǎng)絡(luò)圖上的分布,捕捉變量之間聯(lián)系及變量自身的重要性排序,對大規(guī)模人群隊列的數(shù)據(jù)分析,不僅歸納總結(jié)了現(xiàn)有數(shù)據(jù)規(guī)律,也對科學(xué)假設(shè)的提出,科學(xué)問題的提煉有很大幫助。
本研究工作得到深圳市科技計劃基金支持。
tmap的大致工作流程:將高維微生物組數(shù)據(jù)轉(zhuǎn)化為拓?fù)鋵W(xué)網(wǎng)絡(luò)結(jié)構(gòu),并用于微生物組人群分層及相關(guān)性分析。
以比利時隊列為例,左圖為關(guān)聯(lián)微生物組特征與宿主表型,對宿主表型進行排序。并與傳統(tǒng)envfit方法比較。右圖表現(xiàn)了tmap對線性及非線性關(guān)聯(lián)均有良好的捕捉。
以比利時隊列為例,對疾病和用藥的共富集分析。左圖為關(guān)聯(lián)微生物組特征與宿主表型,對宿主表型進行排序。并與傳統(tǒng)envfit方法比較。右圖表現(xiàn)了tmap對線性及非線性關(guān)聯(lián)均有良好的捕捉。
© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學(xué)院 版權(quán)所有
京ICP備05002857號-1
京公網(wǎng)安備110402500047號
網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話:86 10 68597114(總機)
86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn