語音播報
中國科學(xué)院計算技術(shù)研究所研究員賀思敏及其研究團隊設(shè)計和實現(xiàn)了新一代開放式搜索算法Open-pFind,可提高質(zhì)譜數(shù)據(jù)解析的數(shù)量與質(zhì)量,有望成為蛋白質(zhì)組學(xué)日常數(shù)據(jù)分析的主力工具。相關(guān)成果10月9日在線發(fā)表于《自然—生物技術(shù)》。
質(zhì)譜數(shù)據(jù)的低解析率直接影響著肽段和蛋白質(zhì)鑒定數(shù)目和鑒定精度的提高。質(zhì)譜數(shù)據(jù)解析率一直較低,是由于質(zhì)譜數(shù)據(jù)中通常有大量存在意外修飾或發(fā)生意外酶切的肽段,傳統(tǒng)的限定式搜索因搜索空間有限,通常無法對上述肽段進行有效檢索。
新一代開放式搜索引擎Open-pFind采用基于序列標(biāo)簽索引的開放式搜索流程,快速掃描蛋白質(zhì)數(shù)據(jù)庫并對部分高質(zhì)量譜圖進行鑒定。在此過程中,意外修飾、突變、半特異及非特異性酶切肽段均在引擎的搜索空間內(nèi)。Open-pFind通過基于支持向量機的肽譜匹配重打分算法,挖掘數(shù)據(jù)中的特征信息,并據(jù)此進行第二次精細搜索。同時,Open-pFind集成了前端數(shù)據(jù)處理的pParse模塊,對肽段母離子進行校準(zhǔn),并有效提取混合譜圖,進一步提升了譜圖解析率。
在四組典型質(zhì)譜數(shù)據(jù)集上,Open-pFind解析率均達到了70%~85%,比同類軟件鑒定結(jié)果多出50.5%~117.0%。對于高質(zhì)量的串聯(lián)質(zhì)譜圖,Open-pFind甚至基本實現(xiàn)了完全解析。在搜索空間是常規(guī)引擎5個量級的基礎(chǔ)上,Open-pFind的速度仍然是常規(guī)引擎的2~3倍,是同類開放式引擎的數(shù)十倍甚至上百倍。在超大規(guī)模人類蛋白質(zhì)組數(shù)據(jù)集上,Open-pFind報告了超過12000種蛋白,且準(zhǔn)確度遠遠超過以往常規(guī)分析結(jié)果。
相關(guān)論文信息:https://doi.org/10.1038/nbt.4236
© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學(xué)院 版權(quán)所有
京ICP備05002857號-1
京公網(wǎng)安備110402500047號
網(wǎng)站標(biāo)識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話:86 10 68597114(總機)
86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn