• 正文
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

一臺觀察人類DNA的AI“顯微鏡”:谷歌AlphaGenome問世

06/26 11:16
301
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

谷歌Alpha家族再添新成員。

作者 | ?李水青
編輯 | ?心緣
智東西6月25日報道,今天,谷歌DeepMind推出AlphaGenome,一款能幫助人們快速預(yù)測基因變化影響的AI模型。AlphaGenome就像一臺“觀察人類DNA的AI顯微鏡”,以長達(dá)100萬個堿基對的長DNA序列作為輸入,預(yù)測數(shù)千種表征其調(diào)控活性的分子特性,在超20項廣泛的基因組預(yù)測基準(zhǔn)中實(shí)現(xiàn)了最先進(jìn)的性能。與已有的DNA序列模型相比,AlphaGenome具有幾個獨(dú)特的特點(diǎn):支持高分辨率的長序列上下文、綜合多模態(tài)預(yù)測、高效變異評分和新穎的剪接連接模型。當(dāng)下,谷歌通過AlphaGenome API提供AlphaGenome預(yù)覽版,供非商業(yè)研究使用,并計劃在未來發(fā)布該模型。紀(jì)念斯隆·凱特琳癌癥中心的博士Caleb Lareau說:“這是該領(lǐng)域的一個里程碑。我們首次擁有一個能夠統(tǒng)一遠(yuǎn)程上下文、基礎(chǔ)精度和各種基因組任務(wù)的尖端性能的單一模型?!?img decoding="async" class="aligncenter" src="https://wximg.eefocus.com/forward?url=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2Fz7ZD1WagSLia5D4O33O8mic8HK4qs6cQc8wjghtzQZ6zga1Phic6hK64mndovq3xZEzH5g1cMg0pAwhSNY5Z4J1Ug%2F640%3Ffrom%3Dappmsg&s=b115bf" />論文地址:https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf

01.百萬DNA序列輸入預(yù)測數(shù)千種分子特性

?

AlphaGenome模型以長達(dá)100萬個堿基對的長DNA序列作為輸入,預(yù)測數(shù)千種表征其調(diào)控活性的分子特性。它還可以通過比較突變序列與未突變序列的預(yù)測結(jié)果來評估遺傳變異或突變的影響。預(yù)測的屬性包括基因在不同細(xì)胞類型和組織中的起始和終止位置、基因剪接的位置、產(chǎn)生的RNA數(shù)量,以及哪些DNA堿基可接近、彼此靠近或與某些蛋白質(zhì)結(jié)合。訓(xùn)練數(shù)據(jù)來源于大型公共聯(lián)盟,包括ENCODE、GTEx、4D Nucleome和FANTOM5,這些聯(lián)盟通過實(shí)驗測量了這些屬性,涵蓋了數(shù)百種人類和小鼠細(xì)胞類型和組織中基因調(diào)控的重要模式。以下動畫顯示AlphaGenome將一百萬個DNA字母作為輸入,并預(yù)測不同組織和細(xì)胞類型的不同分子特性。AlphaGenome架構(gòu)使用卷積層初步檢測基因組序列中的短模式,使用轉(zhuǎn)換器在序列的所有位置傳遞信息,最后使用一系列層將檢測到的模式轉(zhuǎn)化為不同模態(tài)的預(yù)測。在訓(xùn)練過程中,此計算分布在單個序列的多個互連張量處理單元(TPU)上。該模型以谷歌之前的基因組學(xué)模型Enformer為基礎(chǔ),并與AlphaMissense相輔相成,后者專門對蛋白質(zhì)編碼區(qū)內(nèi)變異的影響進(jìn)行分類。這些區(qū)域覆蓋了基因組的2%。其余98%的區(qū)域稱為非編碼區(qū),對調(diào)控基因活動至關(guān)重要,并包含許多與疾病相關(guān)的變異。AlphaGenome為解讀這些廣泛的序列及其內(nèi)部的變異提供了一個新的視角。

02.高分辨率的長序列上下文綜合多模態(tài)預(yù)測

?

與已有的DNA序列模型相比,AlphaGenome具有幾個獨(dú)特的特點(diǎn):1、高分辨率的長序列上下文谷歌的模型分析多達(dá)一百萬個DNA堿基,并以單個堿基的分辨率進(jìn)行預(yù)測。長序列上下文對于覆蓋遠(yuǎn)處調(diào)控基因的區(qū)域至關(guān)重要,而堿基分辨率對于捕捉精細(xì)的生物學(xué)細(xì)節(jié)至關(guān)重要。先前的模型必須在序列長度和分辨率之間做出權(quán)衡,這限制了它們能夠聯(lián)合建模并準(zhǔn)確預(yù)測的模態(tài)范圍。谷歌的技術(shù)進(jìn)步解決了這一限制,且無需顯著增加訓(xùn)練資源——訓(xùn)練單個AlphaGenome模型(未進(jìn)行數(shù)據(jù)蒸餾)耗時4小時,且所需的計算預(yù)算僅為訓(xùn)練原始Enformer模型的一半。2、綜合多模態(tài)預(yù)測通過解鎖長輸入序列的高分辨率預(yù)測,AlphaGenome能夠預(yù)測最多樣化的模態(tài)。由此,AlphaGenome為科學(xué)家提供了有關(guān)基因調(diào)控復(fù)雜步驟的更全面的信息。3、高效變異評分除了預(yù)測各種分子特性外,AlphaGenome還能在一秒鐘內(nèi)高效地評估基因變異對所有這些特性的影響。它通過對比突變序列和未突變序列的預(yù)測,并針對不同模式使用不同的方法高效地總結(jié)這種對比來實(shí)現(xiàn)這一點(diǎn)。4、新穎的剪接連接模型許多罕見遺傳疾病,例如脊髓性肌萎縮癥和某些形式的囊性纖維化,都可能由RNA剪接錯誤引起。RNA剪接是指RNA分子的部分被移除,或“剪接掉”,然后剩余的末端重新連接在一起的過程。AlphaGenome首次能夠直接從序列中明確模擬這些連接的位置和表達(dá)水平,從而更深入地了解遺傳變異對RNA剪接的影響。

03.超20項基準(zhǔn)測試中表現(xiàn)最佳

?

AlphaGenome在廣泛的基因組預(yù)測基準(zhǔn)中實(shí)現(xiàn)了最先進(jìn)的性能,例如預(yù)測DNA分子的哪些部分將會靠近,遺傳變異是否會增加或減少基因的表達(dá),或者它是否會改變基因的剪接模式。下方條形圖顯示了AlphaGenome在選定的DNA序列和變異效應(yīng)任務(wù)上的相對改進(jìn),并與每個類別中當(dāng)前最佳方法的結(jié)果進(jìn)行了比較。在對單個DNA序列進(jìn)行預(yù)測時,AlphaGenome在24項評估中,有22項的表現(xiàn)優(yōu)于市面上已有的最佳模型。在預(yù)測變異的調(diào)控效應(yīng)時,它在26項評估中,有24項的表現(xiàn)與最佳外部模型相當(dāng)甚至超過了最佳外部模型。本次比較涵蓋了針對特定任務(wù)的模型。AlphaGenome是唯一能夠聯(lián)合預(yù)測所有評估模態(tài)的模型,彰顯了其通用性。

04.統(tǒng)一模型更快地生成和測試假設(shè)

?

AlphaGenome的通用性使科學(xué)家能夠通過單個API調(diào)用同時探索一個變異對多種模式的影響。這意味著科學(xué)家可以更快地生成和測試假設(shè),而無需使用多個模型來研究不同的模式。此外,AlphaGenome的出色表現(xiàn)表明,它已經(jīng)在基因調(diào)控的背景下學(xué)習(xí)到了相對通用的DNA序列表征。這為更廣泛的研究社區(qū)奠定了堅實(shí)的基礎(chǔ)。一旦該模型全面發(fā)布,科學(xué)家們將能夠在自己的數(shù)據(jù)集上對其進(jìn)行調(diào)整和微調(diào),以更好地解決他們獨(dú)特的研究問題。最后,這種方法為未來提供了一個靈活且可擴(kuò)展的架構(gòu)。通過擴(kuò)展訓(xùn)練數(shù)據(jù),AlphaGenome的功能可以得到擴(kuò)展,從而獲得更好的性能,覆蓋更多物種,或包含更多模態(tài),使模型更加全面。

05.助力疾病理解、基礎(chǔ)研究等

?

AlphaGenome的預(yù)測能力可以幫助多種研究途徑:1、疾病理解:通過更準(zhǔn)確地預(yù)測基因突變,AlphaGenome可以幫助研究人員更精準(zhǔn)地查明疾病的潛在病因,并更好地解釋與某些性狀相關(guān)的變異的功能影響,從而可能發(fā)現(xiàn)新的治療靶點(diǎn)。我們認(rèn)為該模型尤其適用于研究可能產(chǎn)生巨大影響的罕見變異,例如導(dǎo)致罕見孟德爾遺傳病的變異。2、合成生物學(xué):它的預(yù)測可用于指導(dǎo)具有特定調(diào)節(jié)功能的合成DNA的設(shè)計——例如,僅激活神經(jīng)細(xì)胞中的基因,而不是肌肉細(xì)胞中的基因。3、基礎(chǔ)研究:它可以通過協(xié)助繪制基因組的關(guān)鍵功能元素并定義其作用,識別調(diào)節(jié)特定細(xì)胞類型功能的最重要DNA指令,加速我們對基因組的理解。例如,谷歌使用AlphaGenome研究了一種癌癥相關(guān)突變的潛在機(jī)制。在一項針對T細(xì)胞急性淋巴細(xì)胞白血病(T-ALL)患者的現(xiàn)有研究中,研究人員觀察到基因組特定位置的突變。利用AlphaGenome,他們預(yù)測這些突變會通過引入MYB DNA結(jié)合基序來激活附近的TAL1基因,這復(fù)制了已知的疾病機(jī)制,并凸顯了AlphaGenome將特定非編碼變異與疾病基因關(guān)聯(lián)起來的能力。倫敦大學(xué)學(xué)院Marc Mansour教授說:“AlphaGenome將成為該領(lǐng)域的一個強(qiáng)大工具。確定不同非編碼變異之間的相關(guān)性可能極具挑戰(zhàn)性,尤其是在大規(guī)模研究的情況下。該工具將提供關(guān)鍵的線索,幫助我們更好地理解癌癥等疾病?!?/p>

06.結(jié)語:AI基因預(yù)測重要一步

?

AlphaGenome標(biāo)志著AI基因預(yù)測向前邁出了重要一步,但仍有其局限性。與其他基于序列的模型一樣,準(zhǔn)確捕捉極遠(yuǎn)距離調(diào)控元件的影響(如那些相距超過10萬 DNA 堿基的調(diào)控元件)仍然是一個尚未解決的挑戰(zhàn)。同時,谷歌尚未設(shè)計或驗證AlphaGenome用于個人基因組預(yù)測。雖然AlphaGenome可以預(yù)測分子結(jié)果,但它并不能全面展現(xiàn)基因變異如何導(dǎo)致復(fù)雜的性狀或疾病。

(本文系網(wǎng)易新聞?網(wǎng)易號特色內(nèi)容激勵計劃簽約賬號【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號授權(quán),禁止隨意轉(zhuǎn)載。)

相關(guān)推薦