發(fā)布日期:2018-03-21
本周,人工智能又開掛了。
距離我們上次報道張康教授的重磅AI研究還不到一個月,來自全球100多個實驗室的近150位科學(xué)家聯(lián)合在頂級期刊《自然》發(fā)文[1],他們開發(fā)了一個超級AI系統(tǒng),基于腫瘤組織DNA的甲基化數(shù)據(jù),可以準確區(qū)分近100種不同的中樞神經(jīng)系統(tǒng)腫瘤。更厲害的是,這個AI系統(tǒng)還能發(fā)現(xiàn)一些指南里面沒有的新分類。這對于癌癥的精準治療而言,又是個巨大的進步。
這項研究一方面能夠彌補目前中樞神經(jīng)系統(tǒng)腫瘤難以診斷的問題,一方面也是為尚不完善的中樞神經(jīng)系統(tǒng)腫瘤分類做出了極大的貢獻。
在諸多癌癥中,中樞神經(jīng)系統(tǒng)腫瘤可以說是最難搞的。目前科學(xué)家已經(jīng)確定的中樞神經(jīng)系統(tǒng)腫瘤足有100來種[2],它們的臨床表現(xiàn)和生物學(xué)特性有高度特異性,很難確診。由于此類腫瘤的分子標志物稀少,目前臨床上中樞神經(jīng)系統(tǒng)腫瘤的診斷核心技術(shù)還是基于顯微鏡的組織學(xué)診斷。
不過難點在于,很多在顯微鏡下表現(xiàn)相似的腫瘤,實際上有不同的基因變異特點,這些幾乎是很難觀察到的,這就給精準診斷帶來了極大的困難。雖然FDA已經(jīng)批準了基于組織病理學(xué)切片成像輔助診斷疾病的技術(shù)[3],也有很多創(chuàng)業(yè)公司開始嘗試利用AI分析這些病理圖片,輔助醫(yī)生診斷。然而上面存在的問題依然不能避免。
所以近年來WHO也逐漸在分類標準中增加了分子指標,例如幾種與特定腦癌亞型相關(guān)的基因變異和甲基化情況。
Andreas von Deimling和Stefan M. Pfister領(lǐng)導(dǎo)的這個國際團隊認為,分析癌癥的甲基化組是個很聰明的做法,甲基化特征一方面能夠標志相應(yīng)的細胞變化,一方面還能夠用于追蹤細胞來源,例如用來診斷那些病灶不明的癌癥[4]。而且前人的實驗也證實了癌癥甲基化數(shù)據(jù)的可靠性,即使在很小的樣本中也能夠得到重復(fù)[5]?,F(xiàn)在研究者們要做的就是,在這些零散的數(shù)據(jù)基礎(chǔ)上繼續(xù)擴大,讓癌癥甲基化組能夠成為一個統(tǒng)一標準的、全方位的診斷和分類工具。
不過這里面有個大問題就是,甲基化數(shù)據(jù)從哪里來。開發(fā)AI系統(tǒng)是需要大量的數(shù)據(jù)訓(xùn)練算法的,但是限于之前技術(shù)不足和高昂的成本,針對某種特定腫瘤的甲基化數(shù)據(jù)顯然是嚴重不足的,更何況這還是個發(fā)病率不是特別高的中樞神經(jīng)系統(tǒng)腫瘤。
感謝技術(shù)的進步?,F(xiàn)在科學(xué)家已經(jīng)可以很容易的從經(jīng)福爾馬林固定后石蠟包埋的少量組織(FFPE)中提取DNA,這就解決了實驗材料的來源問題。盡管沒有足夠的腫瘤DNA甲基化數(shù)據(jù),但是在全世界的很多實驗室和醫(yī)療機構(gòu)中,都保存有FFPE樣本。
于是,這個龐大的研究團隊開始收集FFPE樣本,并用Illumina公司的主流甲基化芯片450K(可分析人體45萬個甲基化位點)分析近3000份腫瘤樣本的甲基化數(shù)據(jù),幾乎覆蓋了目前WHO分類中全部的中樞神經(jīng)系統(tǒng)腫瘤種類。此外,為了區(qū)分中樞神經(jīng)系統(tǒng)腫瘤與其他腫瘤和正常腦組織之間的差異,研究團隊還分析了部分間充質(zhì)腫瘤、黑色素瘤、彌漫性大B細胞淋巴瘤、漿細胞瘤以及6種垂體腺瘤,以及健康腦組織的DNA甲基化情況。
決策過程
研究人員把每個樣本的幾十萬個甲基化信息一股腦交給計算機,首先根據(jù)WHO的分類以及樣本的診斷結(jié)果,在有監(jiān)督的機器學(xué)習(xí)算法下,分析WHO定義的每類腫瘤的甲基化特征;然后又無監(jiān)督的機器學(xué)習(xí)算法再分析一遍,讓AI系統(tǒng)總結(jié)出自己對中樞神經(jīng)系統(tǒng)腫瘤甲基化的認知。
最后,他們得到了82個中樞神經(jīng)系統(tǒng)腫瘤甲基化特征,以及9個對照樣本的甲基化特征。這91個甲基化特征就是AI系統(tǒng)在WHO定義的指導(dǎo)下,對中樞神經(jīng)系統(tǒng)腫瘤甲的分類。顯然,AI系統(tǒng)對中樞神經(jīng)系統(tǒng)腫瘤的分類,肯定不可能完全與WHO的分類完全重合。
研究人員把這82個甲基化特征分成了5類。
第一類的29個是完全與WHO的分類匹配的,就是說,AI系統(tǒng)認為這些甲基化特征分別屬于某一類腫瘤,按照WHO的分類標準,醫(yī)生之前的診斷確實也是屬于這個分類。第二類也有29個,他們能與WHO分類中的某種腫瘤下面的亞類型匹配。
剩下的就是只能部分匹配,或者完全不能匹配。而這些也是研究人員最感興趣的,他們認為,這一發(fā)現(xiàn)可以幫助研究人員更深入的理解中樞神經(jīng)系統(tǒng)腫瘤。
a,91個甲基化特征,以及它們所屬的5個類別;b,2801個樣本的甲基化特征降維數(shù)據(jù)圖
到此,中樞神經(jīng)系統(tǒng)腫瘤的甲基化特征已經(jīng)被AI系統(tǒng)提取,加上對照組,一共有91個。顯然,如果研究就到此為止的話,使用價值還是有限的。畢竟,人工分析每個樣本的甲基化類型與這91個匹配情況是件非常費時費力的事情。
于是,他們把這91個甲基化類型交給了隨機森林機器學(xué)習(xí)算法,開發(fā)出一個AI決策系統(tǒng),只要研究人員將從測序機器上下來的甲基化數(shù)據(jù)導(dǎo)入這個AI系統(tǒng),就可以快速判斷這個腫瘤屬于哪一種。
為了驗證這些甲基化特征和AI決策系統(tǒng)的準確性。研究者選取了1104份已經(jīng)組織學(xué)和分子生物學(xué)診斷的中樞神經(jīng)系統(tǒng)腫瘤患者組織樣本,同時用傳統(tǒng)的標準組織病理學(xué)分析和這個AI系統(tǒng)進行診斷。
結(jié)果,在60.4%的樣本上,AI系統(tǒng)和病理學(xué)家診斷是一致的。15.5%的樣本AI系統(tǒng)和病理學(xué)家的也是一致的,只不過AI系統(tǒng)認為,它們應(yīng)該屬于一個更小的亞型。
還有12.6%的病例,AI系統(tǒng)和病理學(xué)家診斷的結(jié)果不一致。那到底是AI系統(tǒng)對,還是病理學(xué)家對?于是研究人員對這部分樣本做了更加深入的分析(例如基因測序),最后驚喜的發(fā)現(xiàn),92.8%的樣本是AI系統(tǒng)對了。
最后剩余的11.5%的樣本,AI系統(tǒng)表示無能為力,不知道該如何分類,仔細分析發(fā)現(xiàn),其中三分之一是罕見腫瘤,可能是前期的樣本量不夠,導(dǎo)致AI系統(tǒng)無法識別。因此,這部分隨著數(shù)據(jù)的積累,或許可以解決。
AI系統(tǒng)對病例的識別情況
目前該AI平臺已經(jīng)免費向研究機構(gòu)開放[6],自2016年上線以來,已經(jīng)有近萬份個體DNA甲基化數(shù)據(jù)上傳!實用性已經(jīng)得到千余例真實病例的支持。
當(dāng)然,研究者也提出,甲基化特征還不能作為單一的診斷標準,還需要臨床的驗證。不過作為研究的工具,它著實將使中樞神經(jīng)系統(tǒng)腫瘤科研前進一大步。
一方面,統(tǒng)一的、易于使用的標準將使科研變得更加條理分明;另一方面,甲基化組明確的數(shù)據(jù)特征也便于使用計算機進行分析。有了這項技術(shù),我們對腫瘤的分類將會更具動態(tài)并逐漸走向完善,最終帶來更加精準、有針對性的治療方案。
參考資料:
[1]. David Capper, David T. W. Jones, Martin Sill, et al. DNA methylation-based classification of central nervous system tumours. Nature, 2018.
[2]. Louis D N, Perry A, Reifenberger G, et al. The 2016 World Health Organization classification of tumors of the central nervous system: a summary[J]. Acta neuropathologica, 2016, 131(6): 803-820.
[3]. https://www.fda.gov/newsevents/newsroom/pressannouncements/ucm552742.htm
[4]. Moran, S. et al. Epigenetic profling to classify cancer of unknown primary: a multicentre, retrospective analysis. Lancet Oncol. 17, 1386–1395(2016)。
[5]Hovestadt, V. et al. Robust molecular subgrouping and copy-number profling of medulloblastoma from small amounts of archival tumour material using high-density DNA methylation arrays. Acta Neuropathol. 125, 913–916(2013)。
[6] https://www.molecularneuropathology.org
來源:奇點網(wǎng)