2016年1月在瑞士達沃斯召開的世界經(jīng)濟論壇上的一個panel討論中,美國副總統(tǒng)Joe Biden當場要求臨床醫(yī)生和研究者舉例表示人類在抗擊癌癥中突破的障礙。當幾個重要話題浮現(xiàn)時,最重要的議題是“大數(shù)據(jù)”,具體而言,即“大數(shù)據(jù)”的收集、分析和應(yīng)用。
|
大量的腫瘤DNA測序通道接近20,000基因組
2016年1月在瑞士達沃斯召開的世界經(jīng)濟論壇上的一個panel討論中,美國副總統(tǒng)Joe Biden當場要求臨床醫(yī)生和研究者舉例表示人類在抗擊癌癥中突破的障礙。當幾個重要話題浮現(xiàn)時,最重要的議題是“大數(shù)據(jù)”,具體而言,即“大數(shù)據(jù)”的收集、分析和應(yīng)用。
研究者表示:“大數(shù)據(jù)”是有效的,這是因為有重大的信息可以從大數(shù)據(jù)集合里分析。越是大樣本的體量,越能發(fā)現(xiàn)一些在小樣本體量中難以發(fā)現(xiàn)的小問題。另一些研究者則表示:“大數(shù)據(jù)”豈止于大?而是越多越好。
來自美國 St. Jude兒童研究中心的首席信息官、高級副總裁Keith Perry認為,“大數(shù)據(jù)”包含額外的三層意思:多個品種的數(shù)據(jù)類型、數(shù)據(jù)生成的速度和數(shù)據(jù)集成的程度。在他看來,目前的許多數(shù)據(jù)庫之間無相互接口,因為它們是由單獨的預(yù)防、研究和臨床部門產(chǎn)生的,現(xiàn)在缺乏一個整合這些不同結(jié)構(gòu)、集中信息的潛在平臺。
另一位來自愛立信公司的Narayan Desai博士引用了其在2015年的新聞文章,基因組學(xué)將不得不解決的基本問題是數(shù)據(jù)是如何生成的。盡管目前的數(shù)據(jù)收集和分析能力有限,但應(yīng)該利用好它,因為測序的可訪問性,將導(dǎo)致訪問信息出現(xiàn)爆炸性的增長,并在很大程度上較為分散,傳統(tǒng)的信息挖掘?qū)㈦y以解決問題。
影響一:隱藏的弱點
最近,一些科學(xué)家建議:針對性和創(chuàng)造性的利用現(xiàn)有的數(shù)據(jù)可以指導(dǎo)臨床實踐。來自加州大學(xué)舊金山分校(UCSF)的Nevann Krogan教授表示:基因組學(xué)已經(jīng)為癌癥治療帶來了重大變革,其作用遠超過以往的遺傳學(xué)知識。盡管測序提供商認為我們投入的金錢越多,結(jié)果越清晰,事實上并不是如此。我們現(xiàn)在已經(jīng)達到了提取有效信息的飽和點。
以癌癥為例,目前針對各種各樣的癌癥已經(jīng)出現(xiàn)了“海量”的數(shù)據(jù)。盡管數(shù)據(jù)暴增趨勢在繼續(xù),但是Krogan 教授認為,突破癌癥治療所需的數(shù)據(jù)已經(jīng)達標。成堆的新數(shù)據(jù)只能顯示癌癥驚人的多樣性,即使是一個單一的腫瘤也包含獨特的成千上萬的基因突變,這使得使研究人員找出哪些是驅(qū)動疾病的基因愈加困難。
Krogan教授和同事于2015年5月21日在《Molecular Cell》上發(fā)表文章:除了積累更多的數(shù)據(jù)之外,研究者需要更加仔細地找出現(xiàn)有數(shù)據(jù)的關(guān)聯(lián),并成立了“腫瘤細胞地圖項目”(CCMI),旨在系統(tǒng)地介紹癌癥基因間的相互作用,以及它們?nèi)绾螌?dǎo)致了疾病與健康的狀態(tài),從而研究出癌細胞里的突變基因和蛋白的“路線圖”。
影響二:腫瘤樣本
“腫瘤細胞地圖項目”(CCMI)將加州大學(xué)圣迭戈分校(UCSD)的頂尖生物醫(yī)學(xué)科學(xué)家和加州大學(xué)舊金山分校(UCSF)頂尖的細胞結(jié)構(gòu)學(xué)家整合到一起,共同研究基因組學(xué)相關(guān)信息,瓶頸是如何解釋腫瘤基因組信息。
加州大學(xué)圣地亞哥分校的Ideker教授表示:進行癌癥DNA測序的樣本已經(jīng)接近20000例基因組,但仍然難以分析癌癥基因組的基因網(wǎng)絡(luò),即“沒有兩個腫瘤患者在基因?qū)用嫔峡雌饋砗芟嘞瘛?rdquo;因此,癌癥基因組圖譜(TCGA)項目,國際癌癥基因組協(xié)會(ICGC)已經(jīng)開始系統(tǒng)地分析成千上萬的腫瘤的多重信息,包括mRNA和microRNA表達、DNA拷貝數(shù)和甲基化以及DNA序列。
現(xiàn)在強烈需要有一個可以整合和解釋基因組規(guī)模分子信息的方法,以洞察驅(qū)動腫瘤惡化的過程;同時也迫切需要醫(yī)療機構(gòu)的參與,以解決公司在分析腫瘤基因時因無法獲得臨床相關(guān)的數(shù)據(jù)而得出不當結(jié)論。
影響三:子網(wǎng)絡(luò)分析
解決子網(wǎng)絡(luò)分析需要綜合信息方法,尤其是綜合已知編碼蛋白質(zhì)的基因在表達蛋白質(zhì)內(nèi)部子網(wǎng)或通路作用間的數(shù)據(jù)庫交互。這需要基因或蛋白質(zhì)在各個子網(wǎng)絡(luò)內(nèi)形成的聚合表達式組成的巨大交互網(wǎng)絡(luò),而不是清單單個基因或蛋白質(zhì)。
研究人員表示:這些子網(wǎng)可以識別不同種群患者之間的基因表達差異導(dǎo)致的不同臨床行為。與傳統(tǒng)的分析相比,雖然這種方法需要大量的生物信息學(xué)、統(tǒng)計學(xué)和蛋白結(jié)構(gòu)知識,但這種子網(wǎng)分析能夠解釋基因表達差異下的分子通路,畢竟它使用的數(shù)據(jù)已經(jīng)存在。
Ideker博士和他的同伴生物信息學(xué)專家表示:對于大多數(shù)中度乳腺癌風(fēng)險的患者,傳統(tǒng)因素不是預(yù)測,大約70 - 80%的淋巴癌陰性患者在接受不必要的輔助化療。當前的許多風(fēng)險因素可能是次要表現(xiàn)而不是疾病的主要機制。一個新的挑戰(zhàn)是如何確定新的與疾病更加直接相關(guān)的疾病,可以更準確地預(yù)測個體患者的風(fēng)險轉(zhuǎn)移。
影響四:預(yù)后的影響
研究人員最新調(diào)查證據(jù)支持基因網(wǎng)絡(luò)分析可以提供預(yù)后信息。例如,加州大學(xué)圣迭戈分校(UCSD)的Chang博士和同事們在2012年的《血液》雜志發(fā)文:通過單克隆B細胞在血液中、骨髓、次級淋巴組織的集聚,采用基因網(wǎng)絡(luò)分析并預(yù)測慢性淋巴細胞白血?。–LL)患者的特點。
具體地說,研究人員使用subnetwork-based(子網(wǎng)絡(luò))基因表達分析概要文件區(qū)分組不同患者的慢性淋巴細胞白血病進展風(fēng)險。 臨床患者的慢性淋巴細胞白血病患者有很大的差異:有些病人無癥狀多年;有些患者則在被診斷后不久就出現(xiàn)較為嚴重的癥狀。
由于目前必須明確證據(jù)顯示疾病進展或疾病相關(guān)的并發(fā)癥,否則建議停止治療,但標準療法與顯著的毒性有關(guān),因此準確預(yù)測是至關(guān)重要的。目前已經(jīng)有通過基因芯片檢測的報告顯示,替代標記物可作為慢性淋巴細胞白血病已知的預(yù)后因素,如IGHV突變狀態(tài)。
預(yù)測子網(wǎng)的表達水平隨著時間的推移而發(fā)生變化,但是在在之后的時間點表現(xiàn)出較強的相似性。大數(shù)據(jù)挖掘已經(jīng)成為慢性淋巴細胞白血病患者等癌癥的的治療策略和潛在的觀察途徑。
推薦閱讀: