玩轉數據庫,助你發牛文!
癌癥研究究竟有多難?讓我們來捋一下基本思路:首先,要有一定數量的高質量腫瘤臨床樣本;其次……等一下,是不是在“首先”這一步就卡住了?癌癥研究中的高質量的腫瘤樣本不但要有切除適當的腫瘤瘤體和癌旁組織,還需要每個病人的各項病理指征、家族病史、治療手段、療效以及對病人不間斷的隨訪信息。要滿足這些苛刻的要求,無論對于戰斗在一線的臨床醫生,還是各大高校的科研人員都是十分困難的。難道真的沒有解決辦法嗎?當然有!TCGA數據庫,質量高、樣本多,而且還是免費的!【歡脫的傳送門:https://cancergenome.nih.gov/】
TCGA(The Cancer Genome Atlas),即癌癥和腫瘤基因圖譜計劃,是由美國國家癌癥和腫瘤研究所(NCI)和國家人類基因組研究所(NHGRI)聯合進行的。該計劃通過應用基因組分析技術,特別是采用大規模的基因組測序,將人類全部癌癥(近期目標為50種包括亞型在內的腫瘤)的基因組變異圖譜繪制出來,并進行系統分析,旨在找到所有致癌和抑癌基因的微小變異,了解癌細胞發生、發展的機制,在此基礎上取得新的診斷和治療方法,最后勾畫出整個新型“預防癌癥的策略”。我們先來看看這個數據庫有多少干貨:
以肝癌為例,TCGA數據庫中一共包含377個肝癌樣本,全部包含高質量的病理、化療、放療以及隨訪信息。其中375個樣本有SNV(單核苷酸多態性和短序列插入缺失突變)變異檢測結果、376個樣本有表達譜(包含mRNA和miRNA)數據,376個樣本有CNV(拷貝數變異)芯片數據。除此之外,還有外顯子測序數據以及甲基化測序數據等等。【小編語:這個樣本量!這個信息量!資深生物狗表示hin雞凍有木有。!】
那我們再拿出一些干貨來展示如何利用TCGA數據庫進行深度癌癥研究AND發大牛文章!再度歡脫的傳送門:Cell. 2016 Jan 28;164(3):550-63. http://dx.doi.org/10.1016/j.cell.2015.12.028】
膠質瘤通常根據顯微鏡下細胞形態和一些病理特征臨床分類分級,然后采取不同的治療方法。但是傳統分類法難以解釋某些現象,比如某些惡性程度高的腫瘤生存期很長,而某些分級較低的腫瘤的患者則很快死亡。本文的作者采用TCGA數據庫中1122個膠質瘤樣本,對膠質瘤常見的driver基因進行了DNA突變、RNA表達譜以及表觀修飾等不同層面的分析,從分子層面給膠質瘤的分類提供了新的思路,從而指導臨床上更精細的個性化治療。
下圖展示了利用異檸檬酸脫氫酶(isocitrate dehydrogenase, IDH)的DNA甲基化數據進行聚類分析,揭示出膠質瘤可以被分為不同的六個亞型(圖A);而利用RNAseq的表達量數據進行聚類,膠質瘤可以被分為四個亞群(圖B)。綜合兩種分析方法可以從分子層面繪制清晰直觀的Tumor Map(圖C)。
下圖展示了同樣包含野生型IDH的樣本在不同類型的膠質瘤中顯示出不同的生存期(圖A)。通過進一步分析發現,之前根據表觀聚類分離出六種不同亞型在四類膠質瘤群體里分布有明顯區別(圖B)。一些常見的癌癥Driver基因突變以及表達譜在四類膠質瘤中也有明顯區別(圖C)。利用之前的表觀聚類,發現EReg基因(圖D)以及隨機驗證的探針(圖E)也和之前的表觀聚類結果吻合的很好。
以上研究解釋了為何同樣包含野生型IDH的患者生存期會有極大的差別:DNA甲基化程度高的樣本腫瘤發展較為緩慢,而且甲基化程度低的樣本則進展極快,表現出類似其他突變型的特征,而實質上,它只是野生型突變的一個亞型。
【小編寄語】
大樣本、高質量、多層面,這樣的數據,無論對于腫瘤的基礎研究還是臨床應用來說,無疑都是莫大的福音。TCGA就是這樣一個集合了以上所有閃光點的優質數據庫。高性價比的套路,比如利用TCGA數據進行機制分析和挖掘+實驗驗證,再比如利用易獲得的小樣本實驗+數據分析進行潛在的marker篩選+TCGA大樣本驗證,諸如此類等等等等任你DIY,發文章、搞產品、助攻臨床,統統妥妥滴!公共數據庫,就像一個待發掘的寶藏,潛心挖掘潛心分析,相信它帶給我們的驚喜會越來越多。
長按加關注