服務介紹
隨著高通量測序技術的迅猛發展,各種生物醫學數據庫應運而生,大數據挖掘技術已成為生物醫學領域中最新最重要驅動力之一。GEO是當今最大、最全的公共基因數據資源庫,包括基因的表達、突變、修飾等信息,涵蓋幾乎所有的疾病,且單個實驗檢測樣品數目較多。TCGA數據庫包含11,000個病人的33種腫瘤的7個不同層面的基因數據(包括基因表達、CNV,SNP,DNA甲基化,miRNA,外顯子組等)和臨床數據,旨在解析癌癥發生的分子機制、腫瘤的亞型和治療靶點等,也可佐證實驗數據和提供新的研究思路,因此近年來基于GEO和TCGA數據發表的文章指數級增長。
吉賽生物融合數據挖掘技術、生物信息學和醫學統計學,挖掘公共數據庫并提取有價值的信息,加速科研進度。
部分結果示例
圖1. 公共數據挖掘思路及結果展示
1. 公共數據挖掘
根據客戶需求,挖掘TCGA、GEO、SRA等公共數據庫蘊含的多層面的疾病數據,提供差異篩選、功能富集、靶基因預測、網絡分析、生存分析、分子標志物分析等多種生物信息學分析內容。
2. 免疫浸潤分析
免疫浸潤分析可在轉錄組表達水平反映各樣本的免疫活性狀況,揭示組織細胞的免疫微環境。腫瘤具有很強的異質性,同一腫瘤在不同個體之間具有不同的免疫活性,而具有相似免疫活性狀況的樣本則可能處于相同的免疫微環境,免疫浸潤分析是腫瘤微環境分析的強有力手段。
3. 預后分子分型
通過分析癌癥等疾病樣本中的基因信息(表達、甲基化等)以及臨床信息,使用多種分類器挖掘預后相關標志物,為疾病的預后提供有效的預測模型。
4. 生物標記物分析
通過分析癌癥等疾病和正常樣本的基因信息(表達、甲基化等),使用分子建模的方法,發現早期診斷標志物。