cBio Cancer Genomics Portal:研究多维癌症基因组学的开放平台

  • A+
所属分类:研究方法

cBio Cancer Genomics Portal是一个多维癌症基因组学的开放平台,迄今提供20项肿瘤研究的5000余种肿瘤样本的免费数据。cBio Cancer Genomics Portal明显减少了复杂的基因组数据和肿瘤研究者希望快速、直观和高质量的大型肿瘤基因研究中得到研究分子特性和临床特征之间的距离,并且授权研究人员把这些丰富的数据研究出生物学的特点和应用于临床。

cBio Cancer Genomics Portal简介

随着基因测序成本的降低,以及一些国家和国际组织的努力,如癌症基因图谱(Cancer  Genome  Atlas, TCGA, http://cancergenome.nih.gov/)和国际癌症基因组联盟(The International Cancer Genome Consortium, ICGC),肿瘤基因组学的研究取得突飞猛进的发展。但是现在的癌症研究结果并不能直接的应用于癌症预防和治疗,阻碍了把基因组学得到的数据应用于肿瘤生物学领域、临床实验、药物开发等等。cBio Cancer Genomics Portal(http://cbioportal.org/)由纪念斯隆-凯特琳癌症中心(Memorial  Sloan-Kettering Cancer  Center, MSKCC)资助,主要用于解决大样本肿瘤基因组学研究所得到的大量数据问题,以利于大样本肿瘤基因组研究结果更容易和更直接的应用于肿瘤研究(图A)。

cBio Cancer Genomics Portal:研究多维癌症基因组学的开放平台

图处来源于The cBio Cancer Genomics Portal: An Open Platform for exploring Multidimensional Cancer Genomics Data

cBio Cancer Genomics Portal迄今包含5个发表的肿瘤数据,15个TCGA提供的数据。TCGA提供的数据根据TCGA的研究进展每月都会更新,并且如果TCGA增加了新的肿瘤,cBio也会随之添加。发表论文的肿瘤数据包括含有基因突变数据,但是TCGA提供的数据并不包含这些。TCGA的每个肿瘤类型一但确定,并且验证了体细胞突变,TCGA会提供突变数据,cBio也会随之添加突变数据。除了突变数据,cBio还有一些拷贝数变化、基于微陈列和RNA测序的mRNA表达改变,DNA甲基化,蛋白和磷酸化水平的改变。

cBio Cancer Genomics Portal初级使用

每种数据存储于基因水平,并结合现有的有效的临床资料,如总生存率和无病生存时间等。然后数据根据患者和基因的功能进行组织,提供基因改变简要介绍,我们可以把因突变、纯合子缺失、扩增或者mRNA基于我们自定义的改变倍数的增加或减少的表达改变等引起的基因改变进行分类。这样可以使我们分析复杂数据,以研究根据现有的基因改变的生物学假设和肿瘤生物学特性。

cBio最重要的特点是易用。网站可以通过网站页面4步进行。我们可以选择以下使用方法进行

① 肿瘤研究,如TCGA多形性胶持母细胞瘤;

② 一个或者多个基因特性的研究,如基因的突变和拷贝数的变化;

③ 患者的研究,如TCGA提供的患者的GBM突变,拷贝数和mRNA数据;

④ 多基因研究:用户可以输入HUHO基因符号,基因别名,或者Entrez Gene IDs,并且可以输入任意的基因组合或者通路。

我们还可以选择利用计算机自动计算一对基因之间的排他性和共生性。最后我们可以进行多个肿瘤查询选项,通过一个简单的两步查询,只要求用户选择「All Cancer Studie」并输入基因即可。

例如,为了可视化研究视网膜细胞瘤在TCGA GBM数据通路上的改变,我们可以选择上面所提供的1-3项,并在第4步中输入「RB1」,「CDK4」和「CDKN2A」。根据我们所输入的数据,网站会自动生成一系列结果,每个用Tab分隔符进行分开。这些结果的第一项是是所有患者基因组数据,通过一个简明扼要的OncoPrint图进行展示,每个基因用行来表示,样本或者患者用列来表示,符合和/或颜色编码用来总结不同的基因组的改变,包括突变,拷贝数变化和mRNA表达。OncoPrints可以用于可视化分析基因的和一组病例途径改变,从图形上分析一些有用的趋势,如基因组中一对基因之间的排斥和共生发展趋势。例如图B中,RB途径中的基因改变易于互相排斥,可以看到统计学检测的共生/相互排斥。

在每个单独的标签中含有Network  Analysis,  Correlation  Plots,  Survival  Analysis, Mutation  Details,  Event  Map,  Data  Download,  和Bookmark/E-mail。我们可以观察到RB1突变可以引起强烈的功能效果(图C,突变详情)。进一步评价CDK4 mRNA表达在扩增中的增加(图D),RB途径中的改变的生存率比没有RB途径改变的样本的生存率较低(P=0.0513,图E)。我们同样可以选择Event Map或者Data Download来拷贝和粘贴信息到电子表格中,或者选择Bookmark/E-mail和团队成员分享结果。我们还可以通过Integrative Genomics Viewer查看拷贝数的细节。

cBio还提供交互分析和可视化分析癌症研究中网络改变。网络包括路径和开源途径的共享项目的相互作用。默认情况下网络包含用户选择的所有种子基因的邻近基因。如果网络中有50个以上的邻近结点,所有的基因通过特定癌症研究中的基因组变异频率进行排名。cBio默认自动多维基因组数据覆盖到每个节点,并且突出突变和拷贝数改变的频率改变(mRNA上调/下调)。这提供了管理网络复杂性的一种有效方法,自动突出那些有疑问的和癌症类型有直接相关的基因。我们还可以下载整个分析结果。

例如,我们使用cBio来确定在卵巢癌中同源重组DNA修复途径的基因组改变。BRCA1和BRCA2是同源重组途径中最著名的两个,缺陷同样可以废除同源重组功能,可以导致对PARP抑制剂的潜在敏感性。为了确定卵巢癌中可能的HR缺失,我们使用BRCA1和BRCA2作为种子结点,研究改变的结果(图F)。我们会发现C11orf30/EMSY(扩增6%,突变1.6%)的改变,这是一个BRCA2的耦合子,作为HR功能缺失的一个可能的替换方法。我们还可以通过改变频率过滤结果,突出相近结点或者选定的基因,隐藏特定的结点,筛选一组选择的节点,或者通过基因符号查找网络。例如我们使用基因查找来确定所有的Fanconi Anemia基因改变,并且确定FANCA的低频率改变(患者中有3.5%的改变),以及FANCE改变(2.8%的患者出现改变)。

网站还提供可视化Pfam查询的蛋白突变。例如,BRCA1最常见的突变是密码子23和1756位的移码突变,也分别称为175delAG和5382InsC突变(图G)。

cBio还提供蛋白和蛋白磷酸化的数据集成和分析。例如卵巢癌,GBM和肠癌的来源于反相蛋白排列的大样本的蛋白组学数据。网站所生成的的散点图可以比较蛋白质水平和可疑基因的mRNA表达。网站还可查询基因的蛋白和磷酸化水平的改变。我们提交查询请求后,所有的样本分成2组:变异基因组和非变异基因组。每种都可以看到蛋白和蛋白磷酸化水平,不同组间用两样本Student t检验,并给出计算所得到的P值。我们然后可以看到有明显改变和无改变样本之间蛋白或者磷酸化蛋白水平的差异。例如,利用网站我们想发现在卵巢癌中PTEN缺失与AKT的磷酸化明显升高有关。

cBio Cancer Genomics Portal高级应用

我们可以使用OncoQuery语言来限定基因改变的特殊类型。例如我们只想看杂合缺失和突变,不想看PTEN的扩增,这样可以在自动生成的OncoPrint和其它节点中看到,并且可以下载这结结果。网站还提供完整的web服务和MATLAB图书馆接口和R检验数据包。最后,所有资源编码可以免费获取,并遵循GUN Lesset GPL开放协议,在Google Code中(http://code.google.com/p/cbio-cancer-genomics-portal/)要以看到这些协议并下载。如果研究团队希望安装本地的版本来分析自己的实验数据,因此可以根据安装向导进行安装,或者使用Amazon Machine Image进行重建。

小结

总之,cBio可以促进癌症基因组数据用于生物医药领域。它提供一个简单便不失灵活的接口来整合数据,直观的可视化选项,以及程序化的网络界面,所以这些可以帮助研究人员把癌症基因组数据转换成生物信息和应用于临床。通过集成多种基因组数据类型以及减少使用难度,cBio可以让研究人员更开发基因组数据,检验癌症中基因改变的假设,以在现有的生物知识范围内研究基因组数据。cBio补充了现有的工具,如TCGA,ICGC,IGV, UCSC  Cancer  Genomics Browser和IntOGen,通过提供独特的焦点分析分散的基因研究,数据集成,易用,支持探索性数据分析,以及互动性网络分析。

这篇文章是我学习cBio的一个笔记,我本人对基因以前不并了解,神马测序啊,突变啊等等,很多概念并不十分清楚,因此文中的用语肯定存在着不当甚至错误。欢迎专家和同道批评指正。为了避免不必要的错误,本文是编译于Ethan Cerami et.al. The cBio Cancer Genomics Portal: An Open Platform for exploring Multidimensional Cancer Genomics Data.  Cancer Discovery. 2012 May;2(5):401-4. PMID:22588877一文,如果想看全文的童鞋,可以在此下载全文

如有问题和想法,可予科研动力QQ群交流。

weinxin
公众号
科研动力微信公众号,欢迎关注!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: