Common cancer genetic analysis methods and application study based on TCGA database
Xin Li, Mengwei Li, Yinan Zhang, Hanmei Xu
近年来,随着高性能计算机集群技术支持的新一代测序机和自动化分析的高通量测序平台不断问世、基因组测序分析成本大幅降低、基因组数据共享平台层出不穷,以及大量的基因组数据被上传至互联网,为研究人员开展大规模的基因组学研究创造了便利条件,同时肿瘤基因组学的研究也越来越深入。由此,整合多种癌症基因组数据的The Cancer Genome Atlas (TCGA)数据库应运而生,为研究人 员快速、准确地获取肿瘤基因组数据提供了很好的途径。
1 常见基因数据分析方法
1.1 生存分析
生存分析是一类用于计算在一个集合内对于给定的时间段中影响因素与给定结果或时间事件之间关联的统计学方法,该方法的特点是可以对时间事件进行分析,其中Kaplan-Meier生存分析和Cox回归分析是两种最常用的时间事件标准化统计学方法。Kaplan-Meier生存分析可以基于一个影响因素对事件进行分析,每个独立个体的时间范围由记录点开始一直延续至事件发生点。Cox回归分析是一种多参数回归模型,该模型以生存结局和生存时间为因变量,可同时分析多种因素对生存期的影响[1]。在随机对照临床试验中,Kaplan-Meier生存分析是首选的数据分析方法[2]。对于多影响因素事件,可选用Cox回归分析。基于这两种分析方法的特点,在基因数据分析中,Kaplan-Meier多用于分析基因表达与生存周期的关系,而Cox回归多用于分析预后影响因素与生存周期的关系[3]。1.2 差异表达分析和聚类分析
差异表达是指同一基因在两个条件中的检测结果在排除系统误差、人为误差等因素后具有较为明显的差异,通常用P值来表示。这种差异可以通过外显子测序、芯片筛选等方法检测。比较同一基因在不同条件下的表达量差异是筛选潜在功能基因的第一步,通常由统计学工具辅助完成。常用的算法包括倍数法、t检验法、方差分析、SAM法、贝叶斯法和信息熵法等[4],这些统计学方法各有其优势和不足(表1)。Table 1
表1 基因差异表达分析方法优缺点
Table 1
分析方法 | 优点 | 缺点 |
倍数法 | 计算量小,一般用于大规模初筛 | 具体阈值较难确定 |
t检验法 | 能充分利用样本信息,检验效率高 | 在数据量较小时,对总体方差的估计不准确 |
方差分析 | 不受比较组数的限制,且可以同时分析多个因素的作用 | 多重假设检验可能带来放大的假阳性率 |
SAM法 | 假阳性率低 | 诊断能力较差,ROC指数相对偏低 |
贝叶斯法 | 样本量小时也可得到较好的分析结果 | 对卡方分布和指数分布的数据不敏感 |
信息熵法 | 无需样本的类别信息即可进行筛选 | 不能得到差异表达的基因 |
1.3 受试者工作特征曲线分析
受试者工作特征曲线分析(receiver operating characteristic, ROC)最早起源于第二次世界大战时期,最初用来降低雷达兵们的误报率和漏报率,现多用于临床疾病诊断临界点寻找、不同检测方法对同一疾病的识别能力的比较、单一生物标志物对疾病的诊断准确度和筛选对疾病发生发展有显著影响的潜在基因。ROC曲线是一条通过二分类方式拟合的非线性曲线,其纵坐标为敏感度,横坐标为(1-特异性),评价指标为曲线下面积(area under the curve, AUC)。与生存分析最大的不同点在于ROC曲线分析不考虑时间因素,且不需要将试验结果分为两类,因此一般不用于分析预后等时间相关事件。ROC曲线分析的优点是直观、简单,可用肉眼看出结果。而缺点是对临界点的寻找没有明确的限定,可能一定程度上影响数据分析结果。在许多生物信息学分类分析时,ROC分析经常出现正相关显著低于负相关的现象,因此研究人员对其进行了改进,加入了精确率与反馈率曲线 (precision-recall, PR),这一优化使正负分类结果相对平衡,已经在R语言中实现了应用。对于不同条件间ROC比较,则需要分别对其AUC进行处理,消除抽样误差带来的影响,常用的处理方法有Delong法和Hanley法[6,7]。1.4 Meta分析
2 TCGA数据库
2.1 数据库简介
肿瘤被认为是人类最复杂疾病之一,目前为止人类已经发现了超过200种肿瘤亚型。肿瘤病人基因中发生的变化如体细胞突变、拷贝数变异、基因表达量差异和表观修饰变化与其特定的肿瘤亚型是相对应的。因此,为了更好地发现、诊断和治疗肿瘤,对其基因变化进行深入研究和建立相应数据库是目前所急需的[10]。2006年,美国国立癌症研 究院(National Cancer Institute, NCI)和美国国立人 类基因组研究院(National Human Genome Research Institute, NHGRI)合作开展了The Cancer Genome Atlas (TCGA)数据库计划,该计划旨在通过大规模基因测序和综合性、多维度的分析手段来寻找由肿瘤发生发展造成的基因变化,构建肿瘤基因相关的全方位“地图集”[11]。TCGA计划分为两个部分:第一部分从2006~ 2008年选择了具有严重不良预后且危害公共健康的3种常见肿瘤(脑癌、肺癌和卵巢癌)进行数据采集和分析,从而对其数据库整体框架的构建进行基本测试;从2009年开始进入第二阶段,扩大肿瘤类型至33种并扩大样本量进行6种数据类型的记录和分析(图1,A和B),这一过程虽然耗资巨大但成果显著。近年来科研人员已经依据TCGA数据库在多种肿瘤中发现了潜在的临床标志物和治疗靶点[12,13,14,15]。

Fig. 1Tumor types and numeric types of TCGA database
2.2 TCGA数据类型
TCGA使用基于芯片技术的高通量测序方法和二代测序技术来精确记录肿瘤基因组的全方位信息,除此之外,TCGA还记录并追踪了病人的临床信息包括性别、年龄、肿瘤分期、复发和预后情况等,从而有利于对其开展多因素综合性的分析。以下为TCGA数据库中较为常见的数据类型。2.2.1 RNA测序数据
RNA测序(RNA-seq)是一种针对转录组进行测序的高通量技术,其特点是可以在大量样本中快速识别和量化不同表达水平的转录组,检测异构体变化、找到新的转录组、筛选融合基因和非编码RNA (ncRNA)。TCGA数据库中提供了RNA序列、基因表达量、外显子序列和突变点等信息的记录,这一数据库为肿瘤转录组研究人员提供了大量数据和样本信息支持[16,17]。
2.2.2 MicroRNA测序数据
2.2.3 DNA测序数据
2.2.4 单核苷酸多态性检测数据
单核苷酸多态性检测(single nucleotide polymorphisms, SNPs)是指由单一核苷酸的改变所引起的序列多态性,TCGA选择了Illumina平台的分子量阵列技术来检测多种肿瘤基因组中SNP水平的变化,此外还能记录拷贝数变异(copy number variation, CNV)和杂合性缺失(loss of heterozygosity, LOH)[24]。
2.2.5 DNA甲基化测序数据
2.2.6 反向蛋白质阵列表达数据
反向蛋白质阵列(reverse-phase protein array, RPPA)A: TCGA收录的33种肿瘤类型的体内分布示意图。ACC:肾上腺皮质癌;BLCA:膀胱癌;BRCA:乳腺癌;CESC:宫颈鳞状细胞癌;CHOL:胆癌;COAD:结肠腺癌;DLBC:弥漫性大B细胞淋巴瘤;ESCA:食管癌;GBM:多形性胶质母细胞瘤;HNSC:头颈部鳞癌;KICH:肾嫌色细胞癌;KIRC:肾透明细胞癌;KIRP:乳头状肾细胞癌;LAML:骨髓癌;LBB:低分化脑胶质细胞瘤;LIHC:肝癌;LUAD:肺腺癌;LUSC:肺鳞状细胞癌;MESO:间皮瘤;OV:卵巢癌;PAAD:胰腺癌;PCPG:肾上腺癌;PRAD:前列腺癌;READ:直肠癌;SARC:肉瘤;SKCM:皮肤黑色素瘤;STAD:胃癌;TGCT:睾丸癌;THCA:甲状腺癌;THYM:胸腺癌;UCEC:子宫内膜癌;UCS:子宫癌;UVM:葡萄膜黑色素瘤。B:TCGA记录的6种测序数据类型。是一种高通量、高灵敏度、可重复的蛋白检测技术,可同时用500个抗体对超过1000个样本进行检测,可以用于分子标志物筛选、分子靶标识别、肿瘤细胞亚型分析和药效学评价。TCGA数据库收录了RPPA分析的原始图片,原始信号强度,相对蛋白表达量以及标准化后的蛋白信号[28]。
2.3 TCGA数据库资源获取方法
TCGA数据库提供的数据量较大,一般需要专业的工具下载和处理,研究人员可以直接访问TCGA数据库网站(https://portal.gdc.cancer.gov/),使用其自带的GDC-Client进行下载。也可以利用编程语言R中的多种包如TCGA2STAT、RTCGA等进行下载。此外,还可以使用一些研究人员制作的第三方工具如TCGA-Assemble等进行数据下载和初始化处理。3 基于TCGA数据库分析的应用实例
3.1 针对单一类型数据的研究
三阴性乳腺癌(triple negative breast cancer, TNBC)是一种高异质性和侵略性的疾病,且目前为止没有明确有效的治疗靶点,在依据肿瘤亚型为基准的个体化医疗时代,TNBC相比于其他类型的乳腺癌有更高的死亡率。但在临床中发现,约有1/3的病人通过常规化疗手段使病情得到完全缓解。因此,Jiang等[29]以对化疗敏感为条件在TCGA、METAVRIC等数据库中选择了约400例样本的肿瘤组织和正常组织外显子序列进行研究。在分析中他们发现以BRCA1分子为核心的AR-和FOXA-调节网络的突变与化疗敏感性有较高的相关度。进一步分析发现以BRCA1/2低表达为表型的BRCA基因缺陷型TNBC病人有更高的化疗敏感性和更长的化疗后生存周期。除此之外,通过体外实验发现BRCA缺陷型TNBC病人体内不仅有相对更高的突变率且体内表达了一种可以增强免疫细胞活性的新抗原。因此,BRCA缺陷可以作为一个潜在的三阴性乳腺癌分类标签。IsomiRNA是一类序列或长度发生变化的异构体miRNA,这类RNA的靶点和功能会较原有的标准miRNA有所变化。在肿瘤发生过程中,这类miRNA被认为对其有潜在的调控作用。Omar等[30]通过对TCGA-miRNA数据集中乳腺癌的数据进行分析,发现has-miR-140-3p和5°isomiR-140-3p在乳腺癌中均高表达。他们对这两种miRNA进行功能分析发现,两者均能通过作用于增殖和迁移相关的基因从而对肿瘤细胞的生存和转移有显著的调控作用,且二者之间存在协同作用关系。
3.2 针对多组学数据的研究
由于胰管腺癌病患的异质性高导致现阶段的治疗效果不理想,Gibori等[31]尝试利用RNAi技术进行多靶点给药,从而解决这一问题。他们首先通过对TCGA数据库中胰管腺癌的蛋白质阵列数据和microRNA测序数据进行分析,结合病人的生存情况找出与生存时间显著正相关的microRNA和显著负相关的蛋白质,分别为miR-34a和PLK1。他们还利用两亲性谷氨酰胺聚合物作为纳米载体,将miR-34a的类似物(miR-34a mimic)和抑制PLK1蛋白表达的siRNA共同偶联至载体表面进行体内外给药实验。小鼠移植瘤模型研究发现这种双靶点纳米制剂可以有效靶向至胰管腺癌的发病部位并抑制肿瘤生长,这为胰管腺癌的治疗提供了新思路。TCGA数据库提供了30余种肿瘤类型的相关数据,这使得泛肿瘤研究的进展大大提升,Thorsso等[32]对TCGA中33种肿瘤类型的超过10000例样本的全部6种数据进行免疫基因组分析,使用160个免疫表达特征进行打分,通过聚类分析将这10000余个样本进行分类,最终基于不同的免疫表达特征分为6类,包括IFN-γ主导型、炎症型、淋巴细胞耗尽型、免疫沉默型和TGF-β主导型等。基于这6种分类,研究人员对不同类别中的肿瘤免疫浸润构成、免疫反应与体细胞多样性的相关性、免疫反应与预后的相关性、不同免疫亚型与预后的相关性、免疫原性的变化、免疫调节剂的表达差异等进行了进一步的关联分析,从而证明了这种分类的准确性。这一分类几乎包括了人类所有的恶性肿瘤类型,这为从免疫基因组学角度预测疾病走向和病人预后提供了帮助。
精准肿瘤学是一门分析个体差异从而指导肿瘤治疗的学科。近年来研究发现,多组学特征可以用来预测肿瘤患者的临床特征,但多组学数据计算量大,分析难度高且大部分医生没有学习过相关的生物信息学知识,因此Yu等[34]建立了Omics Analysis System for PRecision Oncology (OASISPRO)系统,用于挖掘和量化TCGA数据库中的多组学数据。该系统可以将临床样本数据可视化,并基于机器学习相关算法找出与临床分期相关的基因,以及预测患者生存时间,这对精准治疗和个体化用药提供了指导。
Omics Pipe是一个模块化的云计算平台,该平台可以根据用户要求自动获取TCGA数据库中的相关数据集,并进行多组学整合分析,此外还可以自定义组学分析和在平台框架基础上加入自己的计算模块,自由度更高。该平台是用python代码构建而来,所有的计算与分析工作都是依托亚马逊云服务器完成,平台构建的目的是为广大生物学家提供一个模块化的高通量数据分析框架,使数据分析变得更简单和高效[35]。
4 结语与展望
