Structural characteristics of natural chimeric genes and their implications for gene design
Yingxia Li

编委: 张勇
Yingxia Li, Tingting Zhang, Lei Ma.
天然嵌合基因(natural chimeric gene)是指两个或两个以上的独立基因(即亲本基因),通过染色体重排、相邻基因转录通读、反式剪接等方式天然融合而成的新基因,又称融合基因。天然嵌合基因的亲本基因可以位于不同染色体,也可位于同一染色体的不同DNA链,亦可在同一条DNA链,但嵌合基因与亲本基因的外显子排列顺序不同[1]。
随着深度测序技术和基因融合比对算法的迅速发展,各种类型的嵌合数据海量般的产生,目前已经在8个物种中发现了约34 900条嵌合转录本[7],已引起越来越多研究者的关注,其结构和功能的特点逐渐显露。本文基于嵌合基因生物信息学方面的相关研究,从天然嵌合基因的形成方式、融合特点、转录、调控,以及融合蛋白的结构域组合形式和功能等方面进行了相关综述。
1 天然嵌合基因的形成方式
天然嵌合基因的形成可以分为两个层次即DNA水平和RNA水平(图1)。嵌合基因DNA水平的形成主要包括染色体内的重组和染色体间的重组,重组可以导致基因的融合。1960年,美国宾夕法尼亚大学Peter Nowell教授和 Fox Chase癌症中心的David Hungerford研究员首次发现染色体变异可导致基因嵌合[8,9]。1973年,美国芝加哥大学Janet Rowley教授发现费城染色体的畸变由染色体易位所致,并在白血病中发现了第一个融合基因[10]。染色体重排事件分为染色体的缺失、重复、插入、翻转、易位和环状染色体等,这些结构性的变异都可形成嵌合基因,并与肿瘤疾病相关[11,12]。由融合基因导致的疾病涉及各种组织,包括乳腺[13,14,15]、肺[16]、前列腺[17,18,19,20]、胃[21]、淋巴[22]和软组织[2]等。另外,融合基因在不同癌症中的患病率也有很大差别,例如,90%的慢性髓细胞性白血病是由BCR-ABL1基因融合产生[23];79%的前列腺癌患者是由TMPRSS2-ETS融合基因导致[24];33%的软组织疾病是由融合基因导致[16]。RNA层次的融合即RNA嵌合,是一种非共线型的RNA编辑。mRNA前体分子(pre-mRNA)的反式剪接是产生嵌合RNA的主要方式,也是真核细胞RNA转录后加工的一种重要机制。1984年,在锥虫(Trypanosoma)中首先发现反式剪接的现象[25]。此后,陆续在其他一些生物,如烟草(tobacco)[26]和衣藻(Chlamydomonas rainhardii)[27]中也证实存在反式剪接。哺乳动物中也发现了反式剪接转录本[28],如在大鼠(Rattus norvegicus)中发现的两个基因,肉毒碱辛基转移酶和中链酞辅基A合成酶,是较早发现的由反式剪接加工合成的嵌合基因[29,30,31]。利用第二代深度测序技术研究发现,在一些原本认为反式剪接发生很稀少的高等真核生物中,也存在大量的嵌合RNA,如人类ENCODE计划指出约有65%的基因可能参与了嵌合RNA的形成。由RNA嵌合产生的嵌合蛋白,同样可以导致肿瘤或非肿瘤的疾病,例如,DNAJB1-PRKACA嵌合蛋白就与纤维板层肝细胞癌的形成有关[32]。

Fig. 1The formation of chimeric genes
2 天然嵌合基因的融合位点特征及翻译特点
RNA剪接可产生许多具有功能的mRNA异构体,对生物的发育及进化至关重要。真核细胞pre- mRNA剪接位点处存在一定的序列保守性,其内含子5°端(供体位点)和3°端(受体位点)的碱基常为GU和AG,因此被称为GU/AG规则。嵌合RNA融合位点也遵循GU/AG的规则[33]。在癌症中,产生嵌合基因的染色体断点位置,具有非随机性和复发性的特点,易受细胞核中邻近染色体的空间位置和DNA序列特征的影响,如碱基序列的重复、脆性位点和酶识别位点等[34]。
研究发现98%的染色体断接,会保留基因的阅读框(reading frame),即嵌合基因与原亲本基因的阅读框一致,未产生移码突变[35],这种融合被称为框内融合(in-frame fusion)。然而,对13种由基因融合导致肿瘤的相关研究发现,只有36%的融合转录是框内转录[36]。前列腺癌中融合基因的相关研究,发现可转录的融合基因较少,多为阅读框移位,即嵌合基因与亲本基因阅读框错位[17]。
3 融合蛋白的结构和功能特性
3.1 融合蛋白的结构域组合特性
同一种结构域,可以在不同的融合事件中反复出现[35]。在融合蛋白中反复出现的结构域,包括络氨酸激酶、EWS活性结构域和Runt结构域。首先,Frenkel-Morgenstern等[37]首先,对人类嵌合序列与随机产生的嵌合序列进行结构域的预测,发现人类嵌合基因包含的结构域显著高于随机产生的嵌合序列;其次,又将预测的融合蛋白结构域种类与人类非融合蛋白结构域种类进行分析,研究发现融合蛋白具有69%的蛋白结构域类型,而且一些结构域在嵌合蛋白中出现的频率,显著高于其亲本蛋白,包括AT hooks(涉及转录调控)、MHC(膜蛋白)和受体酪氨酸激酶催化结构域(受体蛋白)等;最后,将融合蛋白的结构域组合模式与非融合蛋白结构域组合模式进行对比,发现了一些正常蛋白中不常见的结构域新组合,如HLH (helix-loop-helix)和GTP_ EFTU (GTP-binding domain)、Hydrolase_3 domain和Polyprenyl_synt、coiled_coil domain和ZnF_C2C2等。
为了深入了解嵌合基因的结构域特征,本课题组曾对1 007条猪的嵌合RNA及其亲本,进行了结构域及其组合模式的分析[37]。通过SMART预测,获得584种嵌合结构域,与ENSEMBL上猪已知亲本的蛋白结构域对比,发现嵌合结构域的来源为:(1)嵌合蛋白结构域可仅来自于上游亲本,下游亲本为其3°UTR,形成CDS–3°UTR模式;(2)嵌合结构示意图呈现了嵌合基因的基因结构,其中A为CDS–3°UTR形式,B为5°UTR–CDS形式,C为CDS–CDS形式。直线:5°UTR,方框:阅读框,波浪线:3°UTR。浅灰色为上游亲本基因片段,深灰色为下游亲本基因片段。SP:可能具有的信号肽结构(signal peptide)。垂直箭头:为上下游亲本基因片段的融合位点(fusion site)。

Fig. 2The location of the fusion sites
嵌合转录的产物可与亲本蛋白竞争底物,形成多聚体或与DNA结合,对抗正常蛋白,从而在癌细胞中出现显著负效应。当融合涉及转录激活因子或抑制因子时,与亲本蛋白的竞争倾向性更强,如在急性髓系白血病中发现的RUNX1-ETO融合蛋白[38~40][。RUNX1是造血干细胞分化的关键调节因子,RUNX1- ETO融合蛋白保留RUNX1转录因子的DNA结合Runt同源结构域,可继承结合RUNX1靶基因的功能;同时,该融合蛋白还含有转录阻遏因子ETO的大部分结构域,进而其还具有转录抑制的功能。当RUNX1-ETO融合蛋白结合到RUNX1靶基因时,会抑制RUNX1靶基因的转录,干扰正常功能,阻断分化,产生显著的负效应,引发白血病[38]。
3.2 信号肽对嵌合蛋白细胞定位的影响
在真核细胞中,信号序列通常为15~30个氨基酸长度,可在内质网上引导蛋白质运输。在ChimerDB数据库中的7 224条人类嵌合转录本[41],32%包含信号肽;在Li等[42]的嵌合基因数据集中,34%的嵌合转录本包含信号肽;175条由RNA-seq数据鉴定的嵌合转录本[43],29%包含信号肽。然而,在人类基因组中,只有22%的基因包含信号肽,显示信号肽显著富集于嵌合转录本中[43]。为了探索嵌合基因信号肽的分布情况,本课题组曾利用SignalP 4.1分析了1 007条猪嵌合基因的信号肽,其中13%含有信号肽。同时以猪的整个基因组为背景,分析了25 882条猪的基因,12.5%含有信号肽。在猪的基因组中,未发现嵌合基因信号肽与非嵌合基因的信号肽存在差异。本课题组还进一步分析了猪嵌合基因和它的一对亲本基因的信号肽,发现嵌合基因的信号肽有4种来源(可参见图2):(1)上游亲本基因有信号肽,而下游亲本基因没有,信号肽来自上游亲本。融合到嵌合蛋白中的下游亲本结构域,可能会因上游亲本的信号肽,而改变细胞定位;(2)下游亲本有信号肽,上游亲本没有信号肽,信号肽来自下游亲本,形成5°UTR–CDS形式;(3)一对亲本都有信号肽,根据融合位点与起始密码子和终止密码子之间的关系,嵌合信号肽即可能来自上游亲本也有可能来自下游亲本;(4)一对亲本基因都没有信号肽,嵌合蛋白却含信号肽,其可能来自移码突变。嵌合转录本在翻译的过程中存在移码框突变,例如,PML/RARalpha可以产生移码框转录[44]。
3.3 跨膜结构域对嵌合蛋白细胞定位的影响
在ChimerDB数据库中的7 224条人类嵌合转录本[41],51%包含跨膜结构域;在175条由RNA-seq鉴定的嵌合转录本中[43],50%包含跨膜结构域;在Li等[42]的嵌合基因数据集中,55%包含跨膜结构域[43]。在人类基因中,23%包含跨膜结构域,跨膜结构域显著富集于嵌合基因中[43]。为深入探讨嵌合蛋白的跨膜结构域,本课题组利用TMHMM 2.0鉴定了1 007条猪嵌合基因的跨膜结构域,其中19.9%含有跨膜结构域。同时以猪的整个基因组为背景,分析了25 882条猪的基因,25%含有跨膜结构域。在猪的基因组中,跨膜结构域显著富集于非嵌合基因中,与人类上述结果存在差异。本课题组还进一步对比分析了猪嵌合基因的跨膜结构域和它的一对亲本基因的跨膜结构域。在含有跨膜结构域的嵌合蛋白中,跨膜结构域也有4种来源:(1)上游亲本基因有跨膜结构域,下游亲本没有,跨膜结构域来自上游亲本基因。此时,融合到嵌合蛋白中的下游亲本结构域,有可能因上游亲本的跨膜结构域而改变细胞定位;(2)下游亲本有跨膜结构域,上游亲本没有跨膜结构域,跨膜结构域来自下游亲本;(3)一对亲本都有跨膜结构域,嵌合跨膜结构域即可能来自上游亲本,也有可能来自下游亲本;(4)一对亲本都没有跨膜结构域,嵌合蛋白的跨膜结构域来自读框移位。此外,在不含跨膜结构域的嵌合蛋白中,发现虽然上下游亲本均有跨膜结构域,或两亲本其中之一包含跨膜结构域,但嵌合基因发生了读框移位或结构域异常,失去跨膜结构域。
3.4 上游亲本和下游亲本对嵌合产物的影响
通过对融合蛋白结构域和蛋白相互作用的分析,发现上游亲本和下游亲本存在结构性质上的差异[45]。首先,虽然上游亲本和下游亲本,都存在DNA结合结构域和蛋白相互作用结构域;然而在下游亲本中,鲜见激酶和组蛋白修饰结构域。上游亲本和下游亲本结构域的组合,对嵌合功能存在着至关重要的影响,例如,蛋白质相互作用域与DNA结合域和激酶结构域,不成比例地共存时,会形成信号传导缺陷的组合[46]。其次,二者的结构域保留于嵌合基因的模式也有差异,下游倾向于保留结构域的重要组成部分和相互作用界面,而上游则倾向于保留UTR区域。3.5 长链非编码RNA参与嵌合基因的形成
目前研究已证实长链非编码RNAs(long no-coding RNAs, lncRNAs)参与融合基因的形成。例如,ETV1与前列腺癌前列腺特异性lncRNA之间的融合[47],以及B细胞淋巴瘤患者中BCL6原癌基因与非编码GAS5基因的融合[48]。这些lncRNA可异常调节与其融合的致癌基因,而本身不具有致癌功能[49]。另外,在亚洲人群前列腺癌的研究中,也发现了几种涉及lncRNA的新型融合物[50],其中包括USP9Y蛋白酶和TTTY15 ncRNA之间的基因融合。这种融合丧失了USP9Y的相关功能。USP9Y-TTTY15融合基因,已成为预测前列腺的生物标志物[51]。lncRNA可以通过细胞核的高级结构,调控真核基因表达[52]。由lncRNA参与的基因融合可能具有一定的生物学功能,但目前鉴定非编码基因融合的方法仍然匮乏,可能系统地忽略实质性的有用信息。
4 融合蛋白的表达调控
4.1 融合亲本对融合蛋白表达调控的影响
4.2 正常组织中融合蛋白的表达调控
融合蛋白的表达不仅局限于癌组织,也存在于正常细胞[58,59,60,61]。例如,在TCGA数据库364个正常组织样本中,鉴定出192个基因融合体[36]。融合蛋白在健康组织中的功能尚不清楚,目前认为可以增加蛋白质组的多样性和复杂性[1,62]。另外,某些看似正常的融合蛋白在其高表达后也与癌症相关。例如,JAZF1-JJAZ1融合蛋白在正常组织中表达水平很低,但当表达水平升高时就会与子宫内膜间质肉瘤的产生有关联[63]。同样,在前列腺癌和良性前列腺组织,都检测到了SLC45A3- ELK4融合转录,但在癌状态下表达水平高[64]。
融合表达的机制可能更复杂。例如,在42%的结肠直肠癌样品中,发现了复发性VTI1A-TCF7L2融合物,而在正常结肠粘膜样品中也有29%的VTI1A- TCF7L2融合物,来自其他器官的正常组织中也存在25%的VTI1A-TCF7L2融合物[65]。因此,融合蛋白在正常组织与癌变组织中表达水平的区别与联系,需要进一步的探索。
5 天然嵌合基因对基因设计的启示
6 结语与展望
