Epigenetic control of transposable elements and cell fate decision
Jiangping He1,2, Jiekai Chen
通讯作者: 陈捷凯,研究员,博士生导师,研究方向:表观遗传与细胞命运决定。E-mail:chen_jiekai@gibh.ac.cn
编委: 陆发隆
Transposable elements (TEs) are the most prevalent elements in mammalian genomes. Although potential risks for genome stability, they are a pool of potential regulatory sequences, chromatin control elements, protein-coding genes, and substrates for evolutionary processes. Consequently, a delicate balance is maintained between the potential benefits and deleterious aspects of TEs, and this balance is mediated by the epigenetic regulatory system. In this review, we introduce the role of heterochromatin associated epigentic modifications such as histone 3 lysine 9 trimethylation (H3K9me3) and DNA methylation in the silencing of TEs as well as epigenetic modifications such as histone 3 lysine 4 monomethylation (H3K4me1) and histone 3 lysine 27 acetylation (H3K27ac) in activation of TEs. Further, we elaborate the functions of TEs as binding sites of transcription factors and as anchors of chromosomal conformation in regulation of gene expression. We introduce the impact of TEs on the process of cell fate determination including natural embryonic development in vivo and artificial cell fate transition in vitro. We discuss the main challenges associated with computational TEs analysis and TEs functions exploration, as well as the different experimental and computational strategies in studying these processes. In all, this article provides a comprehensive review of the research advances and existing problems in study of transposable elements in epigenetic regulatory mechanisms, gene transcriptional regulation, and cell fate determination, thereby providing some references for researchers in the fields.
何江平, 陈捷凯. 转座元件、表观遗传调控与细胞命运决定. 遗传[J], 2021, 43(9): 822-834 doi:10.16288/j.yczz.21-113
Jiangping He.
转座元件(transposable elements, TEs)是一类在基因组内可以自由移动的DNA,最早由美国遗传学家芭芭拉·麦克林托克(Barbara McClintock)在玉米(Zea mays)基因组中发现,并证明TEs能通过“跳跃”调控玉米粒的颜色[1,2]。继此项开创性的工作之后,研究者们发现TEs几乎在所有真核细胞基因组中都存在,并在生命演化过程中扮演着非常重要的角色。
在人类(Homo sapiens)基因组中,总共含有30亿对碱基,但只有约2%能够编码蛋白质,而接近一半的序列由TEs组成,共有超过300万份不同的拷贝,小鼠(Mus musculus)基因组也基本类似。TEs可以扩增并插入到基因组新的位置,调控基因表达,为物种进化提供原动力,是哺乳动物基因组非常重要的组成部分。而TEs在基因组中“随意”移动则会造成大量遗传突变威胁生命安全,因而基因组进化出了一系列调控机制以限制TEs的活性。本文主要综述了TEs在哺乳动物基因组中的主要类别、TEs在哺乳动物中的表观遗传调控模式及在胚胎发育等细胞命运决定中的功能及作用机制。
1 转座元件
基因组中TEs的分类非常庞大而复杂。根据转座方式的不同可以分为两大类:DNA转座元件(DNA transposons)和逆转座元件(retrotransposons)。逆转座元件在转座过程中需要先转录成RNA,由RNA逆转录成cDNA再发生转座。逆转座元件转座后原DNA序列仍然保留,通过逆转录的cDNA插入到新的基因组位点,所以这类转座元件是通过“复制-粘贴”的方式完成“跳跃”。哺乳动物基因组中大部分转座元件为逆转座元件,在人和小鼠基因组序列中占比超过40%[3]。与逆转座元件不同,DNA转座元件则不需要RNA的介导,直接通过转座酶将原位点DNA序列切下来插入到新的位点即可发生转座,通过“剪切-粘贴”的方式完成。人类基因组中大约有500,000个DNA转座元件,约占基因组序列3% (图1A)。在灵长类基因组中,大部分DNA转座元件通常已经失去了转座的能力;相反,活跃的逆转座元件几乎在所有的灵长类基因组中都有被发现[4]。逆转座元件根据其两端是否有长末端重复序列(long terminal repeat, LTR)可分为LTR和非LTR转座元件。LTR转座元件因其在序列上与外源性逆转录病毒非常相似,因此又常被称为内源性逆转录病毒(endogenous retrovirus, ERV)。进化学上认为,这主要是在进化过程中外源逆转录病毒感染宿主或其祖先后,这些逆转录病毒的序列保留在宿主基因组中,并获得生殖系传递,所以这些序列一直保留至今。因此,完整的ERVs元件和外源性逆转录病毒一样,主要由两端的LTR以及中间编码的gag、pol以及env编码序列组成(图1B)。但在进化过程中,由于突变等因素,这些ERVs元件大多被截断掉,导致大部分是非完整性的,很多甚至只保留了单独的LTR序列。在人类基因组中,大约有650,000个ERVs元件,但其中只有2000个保留着几乎完整的ERV序列[3]。人类基因组中有超过300万个非LTR转座元件,占基因组含量约30%,而LTR转座元件只占基因组含量约8%[3]。非LTR转座元件中,又可分为长的散在元件(long interspersed nuclear elements, LINEs)和短的散在元件(short interspersed nuclear elements, SINEs)。其中,LINEs包含编码转座所需要的两个蛋白编码框ORF1和ORF2 (图1B),但与ERVs元件一样,大部分LINEs元件在进化过程中被截断进而失去了完整的编码序列。人类基因组中有约950,000个LINEs元件,但其中只有不到1%具有完整的蛋白编码序列[5]。与LINEs不同,SINEs不包含转座所需要蛋白的编码序列(图1B),它们需要借助LINEs编码的蛋白进行转座。所以ERVs、LINEs常被称为自主性转座元件,而SINEs由于不能编码转座所需要的蛋白,又被称为非自主性转座元件。ERVs、LINEs和SINEs根据序列的不同,又可进一步分为1000多种不同的家族,散在分布在基因组每一条染色体上。图1

A:小鼠基因组中不同序列占基因组的比例。基因注释来源于GENECODE v20,TEs注释来源于RepeatMasker。B:不同种类转座元件结构示意图。
Fig. 1Classification and content of transposable elements within the mouse genome
与小鼠基因组相比,除LINE、SINE、DNA和LTR转座元件外,人类基因组中存在一类特有的被称为SVA(SINE-VNTR-Alu)的转座元件。SVA是类人科(hominoid)物种进化过程中活跃的TEs,大约在2500万年前产生,在人基因组中有约3000个拷贝[6]。经典的SVA全长约2 kb,序列由(CCCTCT)n、Alu样区域、串联重复区域(variable number of tandem repeats, VNTR)、HERV-K10样区域以及Poly-A尾组成。SVA为非自主转座元件,目前的研究证据提示其转座可能依赖于L1的转座机器[6],其中,KRAB锌指蛋白ZNF91/93和SVA/L1在进化过程中互相博弈,抑制进化过程中新生SVA/L1的转座活性[7]。此外,基因组中还存在其他KRAB-ZNF蛋白与转座元件的共进化[8,9]。
1.1 转座元件与表观遗传调控
基因的表达主要受表观遗传修饰调控,TEs亦是如此。TEs由于转座特性会导致基因组不稳定性,所以其表观遗传调控一直以来都是科学研究的重要问题之一。基因组中大部分转座元件通常会被表观遗传所沉默,包括转录水平异染色质的修饰以及转录后水平RNA的修饰。DNA甲基化和组蛋白H3K9me3是负责基因表达沉默的两种最主要的表观遗传修饰,通常高富集这些修饰的染色质会处于沉默状态,如形成异染色质。尽管TEs上的表观遗传调控机制还不是非常清楚,但可以确定的是这两种修饰在TEs表达调控上都起着非常重要的主导作用[15,16]。DNA甲基化通常被认为是体细胞中控制转座元件活性的主要因素[11]。然而,在早期胚胎发育过程中,基因组中发生整体DNA去甲基化,因此会导致部分转座元件活化而表达[17]。然而基因组会以其他的表观遗传方式来代偿DNA甲基化以控制TEs的表达,防止转座元件过度活跃而导致基因组不稳定,H3K9me3介导的异染色质化是其中最主要的方式。锌指蛋白(Zinc-finger proteins, ZFPs)是已知可以直接结合到TEs上并招募Trim28,Trim28能够进一步募集组蛋白H3K9me3的甲基转移酶Setdb1使转TEs异染色质化而被沉默[9,18~20]。能够招募Trim28的KRAB-ZFP蛋白还包括Zfp809、Yy1、Zfp819以及多能性因子Zfp42等[18,20~22],这些锌指蛋白都参与了部分TEs的沉默。有研究表明,与H3K9me3修饰相关的其他表观遗传因子如Suv39h1/2、G9a、Daxx/Atrx等都与TEs沉默有关[17,23,24]。不同H3K9me3甲基转移酶调控的TEs也有所不同,其中Setdb1主要调控ERVs元件,而Suv39h1/2主要调控LINEs元件[15,23]。近期研究还发现,具有m6A修饰的TEs来源的RNA及其相关的甲基转移酶Mettl3以及识别因子Ythdc1等在对TEs的沉默起着至关重要的作用[25,26,27] (图2A)。除H3K9me3外,H4K20me3、H4R3me2以及组蛋白变体H3.3都被发现在TEs区富集并参与了转座元件的转录调控[28,29]。此外,许多其他表观遗传因子如Uhrf1、Kdm1a、Rif1、Sumo2、Chaf1a/b、Tet2、胞嘧啶脱氨脱氨酶APOBEC3家族以及RNA结合蛋白TRIM33等在转座元件调控中起着非常重要的作用[22,30-37]。除以上提到的表观遗传修饰外,本课题组的研究还发现不同的TEs之间表观遗传调控方式存在明显差异[38],基因组中TEs的表观遗传调控非常精密而复杂(图2B)。

Fig. 2Mechanism of transposable elements silencing
除大部分TEs被表观遗传修饰沉默外,也存在少部分TEs在特定的细胞类型中被特定的表观遗传修饰所激活。组蛋白修饰H3K27ac、H3K4me1和H3K4me3通常被认为是基因激活的标签,其中H3K27ac和H3K4me1是活性增强子的表观修饰标记,H3K4me3是活跃启动子区表观遗传修饰,这些修饰同样也在部分TEs染色质区域富集从能激活其表达。比如在小鼠滋养外胚层干细胞(trophoblast stem cell, TSCs)中,转座元件RLTR13D5上就显著富集H3K4me1和H3K27ac修饰,并且激活RLTR13D5作为增强子进一步招募TSCs核心转录因子CDX2、EOMES和ELF5的结合[39]。类似的,在人胚胎干细胞中,转座元件LTR77等富集H3K4me1修饰[40];在小鼠胚胎干细胞中,转座元件RLTR9、RLTR13等富集H3K27ac和H3K4me1修饰被激活并调控基因表达[41。
1.2 转座元件与基因转录调控
TEs可以通过多种方式调控基因表达[42,43]。总体而言,大多数TEs在基因组内呈散在分布,但对部分TEs而言,它们的分布并非完全随机。人类基因组中约25%的基因启动子由TEs构成[44],并且基因的表达与其附近TEs的分布及含量有显著联系,其中基因附近SINEs的含量与基因表达呈正相关关系,而LINEs的含量与基因表达呈负相关关系[45]。此外,TEs也可通过作为增强子调控基因表达,并对多种生物学功能如胚胎干细胞多能性维持、胎盘发生、神经发生、免疫反应以及生殖系细胞形成等过程具有重要调控作用[14,46,47]。并且,TEs也可在转录后水平调控基因表达,如影响基因的可变剪接、RNA编辑、细胞内定位等[48,49]。此外,TEs也可为许多转录因子如多能性因子POU5F1、SOX2、NANOG、ZFP42,中内胚层相关转录因子FOXA2、GATA4、SOX17等提供结合位点进而调控基因表达[50,51]。值得一提的是,TEs对基因组三维结构的维持与构建也发挥着重要的作用,如LINE1、B1/Alu (属于SINEs家族)转座元件对三维基因组A/B区隔化起到重要的调控作用[52]。同样,转座元件MERVL和HERVH分别为小鼠早期胚胎和人心肌细胞发育过程中拓扑结构域(Topologically associating domain, TAD)的形成提供锚点,以完成对基因的区块化调控[53,54]。此外,许多TEs还能作为染色质高级结构塑造因子CTCF的结合位点,形成增强子/绝缘子-启动子相互作用套环,实现针对单个基因的精确调控[55,56,57]。同时,TEs还可通过反式作用如通过lncRNA、miRNA等非编码RNA的形式调控基因表达[48,50]。总之,TEs通过影响染色质修饰、转录因子结合、RNA编辑以及染色质高级结构等,对基因的表达起到重要的调控作用。1.3 表观遗传、转座元件与细胞命运决定
作为表观遗传修饰主要锚点的TEs也参与细胞命运决定调控。在早期胚胎发育过程中,小鼠特有转座元件MERVL和LINEs参与早期胚胎发育过程中2-细胞期到囊胚的细胞命运转变的调控[75,76,77]。在神经发育过程中,转座元件L1参与了神经祖细胞向神经元的细胞命运转变[78,79]。在体细胞重编程过程中,部分转座元件在重编程中后期被激活[80]。类似的,人原始态(naïve)胚胎干细胞中也存在部分活化的TEs,如进化过程中较为年轻的人猿科类特有的转座元件SVA、HERVK和HERVH等,并且这些TEs的激活与沉默,通过改变染色质开放状态、组蛋白修饰和DNA甲基化修饰等,改变基因调控网络,直接参与了人naïve胚胎干细胞命运状态的维持和决定[81,82,83]。在人体细胞重编程过程中,转座元件HERVH也会被激活,并且其过度激活将导致获得的诱导多能性干细胞分化缺陷[84]。在免疫系统中,ERVs的激活也直接参与了naïve T细胞向Th2和Th1的细胞命运转变,ERVs的激活直接促进了naïve T细胞向Th1细胞命运的转变,而抑制向Th2细胞命运的转变[85]。
2 转座元件研究领域存在的主要挑战
3 结语与展望
(责任编委: 陆发隆)
中国科学院广州生物医药与健康研究院陈捷凯课题组成立于2013年,课题组长为陈捷凯研究员。课题组专注于细胞命运决定机理的研究,以干细胞为模型(如类器官、重编程等),主要研究表观遗传调控的特异性机制,及其与信号转导、转录因子、非编码遗传信息之间的联系。除了干细胞实验平台和生物化学平台之外,课题组擅长通过计算生物学在表观遗传组和单细胞转录组等大数据中挖掘重要生物学机理,并根据生物学问题开发新算法和新软件,在转座元件和细胞谱系方面开发了一系列工具。课题组近年来取得了一系列研究成果,在Nature、Cell、Cell Stem Cell、Nature Cell Biology、Nature Communications、National Science Review和Cell Reports等国际知名期刊发表论文数十篇。与此同时,课题组还承担了科技部、国家自然科学基金委及中国科学院等一系列重大课题。课题组网站:
