全文HTML
--> --> -->对理解生命的困难, 物理学家薛定谔在《生命是什么》一书中, 用一个穿越故事做了很好的诠释. 一位蒸汽机时代的工程师, 来到了电气化时代, 对电动机充满了好奇. 他惊奇地发现, 铜被拉成了很长的细丝、并被塞在了铁里面. 经过仔细探究, 这位工程师确定, 铜正是他制造汽锅的铜, 铁也是他制造气缸、曲轴、飞轮的铁, 铜和铁的每种属性都遵循着本来的物理规律. 他最终认定, 电动机旋转不是因为精灵鬼怪, 而是构造方式的不同导致了截然不同的运作方式—只不过, 他尚不知晓其中的物理规律或者已知规律的应用方式. 时至今日, 我们在理解生命机理的时候, 还是面临类似的境地.
本文将以真核细胞中执行基因转录起始的分子机器—转录机器为例, 论述其结构与运转机制. 转录机器响应细胞信号, 控制着基因在恰当的时间以合适的速率转录, 是生命运作的基础[1-6]. 这是一个广为人知的领域, 却也是一个困惑重重的领域. 在分子生物学教材中, 大约一半的内容是阐述转录及其调控的. 然而, 在面对转录机器对细胞信号的动态响应时, 我们却常常手足无措, 所知甚少. 另一方面, 我们也习惯了不同研究者的结论相互冲突的情形. 事实上, 多数研究成果并没有错, 恰似“盲人摸象”, 只是由于研究者自身的局限性而导致了结论的片面性. 确知研究现状和待解决的问题, 有助于判断未来的方向、明确我们的使命, 本文的立意即在此.
自孟德尔遗传学说广泛传播以后, 人们就好奇遗传信息的物质载体是什么, 什么样的分子携带可传递的信息. 1953年, 生物学家沃森和物理学家克里克基于X射线衍射数据, 提出了DNA的双螺旋结构. 据此, 克里克于1957年初步提出了著名的“中心法则”. 其核心内容是: 遗传信息储存在DNA序列中, DNA可以自我复制, DNA转录为信使RNA, 信使RNA翻译为生理功能的主要执行者—蛋白质. 迄今为止, 中心法则是现代生物学的理论基石, 也似乎是生命王国里唯一的定律[7-10]. 中心法则提出以后, 大家需要找到一部分子机器, 它能把DNA转录为RNA. 1960年前后, 生物化学家赫尔维茨等发现了构成转录机器的关键组件—RNA聚合酶. 随后, RNA聚合酶II (RNA polymerase II, Pol II)被证实是真核生物中转录信使RNA的核心组件[11,12].
此后的数十年至今, 人们一直在寻找和纯化转录机器的组件, 并解析其结构[5,13]. 随着单细胞和单分子测量技术的进步, 对转录机器组件之间相互作用动力学的研究提上了日程. 单分子标记追踪技术导致了转录爆发现象的发现, 颠覆了传统认知. 近年来, 研究进展突飞猛进, 冲突的成果层出不穷. 不同的研究领域在趋于成熟的同时, 也趋于细化和独立化. 遗憾的是, 虽然转录的综述文章众多, 但大都是围绕某一子领域展开的. 本文试图概述近20年的重要研究成果, 并介绍关键争议, 旨在促进共同思考. 需要特别提及的是, 转录研究的核心目标是阐明转录机器的运转机制, 明确转录机器对细胞信号的编码和译码机制.
2.1.转录机器的基本架构
结构是功能的基础. 研究转录机器, 首先要明确转录机器的组件、组件的结构及其空间架构形式[14-19]. 为解析转录机器的结构, 先采用生化技术, 对细胞核提取物分离纯化、得到转录所需的物质. 这些物质大都是蛋白质或者蛋白质复合物, 以及少量RNA. 再运用X射线衍射、核磁共振、低温冷冻电子显微镜等方法, 研究这些物质的结构, 分析其功能.研究表明, 转录机器涉及种类繁多的蛋白质, 大致可分为三类[5,19]. 第一类只包含单个组件, 即Pol II [20-23]. Pol II的功能是读取DNA序列信息, 并合成RNA. 然而, Pol II自身并不能准确定位转录起始位点, 也不能打开DNA双链. 第二类为通用转录因子(general transcription factors, GTFs). GTFs与启动子结合, 辅助Pol II定位并打开DNA双链, 帮助Pol II进入转录延伸阶段[24-29]. 依据当初对核提取物的分离分组方式, GTFs被命名为TFII-A, TFII-B, TFII-D, TFII-E, TFII-F, TFII-H, TFII-S等. GTFs大都含有多个亚基. 后来, 又发现了一种新的通用转录因子, 被命名为媒介子(Mediator; 也有人不把Mediator归类为GTF, 视作cofactor)[30-32]. 媒介子是包含20个以上亚基的“庞然大物”, 将激活子携带的调控信号传递给Pol II, 是调控转录的关键所在. 第三类为转录激活子(transcriptional activator)和种类繁多的转录辅助因子(cofactor). 这些因子参与转录与否, 与特定基因的调控区域是否含有相关序列有关[19]. 转录激活子是细胞信号(cellular signaling)的携带者, 通过媒介子控制转录水平. 细胞核内激活子的浓度随着细胞信号的变化而变化; 一般来讲, 浓度越高, 基因转录水平越高, 直至饱和.
图1为转录机器的基本架构方式. 激活子与通常处于启动子上游的增强子(Enhancer)结合[33]. 增强子与核心启动子之间的距离, 可达数千碱基对(bp)以上. 在DNA环化后, 增强子与启动子靠近. GTFs将Pol II定位于转录起始位点附近[25,34]. 增强子上的激活子与媒介子相互作用, 媒介子同时与GTFs和Pol II相互作用. GTFs和Pol II依据来自媒介子的“指令”启动转录[15]. 在Pol II进入延伸态以后, 还有大量GTFs滞留在启动子上, 它们被统称为脚手架复合物(scaffold complex, SCF). 其他的辅助性因子, 直接或间接地与DNA上的特定序列结合, 通过改变DNA环化弯曲的刚性等方式, 影响转录.

Figure1. Configuration and signaling of the transcriptional apparatus.
目前, 人们只得到了转录机器基本架构和部分组件复合物的结构, 结构解析任务远未完成. 主要的挑战包括但不限于揭示蛋白质柔性结构域的结构和功能, 变构发生的条件、方式和效应, 不稳定蛋白质的结构和功能等. 假设在未来的某一天, 知晓了全部的组件结构, 这些碎片能拼凑出完整的转录机器吗? 如果能, 还能据此推断出转录机器的工作原理吗? 拼凑过程中我们会犯多大的错误?
2
2.2.媒介子的工作原理模型
媒介子, 是转录激活子和Pol II之间的信息桥梁, 故而是理解转录机器工作机制的关键所在[30-32,35-42]. 待阐明的问题包括: 媒介子如何与激活子相互作用, 如何与其他GTFs相互作用, 如何与Pol II相互作用, 如何传递调控信息.最新的研究得到了一个高达250万道尔顿的媒介子-Pol II复合物结构[35]. 其结构提示, 媒介子与Pol II的CTD结构域(即Pol II大亚基的C端结构域carboxy-terminal domain, 是一条长达182个氨基酸残基的柔性链)具有很高的亲和性. CTD结构域是Pol II的一条柔性“长尾巴”. 安装在启动子区域的媒介子, 可以通过“黏连”、“拉拽” CTD的方式, 招募Pol II (图2(a)). Pol II定位到启动子上以后, TFIIH磷酸化CTD, 导致CTD与媒介子脱离、允许Pol II进入延伸态. 也就是说, 媒介子与Pol II的作用, 是通过CTD的磷酸化来控制凝聚态的相分离[43]. 或许是因为分辨率不足, 该研究未发现媒介子的构象变化, 也难以解释激活子对媒介子的影响.

Figure2. Two models of how the Mediator complex operates: (a) The Mediator acts to nucleate the flexible CTDs of Pol IIs, with the efficiency of Pol II assembly elevated; (b) an enhancer-bound activator induces allostery in the Mediator, resulting in a facilitated circumstance for transcription initiation.
然而, 稍早的研究提示, 在媒介子和激活子结合以后, 媒介子会发生构象变化; 在激活子与媒介子脱离接触以后, 媒介子构象复原[44,45]. 只有当媒介子处于变构态时, Pol II才能迅速且顺利地安装并迅速启动转录(图2(b)). 该观点解释了激活子与媒介子的相互作用, 也直接阐释了信号传递机制. 然而, 具体细节尚待解答: 激活子是如何引发变构的? 不同激活子的引发机制是否相同? 媒介子的变构是如何影响脚手架结构的? 是如何促进Pol II启动转录的?
其实, 前述两种观点并不绝对排斥, 可以被整合. 但遗憾的是, 结构解析未能证实变构效应.
2
2.3.增强子的功能
增强子属于顺式调控元件(即DNA上实施基因调控功能的片段), 其跨度通常为1—2个DNA大沟(单个大沟匹配激活子的单个DNA结合结构域), 长约11—22 bp[46]. 增强子的空间尺度, 相比于细胞核是非常渺小的; 这意味着, 为数不多的激活子要在巨大、拥挤的细胞核中准确找到增强子, 并不容易. 单纯以自由扩散的方式, 激活子在短时间内很难找到增强子, 也就无法完成信号的传递. 研究表明, 激活子能够在DNA染色质上滑动、跳跃、同时扫描增强子, 以加快速度[47-49]. 激活子在搜寻增强子的过程中, 并不消耗自由能—就像麦克斯韦妖一样, 受到热力学第二定律的严格限制.近年来, 一个新观点挑战了传统的“搜寻”概念. 在增强子团簇—大量间距很小的增强子, 也称超级增强子—上, 结合有大量的激活子[50,51]. 这些激活子通过其无序结构域, 彼此相互结合, 形成了一个有别于核液的“液滴”[52-54]. 此“液-液”相分离, 类似于油与醋的相分离. 在激活子液滴内部, 还包含有GTFs、媒介子等蛋白质. 相比单个激活子, 激活子液滴一旦与启动子靠近, 就可以快捷地激活转录(图3(a)). 不过, 具体的物理机制尚待阐明.

Figure3. Two models of how the enhancers function: (a) In the phase separation model, enhancers recruit transcriptional activators that further recruit various coactivators and the transcriptional apparatus via low-affinity disordered regions; (b) every enhancer plays a unique role and different enhancers cooperate to orchestrate transcription regulation. Shown is an example of regulatory mode at the glnAp2 promoter.
“液滴说”可能仅仅代表了一种表面认知. 对大肠杆菌glnAp2基因的增强子团簇的研究表明, 液滴内部存在着严格的秩序. glnAp2基因是一个原核基因, 但其调控模式与真核生物相似—结合在增强子上的激活子需要通过DNA环化才能与启动子接触[55-58]. 从进化的角度来看, glnAp2基因处于原核生物调控机制向真核生物调控机制的过渡位置, 具有特殊的地位. 如图3(b)所示, 在glnAp2基因的上游, 有5个相邻的增强子, 其中两个对激活子具有强亲和性(图中红色标记), 3个具有弱亲和性(橙色). 按传统观点或者“液滴说”, 这5个增强子能招募大量的激活子, 形成“液滴”. 然而, 液滴模型无法解释复杂的转录动力学行为. 基于结构解析的理论研究表明, 每个增强子都有不可或缺的独特功能[59]. 增强子与启动子之间的距离、彼此的相对距离、每个增强子的螺旋朝向和亲和性等, 都是被进化所精密选择的. 基于这些空间和拓扑因素, II号增强子可与V号增强子协作, 实现DNA环化. 在II-V环化形成以后, 由I号增强子上的激活子激活转录. III和IV的主要功能是抑制转录, 在激活子浓度很高时抑制DNA环化. 对真核生物增强子的研究, 目前很难达到精细的程度. 尽管如此, 酵母菌GAL1/GAL10基因启动子上的研究也表明, 增强子存在明确的分工[60,61].
对转录动力学的探索, 最初是基于一种定量生化技术—染色质免疫沉淀技术(chromatin immunoprecipitation assays, ChIP). 其原理是: 用甲醛浸泡细胞, 导致蛋白质变性, 使得结合在DNA上的蛋白质与DNA发生胶连. 继而, 整个细胞内的DNA被超声波打碎, 而受到黏连蛋白质保护的DNA片段会保留下来. 接着, 用免疫抗体抓取感兴趣的蛋白质, 并对该蛋白质结合的DNA进行测序. 如果在实验开始前, 用鹅膏蕈碱将所有细胞的转录进程同步化, 在转录进程的不同阶段提取部分细胞, 实施甲醛胶连并定量测量, 就可以获得蛋白质-DNA的结合随时间的变化关系.
ChIP测量结果[62-68]表明, 转录进程具有周期性. 在每个周期的初始阶段, 各类致使核小体从核心启动子区域脱离的染色质异构酶发挥作用. 接下来, 转录机器在启动子上完成组装, Pol II启动转录. 随之而来的是转录机器解散, 核小体重新占据启动子. 这个周期为数十分钟. 最典型的是人pS 2基因, 其周期约为40分钟. 测量结果还显示, 每种蛋白质与启动子的结合都是稳定的, 可达数十分钟.
对DNA-蛋白质相互作用的另一种测量方法, 是光致光漂白荧光恢复(fluorescence recovery after photobleaching technology, FRAP)技术. 其原理是: 在带有荧光基团的蛋白质与DNA密集结合以后, 结合区域在显微镜下呈现为一个亮斑. 用激光瞬时照射该亮斑, 使其失去发光能力. 如果蛋白质与DNA的结合是稳固的, 被打黑的区域会长时间保持暗态. 反过来, 如果结合不稳定, 随着已结合蛋白质被新来的蛋白质替换, 暗区就会重新亮起来. 结果表明, 亮度很快恢复, 说明蛋白质与DNA的结合时间在几秒到几十秒, 最长的也不过两分钟[62-64,69-73].
两种测量技术给出了令人困惑的结果, 蛋白质与DNA的结合既呈现了长达数十分钟的长周期, 也呈现了数秒的短周期. 此现象后来被称为“转录钟”[74,75]. 理论研究将微观的分子间相互作用特性与宏观可测量的量联系了起来, 完美解释了转录钟[76-78]. 在转录进程中, 蛋白质与DNA的结合是非常短暂而又频繁的, 并不存在稳定的结合. 虽然FRAP技术无法分辨蛋白质与DNA的相互作用是简单的无功能碰撞还是有功能的相互作用, 但给出了蛋白质与DNA相互作用的时间尺度. 不同种类的蛋白质, 在不同的转录进程阶段与启动子短暂而又频繁地相互作用. 这种特质在ChIP测量中表现为长时间的稳定结合——这是测量技术和转录进程的阶段性共同造成的假象.
图4示意了最典型的人pS 2基因转录钟. 其转录进程长周期T约为40分钟. 图中给出了四种蛋白质ERα, Pol II, p/CIP, Brg1参与转录进程的情况. 一个点表示蛋白质与启动子的一次相互作用. 单次相互作用的时间, 即短周期, 约为数秒到几分钟. 点越密集的区域, 该蛋白质与启动子发生相互作用的概率越高. 每种蛋白质都在特定的阶段参与转录, 但每次参与的时间都很短.

Figure4. Transcriptional clock of the human pS 2 promoter.
“转录钟”表明, 转录机器是一架高度动态演化的机器. 蛋白质在特定的转录阶段参与转录进程, 作用时间很短但频率很高. 推测起来, 这种高动态允许转录机器对环境信号做出快速的响应. 需要说明的是, 传统测量技术并不能揭示蛋白质是如何参与转录的, 也不能给出具体的转录动力学常数. 单分子荧光光谱共定位技术(colocalization single-molecule spectroscopy method)为直接测量蛋白质-DNA相互作用动力学提供了可能, 但远不足以深入研究转录机器的运转机制[79].

Figure5. Transcriptional burst[95].
面对普遍存在的转录爆发现象, 人们需要回答一个难题, 即断断续续的爆发过程是如何传递调控信号的[6,106-109]. 目前主流的观点[90,93,105,106,107,110,111]有如下三种: 一是频率调制, 转录爆发的频率与激活子的浓度正相关, 即转录响应的信号转导是数字信号; 二是幅度调制, 即单次转录爆发的信使RNA生成量与激活子的浓度正相关; 三是认为前二者兼而有之.
2
5.1.希尔函数与两态模型
早期, 转录被简化为酶促反应:








在进行随机模拟时, 酶促反应模型等价于著名的“两态模型”, 也称为“开关模型”或者“电报模型”[113-115]. 两态模型中, 基因的启动子被简化为处于“开”或“关”两个状态, 转录起始事件只在“开”状态发生. 通常, “开”和“关”两个状态的寿命, 以及转录起始事件之间的时间间隔, 均被视作服从指数分布. 两态模型是迄今为止应用最广泛的模型, 被用来解释和拟合包括转录爆发在内的实验现象和数据. 因两态模型的简单易用性, 研究人员对其低精度性有很高的容忍度, 尽管理论上已经证明, 它不宜用于分析具体的分子机制或随机原理[116].
2
5.2.多尺度模型与连续性模型
更为精细的模型, 可统称为多态模型. 这类模型, 依其建立的方式, 分为“自上而下”和“自下而上”两类. 前者是基于特定的考虑来设定模型, 进而参照实验结果验证其可靠性, 如下文将提到的理想模型. 后者是通过实验“直接测量”转录机器状态转换的动力学常数, 从而建立转录机器的运转模型, 最典型的例子是多尺度模型和连续性模型[86,88].转录机器的状态, 依据转录钟研究的成果, 具有数目庞大且转换迅速的特点. 现有技术难以直接探测这些状态. 因此, 实验上测量转录动力学的策略, 是诉诸于寻找限速步骤. 具体来说, 以两态模型为参照, 检验“开”和“关”两个状态的寿命是否服从指数分布, 检验“开”状态时相邻转录起始事件之间的间隔是否服从指数分布. 实验结果促成了两个截然不同的模型, 即“多尺度模型”和“连续性模型”. 多尺度模型表明, 在媒介子和TBP(TATA结合蛋白质, 是SCF的关键组件)位于启动子上的前提下, 启动子状态转换服从两态模型[86]. 此条件下, “关”状态(记作OFF1)的寿命服从期望为100秒的指数分布. 若TBP不在启动子上, 则两个OFF1状态之间包含了多个期望不同的OFF2状态. 连续性模型则表明, “开”状态时相邻转录起始事件之间的间隔并不服从单个指数分布, 而是一系列指数分布——其期望值在一个很宽的范围内连续变化[88].
多尺度模型和连续性模型属于唯象模型, 背后的分子机制停留在猜测阶段. 它们源自对特定基因转录动力学的直接测量, 普适性尚待进一步的实验验证. 更多的转录模型, 可参阅综述文献[95, 96].
尽管转录存在基因特异性, 但也存在普遍性. 这种普遍性, 体现为图1归纳的转录机器的基本架构. 故此, 我们可以设想一个理想转录机器, 它只具有这些普遍性特征, 且在启动子的附近有一个增强子. 理想转录机器的状态, 取决于蛋白质与DNA、蛋白质与蛋白质之间的相互结合状态. 由于分子运动的随机属性, 所有的结合与解离反应都是随机事件. 设想一个系综, 它包含了大量的理想转录机器, 且这些转录机器处在完全相同的环境下, 在“稳定”地启动转录. 故而, 在该系综内, 处于某特定状态的转录机器的数量, 不随时间变化. 换言之, 随机抽取一个转录机器, 其处于某特定状态的概率也是确定的. 据此, 可以定义一系列关键状态: A为增强子被激活子结合; S为核心启动子处于被脚手架结合的状态; M为信使RNA处于孕育阶段, 即Pol II处于从PIC (转录预起始复合物)到OPC (开放复合物; 此状态下, DNA双链已打开, 形成了转录泡), 再到进入延伸态之前的状态; J为媒介子同时连接了增强子上的激活子和核心启动子上的结构包括SCF, PIC, OPC等. 根据转录机器的结构架构, 可知这些状态间的关系, 进而可得到信使RNA生成和转录机器状态之间的概率方程:






在此概率方程中, 只有
























Figure6. Ideal model for how the transcriptional apparatus operates[44].
如果激活子的编码机制如上所述, 那么如何确保该信号能高保真地转换为信使RNA的生成量呢? 转录机器分子运动的随机性, 很容易淹没这种编码信号. 要不被淹没, 则




把上述结论归结起来, 即可得到理想转录机器的工作原理(图6(b)). 脚手架结构较为稳定, 媒介子是脚手架结构的一部分. 在脚手架与激活子之间存在钳形空间(clamp-like space), 激活子快速地出入该空间. 在钳形空间被激活子占据的时间段内, 媒介子通过变构传递信息, Pol II一个接一个地迅速启动转录, 形成一次转录爆发. 也就是说, 转录起始必然以爆发的形式发生.
脚手架结构是由媒介子、TBP等大量结合稳定性各不相同的蛋白质架构而成, 因此, 脚手架架构程度的不同及启动子被核小体占据程度的不同, 等同于将转录爆发之间的时间间隔进行了多尺度划分—此即多尺度模型描述的动力学特征. 在转录爆发期, 转录起始事件的发生极为频繁, 此时转录起始所需的Pol II、TFIIF等的浓度不可再视为恒量—这种涨落会导致起始速率谱呈现连续性特征, 即连续性模型所描述的动力学特征.
图6(c)模拟了转录机器对调控信号的响应. 伴随着激活子浓度随时间变化, 激活子频繁而又短暂地与增强子相互作用(图中标示为Enh-Act), 增强子处于结合态的概率与激活子的浓度正相关. 脚手架结构(标示为SCF)相对稳定, 平均寿命远大于激活子结合时间. 在脚手架结构和媒介子存在、且增强子被激活子结合的时间段内, 转录起始事件频繁地发生(标示为PIC). RNA的生成速率, 或者RNA寿命不是很长的条件下的细胞内RNA数目(具有翻译活性的RNA寿命大都很短), 随激活子浓度的变化而变化.
转录机器的理想化模型, 支持“频率调制”的观点. 转录起始事件的发生, 总是以转录爆发为单位的—在激活子居于钳形空间内部时, 大量Pol II进入延伸阶段, 造成一次爆发. 激活子浓度越高, 爆发发生的概率越大, 但单次爆发的平均持续时间并不改变. 也就是说, 转录调控的信号转导方式, 是一种“数字”信号. 需要说明的是, 实验上记录到的单个“脉冲”或者“单峰”, 不一定对应着一次爆发, 也可能是多个相邻爆发的叠加[119].
转录机器的庞大和复杂, 使得结构解析和动力学测量均面临着不小的挑战. 理论研究方面, 我们渴望拥有行之有效的研究策略甚至是理论体系. 下面是我们的一些思考, 供读者参考. 生命是开放系统, 能自发利用能量对抗熵增, 从而实现自身的有序架构和动态运转. 生命生存压力的首要来源, 就是从生态圈食物链中获取能量, 是故, 能量对生命而言是宝贵的. 在能量和熵的博弈中, 生命在转录机器上的开销是巨大的: 组件众多、架构复杂、运转有序. 因此, 信息转导所要求的有序性, 或许是研究转录机器的可行切入角度.
在漫长的进化过程中, 转录机器具有保守性, 同时趋于复杂化. 对进化上具有过渡意义的glnAp2基因转录机器的研究启示: 转录机器的运转, 无论从哪个维度来看, 都是最优解. 这些维度包括顺式元件的长度、方向性及相互间隔, 反式元件的结构和稳定性, 转录机器整体的空间架构和拓扑, 动力学上的亲和性等. 液相分离, 使得相关的蛋白质在空间上靠近从而方便了彼此间的协作, 可视作更高层级的组织优化. 转录机器理想模型的得出, 也是基于“其工作机制是对信号响应的优化”思想. 故此, 本文题名为“转录机器: 绳上舞者”, 旨在唤起读者思考: 转录机器的运转机制是否源自对各类物理规律的平衡和优化运用?