蛋白质“液-液相分离”的理论和计算方法进展

全文HTML

--> --> -->

2.蛋白质分子“液-液相分离”理论和计算方法简介

2.1.理论研究

-->

2.1.理论研究

2.1.1.Flory-Huggins理论

-->

2.1.1.Flory-Huggins理论

从热力学角度看, 相分离的发生降低了体系整体的自由能^[11]. 体系的自由能包括焓与熵变化的贡献, 其中焓变包含蛋白质分子与溶剂之间、蛋白质分子之间以及溶剂分子之间势能的变化, 而熵变衡量了体系自由度的变化. Flory^[41]和Huggins^[42]在20世纪40年代提出了高分子溶液的似晶格模型, 用高分子的体积分数$ \phi $

作为参数, 推导出了理想高分子溶液混合熵变的计算公式, 以及用平均作用场假设^[43], 引入参数$ \chi $

描述相互作用能的变化, 得到了混合焓变的理论计算公式, 混合自由能变F的计算公式即为

$\frac{F}{{k}_{\rm{B}}}=\frac{\phi }{N}\ln\phi +\left(1-\phi \right)\ln\left(1-\phi \right)+\chi \phi \left(1-\phi \right),$

$\chi =\frac{z}{{k}_{\rm{B}}T}\left[{u}_{{\rm{ps}}}-\frac{1}{2}\left({u}_{{\rm{pp}}}+{u}_{{\rm{ss}}}\right)\right].$

式中${k}_{\rm B}$

为玻尔兹曼常数, T为温度, $ N $

为高分子链的长度, z为晶格的配位数, $ {u}_{{\rm{ps}}}, {u}_{{\rm{pp}}} $

和$ {u}_{{\rm{ss}}} $

分别为高分子的一个链段与一单位溶剂之间、一对链段之间、一对溶剂之间的结合能. Flory和Huggins的理论以十分简洁、粗略的形式解释了包含蛋白质分子在内的高分子相分离过程的热力学机制. Flory和Huggins的理论中体系由于混合熵变总为负, 当χ取较大的正值时, 混合自由能会取到正值, 也就是体系趋向于两相, 而不是混合, 这时混合自由能对浓度(体积分数)的函数存在两个极小值点, 即为相分离的临界浓度值^[44]. 尽管这种方法粗略而十分简洁, 但是它给高分子聚合物以及细胞内相分离等的研究提供了基本的理论框架.
3

2.1.2.其他统计热力学理论

-->

2.1.2.其他统计热力学理论

在Flory和Huggins的焓变公式推导过程中只考虑了近程的相互作用, Overbeek和Voorn 在他们的工作基础上考虑了长程静电相互作用, 应用于带Z个正电和Z个负电而整体不带电的聚电解质高分子溶液. 他们假设这些电荷随机的分布于溶液中, 与盐溶液类似可以用Debye-Hückel理论假设计算体系中的电荷间相互作用的能量. 虽然他们的平均场理论模型在高分子聚合物及其相分离领域提供了十分简洁的形式, 但是该种模型对内禀无序蛋白内部电荷排列及关联性没有成功的解决. 随后, 随机相近似(random phase approximation, RPA)方法被应用于的聚电解质高分子溶液静电作用的计算^[45], 该方法可用于任意电荷分布样式的聚电解质高分子溶液体系. 虽然RPA理论模型可以给任何形式电荷排列的无序多肽的相分离研究提供了基本的理论框架, 但是在涨落很大的情况下, RPA模型在IDPs构象特性和相分离行为的预测可能会失败. Lin等^[21,45]将该方法应用于蛋白质分子相分离体系的计算, 解释了同种电荷在序列上集中分布对于相分离的驱动作用, 以及离子强度对于静电作用为主的相分离体系的影响. 场理论模拟(field theory simulation, FTS)方法是一种更细致处理聚电解质高分子溶液体系的方法^[46,47], 通过对场理论中的共轭变量进行模拟采样, 来获得体系的相图. McCarty等^[1]用离散的链模型研究了不同谷氨酸(E)和赖氨酸(K)二组分构成的多肽链, 用场理论模拟方法获得了它们的盐浓度-蛋白浓度相图, 并得到跟RPA理论相近的结果.
2

2.2.计算机模拟方法

-->

2.2.计算机模拟方法

蛋白质分子“液-液相分离”的研究中用到最多的是粗粒化模拟方法, 全原子模型的计算机模拟方法偶尔也会用到. 这里的粗粒化模拟方法是指将多个原子简化为单个粒子来降低分辨率提高计算效率的计算机模拟方法^[35]. 该方法是通过显著地减少粒子的数量的模型, 并为理论研究和全原子模拟之间的沟通提供了一个桥梁. 下面将重点综述近几年发展起来的粗粒化模型.
3

2.2.1.非格点模型的粗粒化模拟方法

-->

2.2.1.非格点模型的粗粒化模拟方法

1) 多个残基简化为单个球的粗粒化模型
根据蛋白质中氨基酸序列的特征, 可将一条多肽简化为一个粗粒化的粒子或将一个重复的短肽片段处理成一个粗粒化的粒子. 对于低复杂度序列组成的无序蛋白质, 其序列的性质有利于粗粒化建模, 对同聚蛋白质尤为方便^[13,48,49]. 该种类型的蛋白质指的是由单种氨基酸组成的短肽或是短肽重复片段组成的蛋白质. 为了研究重复序列长度和序列关联性对相分离的影响, 可以将重复序列构成的一条多肽简化为一个粒子或将多个重复的片段简化为一个粒子. 例如, 将huntingtin蛋白可视为二嵌段聚合物而得到了广泛的粗粒化研究^[50]. huntingtin蛋白的外显子包含一个多聚谷氨酰胺束, 可以看作是一个仅由多聚谷氨酰胺和脯氨酸构成的二嵌段共聚物^[50]. Burke等^[48]利用多个氨基酸残基简化为一个粒子的粗粒化模型探索了多聚谷氨酰胺束长度和构象倾向性对其自组装过程的影响. 研究表明, 其自组装的驱动力主要取决于多聚谷氨酰胺束的长度、蛋白质浓度和两个区块的相对疏水性, 而不是多聚谷氨酰胺束的构象偏好^[48]. Condon等^[51]研究了(elastin-like polypeptide, ELP)弹性蛋白, 通过用一个粒子表示1~2个重复单元, 这些模拟能够达到与实验研究相当的长度和时间尺度, 并可重现与实验测量的涌现行为一致的特征.
2) 单个残基简化为单个球的粗粒化模型
根据蛋白质中氨基酸序列的特征, 可以将单个氨基酸简化为包含疏水性和电荷性质特征的球, 也就是通常所说的残基化水平的粗粒化模型. 残基化水平的粗粒化模型可以用来理解驱动分子间相互作用和相分离行为序列的重要特征^[36,52,53]. 单个氨基酸被简化为单个粒子, 通常用疏水性指数来参数化成对氨基酸之间的相互作用, 并且重复出了实验上观察到的构象. 例如, Dignon等^[17,52]基于Kapcha和Rossky^[54]氨基酸的疏水性指数和Ashbaugh-Hatch^[55]势函数的形式开发出一种将单个残基简化为单个球的粗粒化模型来研究蛋白质的相分离的计算方法. 在这种相互作用势函数形式中, 通过比较粗粒化模拟与实验测定得到的回转半径, 确定了成对氨基酸之间短程相互作用的最佳数值. Ghavami等^[56]利用类似的方法研究了酵母核孔(nuclear pore complex, NPC)中苯丙氨酸-甘氨酸序列组成多肽的自组装结构. 通过实验测定的斯托克斯半径和疏水性指数来确定粗粒化模拟参数, 粗粒化模拟表明, 在NPC的中心区域重复序列形成圆饼状的结构. 序列突变研究发现, 这种组织结构依赖于带电残基的组分和排列. Borgia等^[57]使用同样的方法研究了相同数目的谷氨酸和天冬氨酸以及赖氨酸和精氨酸的短肽. 模拟结果与核磁共振光谱数据吻合得很好, 表明相互作用纯粹是静电驱动的, 不同类型带电氨基酸之间的结构差异对于这个系统来说并不显著^[58].
单个残基水平的粗粒化模型不仅可以提供相分离过程中蛋白质分子间何种相互作用驱动相分离和序列特征, 而且弥补了理论模型的局限性. 例如, 基于RPA理论^[45]和粗粒化模拟研究表明, (EK)₅₀序列中不同电荷排列模式导致相分离结果定性相似, 但定量不同的现象. 同样地, 通过使用一个氨基酸一个粒子的显式粗粒化模型, Song等^[59]的研究表明, (EK)₅₀序列的回转半径和链末端距离由于构象异质性而不相关, 这是均聚物模型通常缺少的特征. 综合起来, 单个残基水平的粗粒化模型提供了一个可以与解析理论进行比较的途径, 有助于识别系统的局限性, 同时也为模拟低复杂度序列提供了一个简单而强大的模拟框架.
3) 单个残基简化为多个球的粗粒化模型
单个残基简化为多个球的粗粒化模型是更精细的粗粒化模型. 这里每个残基可视为由多个粒子组成的. 该模型有两种类型: 可移植的模型和系统特定模型(在所有被研究的系统中永久化是固定的)^[60]. 常见的可移植多个粒子组成单个残基的粗粒化模型有PRIME^[61-65], PLUM^[66-68], AWSEM^[69]和MARTINI^[70-73]模型. 这些模型被用于模拟同源蛋白的原纤化形成和重复序列短肽的聚集过程^[62-64], 且可用来研究NPC蛋白的门控和运输机制和类蚕丝弹性蛋白热应答行为的分子机制^[71]. 其中PLUM模型被用来研究类蚕丝弹性蛋白单体的转变温度, 与实验研究结果是一致的^[66].
尽管上述的多粒子的粗粒化模型具有明显的普遍性, 可移植模型并不总是适合于研究低复杂度的蛋白质序列. 一个给定模型的相关性通常取决于模型最初参数化. 例如, 原始的PLUM模型可能导致一些IDPs的二级结构过度稳定, 而MARTINI模型, 可能不会重现出蛋白质的结构特征并且禁止了结构转变^[70]. 由于可移植模型的局限性, 系统特定的粗粒化模型仅仅被频繁地用于研究低复杂度序列. 这些模型经常使用从全原子模拟收集的信息来参数化特定的研究对象. 从全原子模拟到粗粒化模型的建立有两种主要方法: 基于结构的方法和力匹配方法^[74]. 在基于结构的方法中, 目标是从全原子模拟中再现特定的构象分布. 而在力匹配方法从全原子模拟映射到粗粒化模型中更简单的经验力场(已经被用来研究与疾病相关的同源蛋白的聚集). 由Hills和Voth^[75]开创的力匹配方法, 该方法被用来研究了酵母菌核孔复合体中的由苯丙氨酸和甘氨酸组成的低复杂度序列(phenylalanine-glycine LCS within the yeast nuclear pore complex, FG-nups)的构象特性. 这种方法捕捉到了几个较长的FG-nups的两相无序态, 并且表明序列组分以及序列特异性对纤维蛋白核糖核酸酶的构象偏差有强烈的影响^[76].
4) 长条形盒子动力学模拟(slab simulation)的粗粒化方法
该模拟方法将所有分子放在长条形的周期性盒子(三个方向边长: x = y

$\ll $

z)中, 在NPT系综的隐式溶剂分子动力学模拟中, 做只沿z轴方向平衡的各向异性压力耦合(pressure coupling). 这样分子模拟中相分离完成后蛋白分子聚集于凝聚相, 在z轴的很窄的区域分布. Mittal实验室^[4,5,17,52]开发了用于这一模拟的蛋白质粗粒化方法. 蛋白质链的每个残基看作单个粒子, 相邻粒子间用弹簧相连. 不相邻粒子间包含两种作用势函数: Debye-Hückel静电屏蔽的静电作用和短程的成对势. 短程的成对势从Lenard-Jones(LJ)势改造而来, Mittal实验室发展了(hydrophobicity scale, HPS)^[55]和Kim-Hummer(KH) ^[77]两种模型. 其中HPS模型是基于残基对疏水性调整LJ势的模型, KH模型是用于研究蛋白-蛋白相互作用的修正LJ势的势阱深度参数的模型. 这两个模型的未定参数都通过拟合天然无序蛋白质的回转半径(来自小角X射线散射实验)得到. 随后他们用这个粗粒化动力学模拟方法计算了(fused in sarcoma, FUS) FUS中的DNA结合蛋白和LAF中的解螺旋蛋白LAF-1片段这两个相分离体系的温度-浓度相图, 其计算表明FUS的模拟磷酸化突变使最高临界共溶温度降低(即不利于相分离), 将FUS序列拷贝延长将增加最高临界共溶温度, LAF全长的最高临界共溶温度比只有IDRs时的值高. 这些结果都与实验结果相吻合. 该研究组还用这个模型计算了临界温度值, 以及天然无序蛋白质单分子的性质, 即天然无序线团到蜷缩球转变温度(T_θ)高度相关, 因此他们认为天然无序蛋白自身的性质可以用于预估其相分离发生的条件^[17]. 他们也与Fawzi研究组合作, 用此模拟方法研究了hnRNPA2低复杂度结构域的单点突变对其相分离条件的影响. 他们发现天冬氨酸(D)到缬氨酸(V)的突变体(D290 V)比野生型具有更低的临界共溶温度, 相同温度下, 此突变体的临界浓度比野生型高^[78].
粗粒化模型对多肽早期聚集事件和聚集形态可以提供有价值的信息. 这些模型可以明确地捕获序列特异性, 这是解析模型中通常缺乏的特征. 然而粗粒化模型有其自身的局限性. 粗粒化模型的参量化往往基于全原子模拟的模型, 因此高度依赖于全原子模拟的准确性, 并且多体相互作用项可以通过对较小数量分子的模拟得到. 此外, 粗粒化模型的相关性依赖于这样的假设: 模型能够恰当地捕获到感兴趣的区域的特性. 对于能够在高阶自组装过程中经历涌现构象转变的低复杂度序列, 粗粒化模型在其捕获自联结的热力学和动力学的能力方面可能会从根本上受到限制. 综上所述, 虽然粗粒化模型提供了一条重要的途径来评估个别分子的序列依赖性偏差, 但在可以得出的结论的确定性方面, 应始终考虑到它们的局限性.
3

2.2.2.格点模型的粗粒化模拟

-->

2.2.2.格点模型的粗粒化模拟

格点模型也可以被用来研究生物大分子的“液-液相分离”过程. 例如, Pappu课题组和Chan课题组分别开发了不同的格点模型用来研究无序多肽或者生物大分子的“液-液相分离”. 其中美国华盛顿大学的Pappu实验组专注于该方法的研究, 他们开发了LASSI (Lattice simulation of Sticker and Spacer Interactions, LASSI)具体实现了格点模型的聚集模拟^[79]. 在格点模型模拟过程中, 一般将生物大分子的结构域或者功能模块整体作为单个粗粒化的粒子, 粒子只能处于离散立方网格的格点中, 不同粒子所在格点不能重合, 一般假设只有相邻格点粒子有相互作用并且粒子对的相互作用能参数化为一个确定值, 体系用蒙特卡洛方法演化采样. Pappu实验室用此模拟方法研究了核仁FIB1-NPM1-RNA三元体系中结构域相互作用模式影响形成分层液滴的机制, 其中用一个分枝的结构模拟NPM1分子五聚体的结构^[13]. 他们也用此模拟方法做了(SH3)_m + (PRM)_n体系中无序连接链对相分离的影响的研究^[18]. 模拟结果显示连接链的有效溶剂体积影响该体系聚集态的性质, 连接链有效溶剂体积大、主要为较刚性的伸展构象时体系倾向于聚集成凝胶, 相反的, 连接链以压缩状态为主时体系倾向于聚集成液滴.
Das等^[53]应用格点模型上的粗粒化模拟方法研究了(EK)₂₅序列的不同电荷排布情况下的多肽序列的相分离特点. 在他们的研究中, 重点考察了正负电荷混合均匀和完全分离的两种典型的序列. 他们认为每一条多肽链以自回避的形式占据三维空间点. 将每一个氨基酸残基简化为单个粒子并只占有一个格点, 两个相邻的粒子之间通过共价键来链接, 此外所有的粒子静电作用为屏蔽的库伦静电相互作用. 通过大量的蒙特卡洛模拟研究发现, 可以发现两种不同的序列相分离的临界温度有明显的差异, 对于正负电荷分离形成大的电荷模块的序列来说, 这一类序列显示出明显的相分离特性. 他们在格点模型上的大规模蒙特卡洛模拟研究与RPA理论研究的结果是一致的.
3

2.2.3.全原子模型

-->

2.2.3.全原子模型

虽然粗粒化模拟已被用于研究低复杂度序列的聚集和组装, 全原子模拟对于在单个多肽水平上提取详细的构象特征具有更高的价值. 鉴于其普遍的序列重复性和高聚集倾向性, 这些蛋白质的研究往往给实验带来了巨大的挑战性. 全原子模拟提供了一个方便的解决方案, 提供了无限稀释下的“无限分辨率”^[80-87]. 对于易于聚集的同源蛋白质(例如, 聚谷氨酰胺、聚甘氨酸、聚丙烯酸)的全原子模拟已经对单体的构象偏差有了相当深入的了解. 单分子荧光共振实验补充了全原子模拟的研究. 例如, Warner等他们能够提取huntingtin外显子1单体的构象系综. 全原子模拟也可以与其它实验相结合技术, 如核磁共振波谱法和小角度X射线散射产生互补信息. 例如TDP-43的LCS结构域、hnRNPA2的LCS结构域和RNA聚合酶Ⅱ的碳末端等系统得到了全原子模拟和上述实验技术的研究.
尽管全原子模拟提供了高分辨率的解析精度, 但它们并非没有局限性. 考虑到它们的计算成本, 研究大量分子的分子间结合和聚集仍然令人望而却步, 得出的结论的准确性依赖于力场的可靠性. 在低复杂度序列的研究中力场的局限性往往被放大. 特别是在全原子分子动力学的框架下, 构型状态的高度简并性使得构型抽样成为一个主要的挑战. 因此, 尽管全原子模拟已经为理解LCS序列提供了较高的精度, 但是依然要像粗粒化方法一样要谨慎地考虑全原子模拟方法的局限性.
3

2.2.4.各种模型的优缺点概述

-->

2.2.4.各种模型的优缺点概述

上述不同的理论方法和计算模型有着各自的优势和用处, 也有着不足和缺陷, 在使用的时候不能全盘否定. 例如, 平均场理论十分简洁地给出了高分子聚合物及其相分离的理论表达式, 但是在针对具体体系和涉及电荷关联性较强的情况下, 理论预测可能显得不是太准确. RPA理论模型的优点在于能够给出电荷相互作用如何调控IDPs相分离过程的清晰的物理图像, 缺点在于针对具体体系常常预测能力显得不是十分充足. 格点模型的优势就是抓住了整个问题中的最核心要素, 简化了构象空间, 使得计算简单并且快速. 而非格点模型描述构象相对比较准确, 各种相互作用也可以考虑得更精细, 粗粒化模型的参量化往往是基于全原子模拟的模型, 因此高度依赖于全原子模拟的准确性. 全原子模型的优点在于计算精确, 能够给出具体的相互作用细节, 能够更为精细地描述结构及其特征, 但是由于原子数目的显著增加, 导致计算太耗费时间, 目前只能研究小体系或者相分离的早期聚集等行为特征. 总之, 在实际的研究过程中, 要根据所研究对象的需求和具体的特征, 来选择合适的方法恰当的描述系统的相互作用及其集体运动行为.

3.总结与展望

当前, 蛋白质分子的构象特点、相分离过程及其序列特征等引起了众多科学家的广泛兴趣. 而多尺度和多分辨率的理论和模型在生物分子的相分离的研究中得到了迅速的发展和改进. 本文综述了关于蛋白质分子“液-液相分离”的多种先进的理论和计算机模拟方法.
生物大分子相分离过程的研究当前处于起步和发展阶段. 研究者可以将上述的各种方法巧妙地应用于生物系统的相分离中来. 也可以发展新的理论方法以及模拟手段研究生物体系的相分离. 最终为深入地理解蛋白质等生物大分子的序列、结构以及相分离产生的临界条件之间的基本关系提供恰当而快速的理论方法和模拟手段. 此外, 也可以对上述的研究方法进行混合来解决生物大分子的相分离问题. 相信在未来, 生物大分子涉及的相分离将会吸引越来越多的科学研究人员的关注, 并且应用上述的研究手段或者发展新的方法来解决相分离相关的问题.

本站小编 Free考研考试/2021-12-29

English Abstract

Theoretical and computational methods of protein liquid-liquid phase separation

1.School of Public Health and Management, Hubei University of Medicine, Shiyan 442000, China
2.Hubei Biomedical Detection Sharing Platform in Water Source Area of South to North Water Diversion Project, Shiyan 442000, China

Corresponding author:Kang Wen-Bin, wbkang@hbmu.edu.cn

全文HTML

2.1.理论研究

2.1.1.Flory-Huggins理论

2.1.2.其他统计热力学理论

2.2.计算机模拟方法

2.2.1.非格点模型的粗粒化模拟方法

2.2.2.格点模型的粗粒化模拟

2.2.3.全原子模型

2.2.4.各种模型的优缺点概述

相关话题/序列 结构 生物 计算 高分子

领限时大额优惠券,享本站正版考研考试资料!

基于电流积分计算磁矢量势修正的低磁雷诺数方法

氧化物玻璃中的类分子结构单元

开放式多通道多芯少模光纤表面等离子体共振生物传感器

基于机械剥离β-Ga<sub>2</sub>O<sub>3</sub>的Ni/Au垂直结构肖特基器件的温度特性

铁电材料中的电畴: 形成、结构、动性及相关性能

铁电材料中的极性拓扑结构

基于希尔伯特变换的结构光照明快速三维彩色显微成像方法

马约拉纳零能模的非阿贝尔统计及其在拓扑量子计算的应用

两种Ge-Sb-Se薄膜的光学性质及微观结构

深海海底反射区声场角谱域分布结构分析及在声纳波束俯仰上的应用