深度学习是机器学习的一种,通常指基于表示学习的深度神经网络,如基于卷积神经层构建的卷积神经网络、基于递归神经层构建的递归神经网络等。它适合用来发现海量高维数据背后的复杂模式。近十年来,随着计算机算力的大幅提升,深度学习在图像识别、自然语言处理等领域取得了众多成果,其中可以捕捉数据局部特征的卷积神经网络已被广泛应用于组学序列数据分析、生物影像处理等多个生命科学相关领域。
卷积神经网络可利用卷积层中一系列卷积核来自动识别输入序列上频繁出现的序列片段,并通过将这些片段组合以发现其中的序列motif。然而,目前卷积层只能使用预设固定长度的卷积核,难以适应海量组学数据中复杂多变的信号模式。为此,目前的主流实现中常用多种不同大小的卷积核分层叠加以应对,但由此导致的模型参数膨胀又显著提升了训练难度。
论文截图
近日,北京大学生物医学前沿创新中心(BIOPIC)、北京未来基因诊断高精尖创新中心(ICG)、北京大学生命科学学院生物信息中心(CBI)、蛋白质与植物基因研究国家重点实验室高歌研究员课题组,在生物信息学期刊Briefings in Bioinformatics发表了题为“Identifying complex motifs in massive omics data with a variable-convolutional layer in deep neural network”的生物信息学论文,提出能够在训练中自动调整卷积核长度的新型变长卷积层vConv。vConv通过在原始卷积核上叠乘两条形状可训练的对向S型曲线,来动态遮蔽卷积核两侧元素、进而实时学习卷积核的有效长度。
vConv层结构:为了生成掩码矩阵(mask matrix),vConv使用两个对称的sigmoid函数生成了两个矩阵(A和B),然后通过叠加这两个矩阵获得了掩码矩阵(C)。在此基础上,vConv把该掩码矩阵与原始的卷积核做Hadamard积,获得了掩码内核(D),再将该掩码内核与输入序列进行卷积(E)
序列motif(sequence motif)通常是指与特定生物学功能相关的一段序列片段、及其相关碱基/氨基酸分布模式,如转录因子结合位点、蛋白质功能域等。识别、鉴定与发现序列motif是生物信息学与计算生物学的经典问题之一。多组模拟与真实数据集的测试显示,基于vConv的神经网络可于Gb级别海量组学数据中准确识别鉴定序列motif,性能显著优于经典工具及基于传统卷积层的神经网络。
vConv可直接加入现有多层神经网络模型中,可作为传统卷积层的直接替代广泛应用于数据挖掘、图像识别等多个领域。为方便使用,相关Python代码及教程已通过GitHub开源发布(https://github.com/gao-lab/vConv),与课题组前期发布的池化层ePooling方法(https://github.com/gao-lab/ePooling)相结合,可为相关应用提供平滑升级路径。
北京大学生命科学学院博士生李静一、实习生金燊(现为美国卡内基梅隆大学计算生物学系硕士)为该论文的共同第一作者,高歌、军事科学院军事医学研究院辐射医学研究所博士后丁阳为共同通讯作者,北京大学生命科学学院本科生屠鑫明在代码测试上提供了大力支持。该研究得到国家科技部、北京未来基因诊断高精尖创新中心、蛋白质与植物基因研究国家重点实验室的支持,计算分析工作于北京大学高性能计算校级公共平台与ICG高性能计算平台完成。
删除或更新信息,请邮件至freekaoyan#163.com(#换成@)
北京大学高歌课题组开发出基于自适应卷积核的新卷积学习方法
本站小编 Free考研考试/2021-12-20
相关话题/序列 数据 北京大学 计算 生物
北京大学黄晓军团队揭示移植后血小板延迟植入的新机制
2021年6月18日,国家血液系统疾病临床医学研究中心、北京大学人民医院、北京大学血液病研究所黄晓军教授及孔圆研究员共同通讯在SignalTransductionandTargetedTherapy(IF=13.493)在线发表了题为“M2macrophages,butnotM1macrophage ...北京大学通知公告 本站小编 Free考研考试 2021-12-20北京大学魏文胜课题组在Nature Biotechnology 发文报道基于碱基编辑的新型高通量功能性筛选方法
2021年6月21日,北京大学生物医学前沿创新中心、北京未来基因诊断高精尖创新中心魏文胜课题组在NatureBiotechnology在线发表题为“Genome-wideinterrogationofgenefunctionsthroughbaseeditorscreensempoweredbyba ...北京大学通知公告 本站小编 Free考研考试 2021-12-20邹鹏、陈鹏课题组合作开发出基于“生物正交工程”的远红区膜电位探针
教技委[2011]5号作为神经系统信息交流的“通货”,神经电活动是大脑处理复杂信息的物理基础。与膜片钳和微电极阵列记录等基于电极材料的传统电生理技术相比,荧光膜电位成像在时空分辨率、测量通量等方面具有明显的优势。其中,发射波长在远红区(640nm以上)的荧光探针由于其红移的光谱具有更强组织穿透能力, ...北京大学通知公告 本站小编 Free考研考试 2021-12-20北京大学国际关系学院教授王栋在Foreign Affairs发表文章
2021年4月15日,北京大学国际关系学院长聘正教授、中外人文交流研究(教育部)基地执行主任王栋在外交事务领域全球权威刊物ForeignAffairs(《外交事务》)发表题为“TheCaseforaNewEngagementConsensus:AChineseVisionofGlobalOrder” ...北京大学通知公告 本站小编 Free考研考试 2021-12-20李辰旭:构建由数据驱动的金融衍生品定价模型
从沪深300股指期货鸣锣上市到探索各类股指ETF期权、股票期权、利率期权,10余年间,金融衍生品已深深嵌入我国资本市场肌理,并与广大投资者利益密切相关。大数据时代,如何让金融衍生品的定价更科学、更有效,从而助力交易决策和风险管理的重大需求?北京大学光华管理学院商务统计与经济计量系副教授李辰旭通过理论 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20邓兴旺实验室何光明课题组揭示生物学通路的表达互补调控植物生物量杂种优势
杂种优势是指不同遗传背景的两个亲本杂交产生的子一代(杂交F1、杂交种)在生物量、产量等多方面表现优于双亲的现象,一些主要农作物杂交种的推广使用为世界粮食安全保障作出了重要贡献。然而,虽然经过多年的广泛研究,杂种优势产生的遗传机理、特别是分子机制迄今依然还不十分清楚,从而限制了该现象在农业生产中的深入 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20北京大学人民医院乳腺中心双示踪前哨淋巴结活检长期随访结果于Breast Cancer Research and treatment杂志在线发表
就在2021年3月24日,权威国际学术期刊BreastCancerResearchandtreatment杂志在线发表了北京大学人民医院论著“Long-termfollow-upresultsoffluorescenceandbluedyeguidedsentinellymphnodebiopsyi ...北京大学通知公告 本站小编 Free考研考试 2021-12-20陈松蹊团队在通过“静稳期数据实验”有效度量本地排放方面取得进展
众所周知,人类活动引起的过度排放是造成大气污染的主要原因,北京大学统计科学中心陈松蹊教授团队,经过反复的数据筛选和建模分析,近日,所取得的最新研究进展:通过静稳期数据实验度量本地污染排放的论文——“AssessingLocalEmissionforAirPollutionviaDataExperim ...北京大学通知公告 本站小编 Free考研考试 2021-12-20弦外音?言外意?朱露莎课题组揭示交流推理的神经计算机制
交流是人类最重要的社会行为之一。我们通过交流来传递信息、获取知识、建立信任。不同于竞争、合作、共情等高级社会认知功能,我们对复杂交流行为所依赖的认知和神经机制知之甚少。理解交流行为不仅需要研究交流信号本身(如表情、手势、语音、词义等),还需要探索这些信号是如何在具体的社会情境中被灵活使用,表达含义。 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20椭圆吸积盘: 一种产自北京大学的新型吸积盘模型
天文学家们相信,在几乎所有星系中心都潜伏着或单、或双的超大质量黑洞。这些超大质量黑洞平时不以任何踪迹示人,但它们的存在影响甚至决定着星系的形成和演化,它们的并合会产生宇宙中最猛烈的引力波暴。当一颗恒星掠过这些超大质量黑洞时,会被其强大的潮汐力撕裂。恒星碎片在回落黑洞时,引发潮汐撕裂事件(TDE)。经 ...北京大学通知公告 本站小编 Free考研考试 2021-12-20