删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种用于构建表达载体的合成生物学数据库

本站小编 哈尔滨工业大学/2019-10-24

一种用于构建表达载体的合成生物学数据库

方刚

(西安文理学院,生物与环境工程学院, 西安 710065)



摘要:

由于基因测序及DNA合成技术与工具的突破性进展,生物工程正在加速发展,导致合成生物学的出现。本文介绍了一种用于构建表达载体的合成生物学数据库。阐述了如何利用MySQL数据库管理系统(DBMS)对合成生物学数据库gene_bank进行查询,并借助BioEdit软件对其中的多克隆位点(MCS)进行序列分析,通过查询与分析找出这一合成生物学数据库的特点。

关键词:  合成生物学  数据库  MySQL查询

DOI:10.3969/j.issn.1672-5565.2016.01.07

分类号:K826.15

文献标识码:A

基金项目:国家自然科学基金资助项目(61173113)。



A synthetic biology database for constructing expression vector

FANG Gang

(School of Biological and Environmental Engineering,Xi’an University, Xi’an 710065, China)

Abstract:

Due to the breakthrough in the Gene Sequencing and DNA Synthesis Technology. Biological and genetic Engineering developed rapidly and resulted in the emergence of Synthetic Biology. A database of synthetic biology,which aims at constructing expression vector, was introduced in this paper. By using MYSQL database management system (DBMS), the Synthetic Biology database of gene_bank were queried. The sequences of multiple clone sites (MCS) were analyzed. In order to figure out some of the characteristic of this database, comprehensive analysis was carried out.

Key words:  Synthetic biology  Database  MySQL query


方刚. 一种用于构建表达载体的合成生物学数据库[J]. 生物信息学, 2016, 14(1): 39-42. DOI: 10.3969/j.issn.1672-5565.2016.01.07.
FANG Gang. A synthetic biology database for constructing expression vector[J]. Chinese Journal of Bioinformatics, 2016, 14(1): 39-42. DOI: 10.3969/j.issn.1672-5565.2016.01.07.
基金项目 国家自然科学基金资助项目(61173113) 作者简介 方刚,男,副教授,研究方向:合成生物信息学;E-mail : yuxiangqd@163.com 文章历史 收稿日期: 2015-09-06 修回日期: 2015-11-15


Contents            Abstract            Full text            Figures/Tables            PDF


一种用于构建表达载体的合成生物学数据库
方刚     
西安文理学院,生物与环境工程学院, 西安 710065

收稿日期: 2015-09-06; 修回日期: 2015-11-15
基金项目: 国家自然科学基金资助项目(61173113)
作者简介:方刚,男,副教授,研究方向:合成生物信息学;E-mail : yuxiangqd@163.com


摘要: 由于基因测序及DNA合成技术与工具的突破性进展,生物工程正在加速发展,导致合成生物学的出现。本文介绍了一种用于构建表达载体的合成生物学数据库。阐述了如何利用MySQL数据库管理系统(DBMS)对合成生物学数据库gene_bank进行查询,并借助BioEdit软件对其中的多克隆位点(MCS)进行序列分析,通过查询与分析找出这一合成生物学数据库的特点。
关键词: 合成生物学    数据库    MySQL查询    
A synthetic biology database for constructing expression vector
FANG Gang     
School of Biological and Environmental Engineering,Xi’an University, Xi’an 710065, China


Abstract: Due to the breakthrough in the Gene Sequencing and DNA Synthesis Technology. Biological and genetic Engineering developed rapidly and resulted in the emergence of Synthetic Biology. A database of synthetic biology,which aims at constructing expression vector, was introduced in this paper. By using MYSQL database management system (DBMS), the Synthetic Biology database of gene_bank were queried. The sequences of multiple clone sites (MCS) were analyzed. In order to figure out some of the characteristic of this database, comprehensive analysis was carried out.
Key Words: Synthetic biology    Database    MySQL query    
由Science杂志数据库搜索查询,该刊最早于1911年33卷有两篇文章出现“合成生物学”一词。由Scirus搜索引擎搜索,合成生物学一词最早出现于1911年7月8日著名医学刊物《柳叶刀》发表的一篇书评中。后来虽然断断续续出现过多次,但在1980年第一次以“基因外科术:合成生物学的开始”为题出现在德文刊物的一篇长篇论文[1]。随着人类基因组计划的完成,2000年以后,合成生物学一词在学术刊物及互联网上逐渐大量出现。对于近几年合成生物学的突然变热,不同的人对其有不同的解释。著名科普刊物 The Scientist为此专门采访了一些合成生物学领域的参与者[2],其中加州大学伯克利分校(UCB)的化学工程教授Keasling说:合成生物学正在用“生物学”进行工程化,就像用“物理学”进行“电子工程”,用“化学”进行“化学工程”一样。目前合成生物学与传统的重组DNA技术之间的界限仍然是模糊的。从根本上说,合成生物学正在利用获得的生物“零件”进行下一层次的工作——对细胞进行实际的工程化。是利用我们所确信的一些标准“零件”构造新生物系统的工程。“合成生物学组织”网站上公布的合成生物学的定义包括两条路线:(1)新的生物零件、组件和系统的设计与建造;(2)对现有的、天然的生物系统的重新设计[3]

合成生物学建立在“标准生物组件(BioBrick)”的基础上[4-5],所谓的标准生物构件就是一些具有生物学意义的DNA分子。合成生物学就是在活细胞中使用这些可互换的标准生物组件重新组合构造新的生物系统,并加以操纵来实现某种特定的生理功能。随着生物学的工程化和现代分子生物学的迅猛发展,这些所谓的“BioBrick”是以海量的形式出现的,对这些标准生物组件信息的组织、存储和操控必然依赖现代的数据库技术。本文就是通过使用现代数据库技术从常用的质粒表达载体中提取“生物组件”信息,将这些载体拆解成“零件”,提取信息加以组织、存储,然后期望使用这些零件构建新的载体。

1 常用质粒载体数据库gene_bank数据库是信息系统的核心,在信息社会中占据着举足轻重的地位。数据库技术主要研究如何科学地组织、存储和管理数据库中的数据。简单地说,数据库是存储、管理数据的容器:严格地说,数据库是“按照某种数据结构对数据进行组织,存储和管理的容器”[6]。合成生物学信息的组织、存储、管理以及操控就是依赖于现代的数据库技术。

Gene_bank数据库是源于常用质粒载体的数据库,这些质粒可以用来传染12种不同的宿主细胞(包括大肠杆菌、酿酒酵母、植物细胞、哺乳动物细胞、昆虫细胞等),这一信息在数据库中已予以存储。这是一个“生物组件”数据库,我们可以使用它来构造设计新的载体。每一个质粒载体的genbank文档中的FEATURES区域包含具有生物学意义的序列,可以用作开发标准生物组件(BioBrick)[7]

通过Perl语言编写程序,可以提取FEATURES区域的信息。提取的信息包括features名,所有的注释信息即note,重要的是提取各个features的序列信息,需要按照各features的起止号码,根据ORIGIN区域的序列信息提取各个features的准确序列。将提取的信息输入MySQL数据库。输入时产生两个表,其中plasmids表包括了每个质粒的总体信息(包括完整的genbank文档)。Features表中包含了从质粒genbank文档FEATURES区域提取的信息,其中FEATURES名被定义为feature_qualifier,而第一个注释即note在数据库中被定义为feature_name (FEATURES名),第二个note被定义为description即FEATURES的描述,表中还包含各FEATURES的起止号码和相对应的准确序列信息。genebank_feature表对各个feature_qualifier的含义进行了描述。snapgene_qualifier表和genocad_qualifier表是对各个feature_qualifier在两种流行的合成生物学软件Snapgene[8]和GenoCAD[8]中的含义的描述,表结构与genebank_feature的表结构基本一致。Gene_bank这一关系型数据库中最重要的是features表,这个表里包含就是从质粒载体“拆解”下来的合成生物学“零件”信息,可以使用这些信息来开发BioBrick。该数据库源于常用质粒载体,与标准生物组件(BioBrick)数据库的组织与结构有所不同[5-6],其中最大的不同在于它源于成熟商业化的质粒可用来开发新的商用载体,而标准生物组件数据库主要支持iGEM(International Genetically Engineered Machine)竞赛。

2 gene_bank数据库的SQL查询利用MySQL查询gene_bank数据库的操作如下。

2.1 打开MySQLWindows+R——>cmd(进入DOS)——>mysql -u root -p——>password

2.2 显示库表show databases;

use gene_bank;

show tables;

经过查询可知,gene_bank数据库中共有5张表,分别是features,genebank_features,genocad_qualifier,plasmids,snapgene_qualifier。

2.3 查询表结构2.3.1 Desc plasmids Plasmid(质粒)表中共有7个字段,如图 1所示。其中plasmid_id即质粒号;plasmid_name即质粒名;definition是对质粒的基本描述;sequence是质粒的序列信息;complete_genbank_text区存储完整的质粒genbank文档;is_circular表示如果该质粒是环形闭合的该区域值为1否则为0;origin表示质粒来源的数据集。

2.3.2 Desc features Features(特性)表中共有10个字段,如图 2所示。其中feature_id即features号;feature_name即features名称;description是对该features的基本描述;feature_qualifier表示该features是属于哪一类;complement表示该features是否是反向互补序列,如果是该区域值取1否则取0;start表示该features在它所属质粒中序列的起始号;end表示该features在质粒中序列的终止号;sequence表示该features的序列信息;plasmid_id表示该features所属质粒的号;flag区域表示该features的序列是否含有除a,g,c,t之外的特殊字符,如果含有则予以标出。

图 1(Figure 1)
图 1 表plasmids的查询结果Figure 1 The result of querying table plasmids


图 2(Figure 2)
图 2 表features 的查询结果Figure 2 The result of querying table features


2.3.3 Desc genebank_features Genebank_features表中共有3个字段,如图 3所示。其中qualifier_id表示feature_qualifier的号码;feature_qualifier就是各个feature_qualifier的名称;description是对各个feature_qualifier含义的解释。

2.4 查询feature表中的总记录Select count(*) as totalItem from features; 17 760 结果features表中总共有17 760条记录

Select count(*) from features where sequence is NULL; 0

Select count(distinct sequence) as totalsequence from features; 2 137sequence字段没有NULL值,完全不同的sequence只有2 137个,因此有大量sequence是冗余的,冗余的序列信息被标识并保留。

图 3(Figure 3)
图 3 表genebank_features 的查询结果Figure 3 The result of querying table genebank_features


2.5 综合查询Select feature_name,sequence,description,feature_qualifier,count(feature_id) from features group by feature_name,sequence,description,feature_qualifier having count(feature_id)>1 order by count(feature_id) desc;

通过这个语句,可以查询到feature_name、feature_qualifier、description、sequence四者均相同的features有哪些,通过查询可知AmpR promoter,AmpR,ori,T7 promoter是使用最多的四种features(分别是781次、516次、454次、452次)。这一查询的意义在于知晓哪些序列使用最为普遍频繁,为下一步开发BioBrick做准备。

Select feature_name,sequence,description,feature_qualifier,count(feature_id) from features group by feature_name,sequence,description,feature_qualifier having feature_name='MCS' order by count(feature_id) desc;

通过这个语句,可以查询到当features是MCS(多克隆位点)时,所用序列的统计次数,可以得到使用次数最多的序列,并且feature_qualifier是misc_feature,对于这些序列用BioEdit做了分析,可以显示其中详细的多克隆位点。这一查询的意义在于知晓哪些多克隆位点使用最为普遍频繁,可以用来提取较为有效的多克隆位点构建克隆或表达载体。

3 gene_bank数据库的意义关于标准生物构件数据库,最著名的莫过于麻省理工学院(Massachusetts Institute of Technology,MIT)倡导的Standard Biological Parts[9]。但是之前还少有基于成熟并常用的克隆、表达载体的数据库[10]。Gene_bank数据库就是源于常用质粒载体的数据库,我们可以使用它构造新的载体。

Gene_bank数据库源于成熟常用的商业化质粒载体,可以用来开发用作BioBrick。

Gene_bank数据库便于合成生物学家查询合成生物学研究所需要的数据,了解各个组件的具体信息,组合成新的生物系统。

4 前景与展望合成生物学将催生下一次生物技术革命。目前,科学家们已经不局限于非常辛苦地进行基因剪接,而是开始构建遗传密码,以期利用合成的遗传因子构建新的生物体。合成生物学在未来几年有望取得迅速进展。据估计,合成生物学在很多领域将具有极好的应用前景,这些领域包括更有效的疫苗的生产、新药和药物的改进、以生物学为基础的制造、可再生能源利用、生产可持续能源、环境污染的生物治理、可以检测有毒化学物质的生物传感器。本文通过从常用的质粒载体中获取序列信息,将完整的质粒序列拆成“零件”构建成数据库,提供给合成生物学家使用。以期从这些零件中提取元素构建新的表达载体。


参考文献
[1]HOBOM B. Gene surgery:on the threshold of synthetic biology[J].Medizinische Klinik, 1980, 75(24): 834–841.(0)

[2]LUCENTINI, L. Just what is synthetic biology[J].The Scientist, 2006, 20(1): 36.(0)

[3]赵学明, 王庆昭. 合成生物学: 学科基础、研究进展与前景展望[J].前沿科学, 2007(3): 56–66.ZHAO Xueming, WANG Qingzhao. Synthetic biology: fundamentals, advances and prospect[J].Frontier Science, 2007(3): 56–66.(0)

[4]SHETTY R P, ENDY D. Engineering BioBrick vectors from BioBrick parts[J].Journal of Biological Engineering, 2008, 2(1): 5.(0)

[5]孔祥盛. MySQL核心技术与最佳实践(第一版).北京: 人民邮电出版社, 2012.KONG Xiangsheng. MySQL core technology &best practice(1st ed.).Beijing: Posts &Telecom Press, 2012.(0)

[6]ADAMES N R, WILSON M L, FANG G, et al. GenoLIB:A database of standard biogical parts derived from a library of common plasmid features[J].Nucleic Acids Research, 2015, 43(10): 4823.(0)

[7]COOLING M T, ROUILLY V, MISIRLI G, et al. Standard virtual biological parts: a repository of modular modeling components for synthetic biology[J].Bioinformatics, 2010, 26(7): 925–931.(0)

[8]CZAR M J, CAI Y, PECCOUD J. Writing DNA with GenoCAD[J].Nucleic Acids Research, 2009, 37(Web Server issue): W40–W47.(0)

[9]SMOLKE C D. Building outside of the box: iGEM and the BioBricks Foundation[J].Nature Biotechnology, 2009, 27(12): 1099–1102.(0)

[10]CAI Y, WILSON M L, PECCOUD J. GenoCAD for iGEM: a grammatical approach to the design of standard-compliant constructs[J].Nucleic Acids Research, 2010, 38(8): 2637–2644.(0)


相关话题/生物学 数据库 生物工程 工程学院 技术

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于声发射技术的单丝复合材料界面性能研究
    基于声发射技术的单丝复合材料界面性能研究隋晓东1,吴凯文2,李烨2,李珂1,肇研2(1.沈阳飞机设计研究所结构部,沈阳110035;2.北京航空航天大学材料科学与工程学院,北京100191)摘要:为了克服传统单丝断裂实验局限于透明及高应变树脂的缺点,进一步拓展其应用范围,将声发射技术与传统单丝断裂实 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 薄板焊接变形中频感应矫正技术
    薄板焊接变形中频感应矫正技术刘海华,白云龙,李亮玉,陈豪杰,王力斌(天津市现代机电装备技术重点实验室(天津工业大学),天津300387)[HJ1.8mm]摘要:目前针对船舶上层建筑中的薄板焊接变形矫正主要采用火焰矫正法,但此种方法效率低、操作安全性差,且难以实现自动化.为了更好地实现薄钢板焊接变形感 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 汽车轻量化技术的研究现状综述
    汽车轻量化技术的研究现状综述李光霁,刘新玲(上海应用技术大学机械工程学院,上海201418)摘要:近年来汽车行业的科技水平发展程度逐渐提高,汽车行业进入高速发展阶段,然而随之而来的环境和能源问题也日趋加重。轻量化技术变成了各个汽车企业提升市场竞争力的关键,作者根据近些年来汽车轻量化技术现状进行综述, ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 合成生物学基因设计软件:iGEM设计综述
    合成生物学基因设计软件:iGEM设计综述伍克煜1,刘峰江1,许浩1,张浩天1,王贝贝1,2(1.电子科技大学生命科学与技术学院,成都611731;2.电子科技大学信息生物学研究中心,成都611731)摘要:随着基因回路规模的扩大,和应用范围的拓展,传统的合成基因回路的设计思路面临着新的挑战。新合成基 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • DNA存储中的编码技术
    DNA存储中的编码技术毕昆,顾万君,陆祖宏(生物电子学国家重点实验室(东南大学,生物科学与医学工程学院),南京210096)摘要:脱氧核糖核酸(DeoxyribonucleicAcid,DNA)是一种天然的信息存储介质,具有存储密度高、存储时间长、损耗率低等特点。在传统存储方式不能满足信息增长的需求 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 文本分析技术在蛋白质生物信息学中应用的案例综述
    文本分析技术在蛋白质生物信息学中应用的案例综述苏绍玉1,徐婧2,鄢仁祥2(1.福建省科学技术信息研究所,福州350003;2.福州大学生物科学与工程学院,福州350100)摘要:海量数据时代考察文本分析技术在生物信息学领域的应用具有重要的理论和现实价值。本文讨论了文本分析在蛋白质计算分析中的几个应用 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • GNSS接收机导航滤波器辅助捕获技术
    GNSS接收机导航滤波器辅助捕获技术赵琳,罗治斌,丁继成,吴谋炎(哈尔滨工程大学自动化学院,哈尔滨150001)摘要:为了充分利用GNSS接收机导航滤波器先验信息对基带信号处理过程的捕获进行辅助,以提高捕获速度及灵敏度,以北斗B1I信号为研究对象,开展GNSS接收机导航滤波器辅助估计伪码相位、载波多 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 金属增材制造缺陷检测技术
    金属增材制造缺陷检测技术郭政亚,熊振华(上海交通大学机械与动力工程学院,上海200240)摘要:金属增材制造过程中材料温度变化剧烈、行为复杂,特殊的工艺特点使零件中不可避免地出现各类缺陷,包括表面及内部缺陷,严重危害零件性能,成为阻碍金属增材制造技术发展的重要因素,限制了该技术在关键领域的应用.及时 ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 可调磁通电机系统及其关键技术发展
    可调磁通电机系统及其关键技术发展郑萍,王明峤,乔光远,刘法亮,张书宽(哈尔滨工业大学电气工程及自动化学院,哈尔滨150080)摘要:针对传统汽车工业发展面临的能源危机和环境污染等问题,为满足新能源汽车驱动电机在宽调速范围内高效率运行的需求,对可调磁通电机(variable-fluxmachine,V ...
    本站小编 哈尔滨工业大学 2020-12-05
  • 高精度小型陀螺仪关键器件加工技术研究进展
    高精度小型陀螺仪关键器件加工技术研究进展陈明君,王廷章,刘赫男,吴春亚,程健,苏定宁(哈尔滨工业大学精密工程研究所,哈尔滨150001)摘要:主要介绍超流体陀螺仪、原子陀螺仪和微半球陀螺仪3种陀螺仪关键器件的结构特点、质量技术指标和制备技术要求,阐述高精度微小型陀螺仪核心器件的制备技术研究进展;详细 ...
    本站小编 哈尔滨工业大学 2020-12-05