删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

利用第三代纳米孔长读段测序技术构建和注释蜜蜂球囊菌的全长转录组

本站小编 Free考研考试/2021-12-26

杜宇,1, 祝智威,1, 王杰1, 王秀娜3,4, 蒋海宾1, 范元婵1, 范小雪1, 陈华枝1, 隆琦1, 蔡宗兵1, 熊翠玲1,2, 郑燕珍1, 付中民1,2, 陈大福,1,2, 郭睿,1,21福建农林大学动物科学学院(蜂学学院),福州350002
2福建农林大学蜂疗研究所,福州 350002
3福建农林大学生命科学学院,福州350002
4福建省病原真菌与真菌毒素重点实验室(福建农林大学),福州 350002

Construction and Annotation of Ascosphaera apis Full-Length Transcriptome Utilizing Nanopore Third-Generation Long-Read Sequencing Technology

DU Yu,1, ZHU ZhiWei,1, WANG Jie1, WANG XiuNa3,4, JIANG HaiBin1, FAN YuanChan1, FAN XiaoXue1, CHEN HuaZhi1, LONG Qi1, CAI ZongBing1, XIONG CuiLing1,2, ZHENG YanZhen1, FU ZhongMin1,2, CHEN DaFu,1,2, GUO Rui,1,2 1 College of Animal Sciences (College of Bee Science), Fujian Agriculture and Forestry University, Fuzhou 350002
2Apitherapy Research Institution, Fujian Agriculture and Forestry University, Fuzhou 350002
3College of Life Sciences, Fujian Agriculture and Forestry University, Fuzhou 350002
4Key Laboratory of Pathogenic Fungi and Mycotoxins of Fujian Province (Fujian Agriculture and Forestry University), Fuzhou 350002

通讯作者: 陈大福, E-mail: dfchen826@fafu.edu.cn 郭睿,E-mail: ruiguo@fafu.edu.cn

责任编辑: 岳梅
收稿日期:2020-05-4接受日期:2020-05-22网络出版日期:2021-02-16
基金资助:国家现代农业产业技术体系建设专项.CARS-44-KXJ7
福建省自然科学基金.2018J05042
福建农林大学****科研人才计划.xjq201814
福建省病原真菌与真菌毒素重点实验室开放课题郭睿
江西省蜜蜂生物学与饲养重点实验室开放基金.JXKLHBB-2020-04
福建农林大学优秀硕士学位论文资助基金杜宇


Received:2020-05-4Accepted:2020-05-22Online:2021-02-16
作者简介 About authors
杜宇,E-mail: m18505700830@163.com

祝智威,E-mail: zzw15235470398@163.com
















摘要
【目的】利用第三代纳米孔(nanopore)长读段测序技术对蜜蜂球囊菌(Ascosphaera apis,简称球囊菌)的纯化菌丝(Aam)和孢子(Aas)进行测序,构建和注释球囊菌的高质量全长转录组。【方法】通过Oxford Nanopore PromethION平台对Aam和Aas进行测序。利用Guppy软件对原始读段(raw reads)进行碱基识别(base calling),通过过滤短片段和低质量原始读段得到有效读段(clean reads)。通过识别两端引物鉴定全长转录本序列。通过比对Nr、Swissprot、KOG、eggNOG、Pfam、GO和KEGG数据库获得全长转录本的注释信息。分别利用CPC、CNCI、CPAT、Pfam 4种方法对长链非编码RNA(long non-coding RNA,lncRNA)进行预测,取四者的交集作为高可信度的lncRNA。【结果】Aam和Aas的纳米孔测序分别测得6 321 704和6 259 727条原始读段,经质控得到5 669 436和6 233 159条有效读段,其中包含的全长有效读段分别为4 497 102(79.32%)和4 963 101(79.62%)条。共鉴定到9 859和16 795条非冗余全长转录本,N50分别为1 482和1 658 bp,平均长度分别为1 187和1 303 bp,最大长度分别为6 472和6 815 bp。Venn分析结果显示有6 512条非冗余全长转录本为菌丝和孢子所共有,分别有3 347和10 283个非冗余全长转录本为二者特有。此外,在球囊菌菌丝和孢子中共鉴定到20 142条全长转录本,其中分别有20 809、11 151、17 723、12 164、11 340和9 833条全长转录本可注释到Nr、KOG、eggNOG、Pfam、GO和KEGG数据库。注释全长转录本数量最多的物种是球囊菌、Polytolypa hystricis和荚膜组织胞浆菌(Histoplasma capsulatum)。GO数据库注释结果显示,上述全长转录本可注释到45个功能条目,涉及细胞组件、细胞和细胞器等细胞组分相关条目;催化活性、结合和转运器活性等分子功能相关条目;以及细胞进程、代谢进程和单一组织进程等生物学进程相关条目。KEGG数据库注释结果显示,上述全长转录本还可注释到抗生素的生物合成、核糖体、氨基酸的生物合成、碳代谢和剪接体等49条通路。此外,鉴定到648条高可信度的lncRNA,包含480条基因间区lncRNA、119条反义链lncRNA和49条正义链lncRNA。【结论】构建和注释了球囊菌的首个高质量全长转录组,为探究球囊菌转录组的复杂性,完善参考基因组的序列和功能注释信息以及深入开展球囊菌可变剪接体的功能研究提供了关键依据。
关键词: 第三代高通量测序技术;纳米孔测序;全长转录本;参考转录组;蜜蜂;蜜蜂球囊菌

Abstract
【Objective】Purified mycelia sample (Aam) and spore sample (Aas) were sequenced using third-generation nanopore long-read sequencing technology, followed by construction and annotation of high-quality full-length transcriptome.【Method】Aam and Aas were respectively sequenced using Oxford Nanopore PromethION platform. Guppy software was used to conduct base calling of raw reads. Clean reads were obtained after filtering out short fragments and low-quality raw reads. Full-length transcripts were identified by recognizing primers at both ends of clean reads. Full-length transcripts were aligned to Nr, Swissprot, KOG, eggNOG, Pfam, GO and KEGG databases to gain corresponding annotations. Four approaches such as CPC, CNCI, CPAT, and Pfam were used to predict lncRNAs, and the intersection was deemed to be high-reliability lncRNAs.【Result】In total, 6 321 704 and 6 259 727 raw reads were yielded from nanopore sequencing of Aam and Aas, and after quality control, 5 669 436 and 6 233 159 clean reads were obtained, including 4 497 102 (79.32%) and 4 963 101 (79.62%) full-length clean reads. Additionally, 9 859 and 16 795 non-redundant full-length transcripts were identified, with a N50 of 1 482 and 1 658 bp, an average length of 1 187 and 1 303 bp, and a maximum length of 6 472 and 6 815 bp, respectively. Venn analysis showed that 6 512 non-redundant full-length transcripts were shared by Aam and Aas, while 3 347 and 10 283 ones were specific for Aam and Aas, respectively. Besides, a total of 20 142 full-length transcripts were identified in Aam and Aas, among them 20 809, 11 151, 17 723, 12 164, 11 340 and 9 833 full-length transcripts could be annotated to Nr, KOG, eggNOG, Pfam, GO and KEGG databases, respectively. Most of full-length transcripts were annotated to A. apis, Polytolypa hystricis and Histoplasma capsulatum. Moreover, GO database annotation demonstrated that the above-mentioned full-length transcripts could be annotated to 45 functional terms, involving in cell component-associated terms such as cell part, cell and organelle; molecular function-associated terms such as catalytic activity, binding and transporter activity; and biological process-associated terms such as cellular processes, metabolic processes and single-organism processes. KEGG database annotation indicated that these full-length transcripts could be annotated to 49 pathways, including biosynthesis of antibiotics, ribosome, biosynthesis of amino acid, carbon metabolism, spliceosome and so on. In addition, 648 lncRNAs were identified, including 480 long intergenic RNAs (lincRNAs), 119 anti-sense lncRNAs and 49 sense lncRNAs. 【Conclusion】The first high-quality full-length transcriptome was constructed and annotated in this work, which offers a key basis for exploration of the complexity of A. apis transcriptome, improvement of sequence and functional annotation of reference genome and further study on isoforms’ function of A. apis.
Keywords:third-generation high-throughput sequencing technology;nanopore sequencing;full-length transcript;reference transcriptome;honeybee;Ascosphaera apis


PDF (3750KB)元数据多维度评价相关文章导出EndNote|Ris|Bibtex收藏本文
本文引用格式
杜宇, 祝智威, 王杰, 王秀娜, 蒋海宾, 范元婵, 范小雪, 陈华枝, 隆琦, 蔡宗兵, 熊翠玲, 郑燕珍, 付中民, 陈大福, 郭睿. 利用第三代纳米孔长读段测序技术构建和注释蜜蜂球囊菌的全长转录组[J]. 中国农业科学, 2021, 54(4): 864-876 doi:10.3864/j.issn.0578-1752.2021.04.017
DU Yu, ZHU ZhiWei, WANG Jie, WANG XiuNa, JIANG HaiBin, FAN YuanChan, FAN XiaoXue, CHEN HuaZhi, LONG Qi, CAI ZongBing, XIONG CuiLing, ZHENG YanZhen, FU ZhongMin, CHEN DaFu, GUO Rui. Construction and Annotation of Ascosphaera apis Full-Length Transcriptome Utilizing Nanopore Third-Generation Long-Read Sequencing Technology[J]. Scientia Acricultura Sinica, 2021, 54(4): 864-876 doi:10.3864/j.issn.0578-1752.2021.04.017


开放科学(资源服务)标识码(OSID):

0 引言

【研究意义】蜜蜂球囊菌(Ascosphaera apis,简称球囊菌)是专性侵染蜜蜂幼虫的致死性真菌病原,引发的白垩病是长期危害养蜂生产的顽疾,不仅可导致蜜蜂幼虫的大量死亡,还能导致成年蜜蜂数量的锐减以及蜂群群势和蜂产品产量的骤降[1,2]。目前,球囊菌的基因组注释信息尚不完善,高质量参考转录组匮乏,严重限制了球囊菌的组学和分子生物学研究。利用纳米孔(nanopore)长读段测序技术构建和注释球囊菌的全长转录组,有利于完善球囊菌的基因组注释,揭示其转录组的复杂性,并为其组学和分子生物学研究提供重要的参考信息。【前人研究进展】QIN等[3]曾利用Sanger测序法对球囊菌0.5-1 A和A10菌株的菌丝进行测序,基于156 Mb的测序数据拼接出8 092条contig(总长度约为21.57 Mb),进一步组装成1 627条scafford(总长度约为21.28 Mb);但作者当时仅公布了基因序列信息,没有同时公布基因功能注释信息,导致无法利用版本基因组开展球囊菌的组学研究。直到2016年,SHANG等[4]测序并公布了球囊菌ARSEF 7405菌株的完整基因组信息(assembly AAP 1.0),为其组学和分子生物学研究打下了基础。笔者所在团队前期对球囊菌开展了较为系统的转录组研究[5,6,7,8,9,10,11,12,13]。例如,基于Illimina短读段测序得到的146 135 308条短读段组装出球囊菌的42 609个unigene,其中有29 316个unigene在Nr、Swiss-prot、KOG和KEGG数据库中具有功能和通路注释信息[5];并在此基础上通过比较转录组分析初步揭示了球囊菌对意大利蜜蜂(Apis mellifera ligustica)幼虫和中华蜜蜂(Apis cerana cerana)幼虫的侵染机制[6,7]。第二代测序技术虽具有通量高和准确性较高的优势,但因得到的读段较短(<300 bp),需要对短读段进行拼接得到转录本,无法直接获得转录本的全长信息。近年来,以PacBio单分子实时(single molecule real time,SMRT)测序和Oxford Nanopore测序为代表第三代高通量测序技术因具有超长读长、较短测序周期及直接读取核酸修饰等优势[14],已成功应用于动植物的全长转录组研究[15,16,17,18,19,20]。但微生物的全长转录组研究相对滞后,有限的研究多集中在病毒[21,22]。【本研究切入点】目前,利用纳米孔测序技术对球囊菌的转录组研究十分滞后,高质量的球囊菌全长转录组缺失。【拟解决的关键问题】利用纳米孔长读段测序技术对球囊菌的纯化菌丝(Aam)和纯化孢子(Aas)分别进行测序,将高质量的三代测序数据混合后用于构建球囊菌的全长转录组,并通过比对主流数据库进行功能注释,同时对球囊菌的长链非编码RNA(long non-coding RNA,lncRNA)进行鉴定和分析。

1 材料与方法

试验于2019年8月至2020年1月在福建农林大学动物科学学院(蜂学学院)蜜蜂保护实验室完成。

1.1 供试生物材料

球囊菌菌株[1,5]由福建农林大学动物科学学院(蜂学学院)蜜蜂保护实验室分离、纯化和保存。参照笔者所在实验室前期已建立的技术流程[23,24]进行球囊菌活化及菌丝和孢子纯化。纯化得到的纯净菌丝样品和孢子样品经液氮速冻后迅速转移到-80℃超低温冰箱保存备用。

1.2 RNA提取、cDNA文库构建及纳米孔测序

(1)参照说明书步骤,利用TRizol试剂盒(Thermo Fisher公司,美国)分别提取Aam和Aas的总RNA;(2)引物退火,利用Maxima H Minus Reverse Transcriptase试剂盒(Thermo Fisher公司,美国)进行反转录,得到的cDNA添加switch oligo,再合成互补链;(3)对DNA进行损伤修复和末端修复,再利用磁珠对cDNA进行纯化;(4)委托北京百迈克生物科技有限公司对上述构建好的cDNA文库进行全长转录组测序,测序平台为PromethION(Oxford Nanopore Technologies公司,英国)。

1.3 数据质控及全长转录本鉴定

参照CHEN等[25,26]的方法进行数据质控:(1)因PromethION测序下机的原始读段格式为二代FAST5格式,包含所有原始测序信号,故利用MinKNOW2.2软件包中的Guppy软件[18]对原始读段进行碱基识别(base calling),将数据转换为FASTQ格式;(2)进一步过滤短片段和低质量的原始读段,得到高质量的有效读段;(3)根据纳米孔cDNA测序原理[27,28],对有效读段的两端进行引物识别,两端均识别到引物则判定其为全长转录本序列。

1.4 全长转录本的数据库注释

利用Blast工具将上述所有全长转录本比对Nr[29]、Swissprot[30]、KOG[31]、eggNOG[32]、Pfam[33]、GO(Gene Ontology)[34]和KEGG(Kyoto Encyclopedia of Genes and Genomes)[35]数据库,获得相应的功能和通路注释信息。

1.5 LncRNA的鉴定和分析

通常认为lncRNA不具备蛋白编码能力,因而可通过对转录本进行编码潜能筛选判定该转录本是否为lncRNA[36]。分别利用CPC[37]、CNCI[38]、CPAT[39]、Pfam[33]蛋白结构域分析4种方法对上述转录本进行lncRNA的鉴定,取四者的交集作为高可信度的结果。

2 结果

2.1 球囊菌菌丝和孢子的纳米孔测序数据质控

球囊菌菌丝和孢子的纳米孔测序分别得到6 321 704和6 259 727条原始读段,N50分别达到1 094和1 157 bp,平均长度分别为992和1 047 bp,最大长度分别为9 421和13 060 bp(表1)。来源于Aam和Aas的原始读段的长度分布介于1—10 kb以上,其中分布reads数最多的长度均为1 kb(图1-A、1-B);原始读段的Q值分布介于Q6—Q15,分布reads数最多的质量值分别为Q9和Q11(图 1-C、1-D)。

Table 1
表1
表1纳米孔长读段测序产生的原始读段信息概要
Table 1Summary of raw reads produced from nanopore long-read sequencing
样品
Sample
原始读段数
Number of raw reads
碱基数
Number of bases
居中长度
N50 (bp)
平均长度
Mean length (bp)
最大长度
Maximum length (bp)
平均质量值
Mean Q score
球囊菌菌丝Aam6 321 7046 271 320 8541 0949929 421Q10
球囊菌孢子Aas6 259 7276 553 996 8671 1571 04713 060Q10

新窗口打开|下载CSV

图1

新窗口打开|下载原图ZIP|生成PPT
图1球囊菌菌丝和孢子纳米孔长读段测序的原始读段长度和质量值分布

Fig. 1Length and quality distribution of raw reads generated from nanopore long-read sequencing of A. apis mycelium and spore

A:球囊菌菌丝测序产生的原始读段的长度分布Length distribution of raw reads produced from sequencing of Aam;B:球囊菌孢子测序产生的原始读段的长度分布Length distribution of raw reads produced from sequencing of Aas;C:球囊菌菌丝测序产生的原始读段的质量值分布Quality distribution of raw reads produced from sequencing of Aam;D:球囊菌孢子测序产生的原始读段的质量值分布Quality distribution of raw reads produced from sequencing of Aas


2.2 球囊菌全长转录本的鉴定和分析

对Aam和Aas样品测序产生的原始读段进行质控,分别得到5 669 436和6 233 159条有效读段,其中包含的全长有效读段分别为4 497 102(79.32%)和4 963 101(79.62%)条(表2);全长有效读段的长度介于1—9 kb,其中分布在1 kb的全长有效读段数最多(图2-A、2-B)。

Table 2
表2
表2全长有效读段的信息概览
Table 2Overview of full-length clean reads
样品
Sample
有效读段数
Number of clean reads
全长有效读段数
Number of full-length clean reads
全长有效读段数的占比
Percentage of full-length clean reads (%)
球囊菌菌丝Aam5 669 4364 497 10279.32
球囊菌孢子Aas6 233 1594 963 10179.62

新窗口打开|下载CSV

图2

新窗口打开|下载原图ZIP|生成PPT
图2全长有效读段和去冗余的全长转录本的长度分布

Fig. 2Length distribution of full-length clean reads and redundant clean reads-removed full-length transcripts

A:球囊菌菌丝测序产生的全长有效读段Full-length clean reads yielded from sequencing of Aam;B:球囊菌孢子测序产生的全长有效读段Full-length clean reads yielded from sequencing of Aas;C:球囊菌菌丝测序产生的全长转录本Full-length transcripts yielded from sequencing of Aam;D:球囊菌孢子测序产生的全长转录本 Full-length transcripts yielded from sequencing of Aas


进一步过滤冗余全长有效读段,分别得到9 859和16 795条非冗余全长转录本,N50分别达到1 482和1 658 bp,平均长度分别达到1 187和1 303 bp,最大长度分别为6 472和6 815 bp(表3);上述非冗余全长转录本的长度介于1—7 kb,其中分布在1 kb的全长转录本数最多(图2-C、2-D)。进一步对Aam和Aas的非冗余全长转录本进行Venn分析,结果显示有6 512个非冗余全长转录本为菌丝和孢子所共有,分别有3 347和10 283个非冗余全长转录本为二者特有(图3)。

Table 3
表3
表3过滤掉冗余全长有效读段的全长转录本概览
Table 3Overview of full-length transcripts after removing redundant full-length clean reads
样品
Sample
全长转录本数
Number of full-length transcripts
碱基数
Number of bases
居中长度
N50 (bp)
平均长度
Mean length (bp)
最大长度
Maximum length (bp)
球囊菌菌丝Aam9 85911 706 1531 4821 1876 472
球囊菌孢子Aas16 79521 899 1331 6581 3036 815

新窗口打开|下载CSV

图3

新窗口打开|下载原图ZIP|生成PPT
图3球囊菌菌丝和孢子全长转录本的Venn分析

Fig. 3Venn analysis of full-length transcripts in A. apis mycelium and spore



2.3 球囊菌全长转录本的数据库注释

在球囊菌菌丝和孢子中共鉴定出20 142条全长转录本,数据库注释结果显示,分别有20 809、11 151、17 723、12 164、11 340和9 833全长转录本可注释到Nr、KOG、eggNOG、Pfam、GO和KEGG数据库。注释全长转录本数量最多的物种是球囊菌、Polytolypa hystricis和荚膜组织胞浆菌(Histoplasma capsulatum)(图4-A)。球囊菌的全长转录本可注释到KOG数据库的24个功能分类,注释数量最多的是一般功能预测(1 658,13.29%),其次是翻译后修饰、蛋白质翻转和分子伴侣(1 180,9.46%),以及翻译、核糖体结构及生物合成(1 147,9.19%)(图4-B)。上述全长转录本还能注释到eggNOG数据库的25个功能类别,注释数量最多的前3位分别是未知功能(7 721,42.33%),翻译、核糖体结构和生物合成(1 285,7.04%),以及翻译后修饰、蛋白质翻转和分子伴侣(1 265,6.94%)(图4-C)。

图4

新窗口打开|下载原图ZIP|生成PPT
图4球囊菌全长转录本的Nr(A)、KOG(B)和eggNOG(C)数据库注释

Fig. 4Nr (A), KOG (B) and eggNOG (C) database annotation of full-length transcripts in A. apis



GO数据库注释结果显示,上述全长转录本可注释到45个功能条目,其中细胞组分大类中注释数量最多的是细胞组件(6 423,56.64%)、细胞(6 349,55.99%)和细胞器(4 769,42.04%),分子功能大类中注释数量最多的是催化活性(5 178,45.66%)、结合(4 315,38.05%)和转运器活性(714,6.30%),生物学进程大类中注释数量最多的是细胞进程(6 138,54.13%)、代谢进程(5 853,51.35%)和单一组织进程(3 769,33.24%)(图5)。

图5

新窗口打开|下载原图ZIP|生成PPT
图5球囊菌全长转录本的GO分类

Fig. 5GO classification of A. apis full-length transcripts

1:胞外区 Extracellular region;2:细胞 Cell;3:拟核 Nucleoid;4:细胞膜 Membrane;5:病毒 Virion;6:细胞膜内腔 Membrane-enclosed lumen;7:大分子复合物 Macromolecular complex;8:细胞器 Organelle;9:胞外区 Extracellular region part;10:细胞器组件 Organelle part;11:病毒体组件 Virion part;12:细胞膜组件 Membrane part;13:细胞组件 Cell part;14:超分子复合物 Supramolecular complex;15:转录因子活性,蛋白结合 Transcription factor activity, protein binding;16:核酸结合转录因子活性 Nucleic acid binding transcription factor activity;17:催化活性 Catalytic activity;18:信号传感器活性 Signal transducer activity;19:结构分子活性 Structural molecule activity;20:转运器活性 Transporter activity;21:结合 Binding;22:电子载体活性 Electron carrier activity;23:抗氧化活性 Antioxidant activity;24:金属伴侣活性 Metallochaperone activity;25:蛋白标签Protein tag;26:翻译常规活性 Translation regular activity;27:分子转换器活性 Molecular transducer activity;28:分子功能调节器 Molecular function regulator;29:生殖 Reproduction;30:免疫系统进程 Immune system process;31:代谢进程 Metabolic process;32:细胞进程 Cellular process;33:生殖进程 Reproductive process;34:生物黏附 Biological adhesion;35:信号 Signaling;36:多细胞组织进程 Multicellular organismal process;37:发育进程 Developmental process;38:生长 Growth;39:单一组织进程 Single-organism process;40:应激反应 Response to stimulus;41:定位 Localization;42:多组织进程 Multi-organism process;43:生物调控 Biological regulation;44:细胞成分组织或生物合成 Cellular component organization or biogenesis;45:解毒作用 Detoxification


KEGG数据库注释结果显示,上述全长转录本还能注释到的49条通路,其中注释数最多的通路是抗生素的生物合成(760,13.15%)、核糖体(589,10.19%)、氨基酸的生物合成(395,6.84%)、碳代谢(372,6.44%)和剪接体(335,5.80%)(图6)。

图6

新窗口打开|下载原图ZIP|生成PPT
图6球囊菌全长转录本的KEGG数据库注释

Fig. 6KEGG database annotation of A. apis full-length transcripts



2.4 球囊菌lncRNA的鉴定及分析

利用CNCI、CPC、Pfam和CPAT 4种方法分别鉴定出750、1 906、648和1 682条lncRNA,四者的交集为648个(图7-A);其中基因间区lncRNA(long intergenic RNA,lincRNA)、反义链lncRNA(anti-sense lncRNA)和正义链lncRNA(sense lncRNA)的数量分别为480、119和49个(图7-B)。

图7

新窗口打开|下载原图ZIP|生成PPT
图7球囊菌lncRNA的数量(A)和种类(B)

Fig. 7Number (A) and type (B) of A. apis lncRNAs



3 讨论

对于一个物种,高质量的参考转录组可为其组学和分子生物学研究提供可靠的参考信息。此前,笔者所在课题组利用二代测序技术对球囊菌开展了一系列转录组研究[5,6,7,8,9,10,11,12,13]。但对于包括球囊菌在内的所有蜜蜂病原,迄今尚没有基于纳米孔测序技术的组学研究报道。本研究利用纳米孔长读段测序技术对球囊菌的纯化菌丝和纯化孢子样品进行测序,分别测得6 321 704和6 259 727条原始读段,质控后得到5 669 436和6 233 159条有效读段;分别鉴定到9 859和16 795条非冗余的全长转录本;有20 809、11 151、17 723、12 164、11 340和9 833条全长转录本可注释到Nr、KOG、eggNOG、Pfam、GO和KEGG数据库。此前,笔者所在团队利用PacBio SMRT测序技术对球囊菌的纯化菌丝进行测序,鉴定出168 740条可比对上参考基因组的全长转录本,并通过比对Nr、KOG、GO和KEGG数据库对这些全长转录本进行了功能注释[40]。PacBio SMRT测序技术和纳米孔长读段测序技术为当前三代测序技术的两大代表,前者的单碱基准确性更高,在转录本结构分析方面更具优势;而后者不仅可以进行转录本结构分析,同时还能进行转录本定量分析,此外因测序设备体型较小、便于携带而具有更广泛的应用性[14,41]。本研究构建的球囊菌全长转录组版本与此前构建的全长转录组版本相互补充,同时提供两套高质量的全长转录本集,可为球囊菌的基因组注释完善、转录组分析和基因全长序列克隆提供宝贵资源。

第一代测序技术即Sanger测序技术的读长最长可达约1 000 bp,具有准确性高的优点,但高成本和低通量对其大规模应用产生了极大限制。以Illumina HiSeq技术为代表的第二代测序技术虽具有通量高和准确性较高的优势,但因得到的读段较短(300 bp),转录本需要由短读段拼接而来,难以获得转录本的全长信息。笔者所在团队前期基于Illimina HiSeq测序得到的短读段de novo组装出42 609条球囊菌unigene,N50和平均长度分别为1 550和966 bp[5]。本研究中,球囊菌菌丝和孢子的全长转录本的N50分别达到1 482和1 658 bp,与前期研究结果相比有所提升;平均长度分别为1 187和1 303 bp,显著优于二代测序研究结果。WORKMAN等[15]曾利用纳米孔测序技术对人类B淋巴细胞GM12878细胞系进行测序和分析,鉴定到的全长转录本的N50和平均长度分别为1 334和771 bp,与本研究的结果相似。以上结果表明纳米孔长读段测序技术在鉴定全长转录本方面具有独特优势。

菌丝和孢子是真菌生长发育阶段的两种不同形态,当外界环境适宜时真菌形成菌丝进行无性或有性繁殖,当外界环境不适宜时真菌形成休眠态孢子确保生存[42]。球囊菌孢子被蜜蜂幼虫经口摄入后,在中肠低水平萌发,并伴有菌丝的少量生长,至预蛹期中肠和后肠隔膜消失、相互连通,孢子随食物残渣涌入后肠并在此剧烈生长,进而致死宿主[43]。本研究发现,有6 512条非冗余全长转录本为菌丝和孢子所共有,分别有3 347和10 283个非冗余全长转录本在菌丝和孢子中特异性表达。鉴于本研究的测序材料来源于球囊菌的纯培养,不同于处于侵染和增殖状态的球囊菌,推测二者共有的全长转录本及其编码蛋白在球囊菌生长发育的不同阶段都发挥必要功能;特异性表达的全长转录本及其编码蛋白在球囊菌生长发育的不同阶段发挥不同作用;这些共有和特有全长转录本与病原的毒力和致病性存在潜在联系,未来可结合处于侵染和增殖状态的球囊菌全长转录组数据进一步挖掘和验证。进一步对球囊菌的全长转录本进行数据库注释,分别有20 809、11 151、17 723、12 164、11 340和9 833条全长转录本可注释到Nr、KOG、eggNOG、Pfam、GO和KEGG数据库。Nr数据库是NCBI中的非冗余蛋白质数据库,包含Swissprot、PIR(Protein Information Resource)、PRF(Protein Research Foundation)、PDB(Protein Data Bank)蛋白质数据库及从GenBank和RefSeq的CDS数据翻译过来的蛋白质数据信息。本研究中,共有多达19 275(92.63%)条全长转录本注释到球囊菌(图 4-A),与实际情况相符。另外,共有5 135(24.68%)条全长转录本在Nr数据库中注释为假定蛋白(hypothetical protein),说明球囊菌的基因功能注释信息还很不完善。究其原因,一是球囊菌目前的参考基因组版本公布时间较晚(2016年),而且由于该版本是基于二代测序短读段组装而成,基因组注释质量仍有较大的提升空间;二是由于相关转基因操作技术体系尚未完全建立,球囊菌的基因功能研究相对滞后且进展缓慢。鉴于此,若要进行球囊菌的基因功能研究,首先需要对其CDS序列进行克隆。本研究鉴定出的球囊菌全长转录本序列可为基因全长序列克隆提供关键的数据基础。TAUBER等[44]利用靶向β-葡聚糖合成蛋白编码基因以及Ras家族编码基因的双链RNA(dsRNA)处理球囊菌,发现外源遗传物质可能在病原萌发初期被吸收,进而抑制相关转录本,导致孢子萌发率降低。该研究为球囊菌的基因功能研究提供了方法借鉴。

目前,球囊菌的lncRNA研究滞后,相关信息匮乏。前期研究中,笔者所在团队基于球囊菌菌丝和孢子的二代测序得到的短读段数据,鉴定出379条lncRNA,包括123条反义链lncRNA、242条lincRNA、13条正义链lncRNA和1条内含子lncRNA[12]。本研究鉴定到480条lincRNA、119条反义链lncRNA和49条正义链lncRNA,但没有鉴定到内含子lncRNA。本研究鉴定到的lncRNA可进一步丰富球囊菌的lncRNA信息,为今后开展lncRNA的功能研究提供数据支撑。

4 结论

构建和注释了球囊菌的首个高质量全长转录组,为探究球囊菌转录组的复杂性、完善参考基因组的序列和功能注释信息以及深入开展球囊菌可变剪接体的功能研究提供了关键依据。

参考文献 原文顺序
文献年度倒序
文中引用次数倒序
被引期刊影响因子

CHEN D F, GUO R, XU X J, XIONG C L, LIANG Q, ZHENG Y Z, LUO Q, ZHANG Z N, HUANG Z J, KUMAR D, XI W J, ZOU X, LIU M. Uncovering the immune responses of Apis mellifera ligustica larval gut to Ascosphaera apis infection utilizing transcriptome sequencing
Gene, 2017,621:40-50.

[本文引用: 2]

GUO R, CHEN D F, DIAO Q Y, XIONG C L, ZHENG Y Z, HOU C S. Transcriptomic investigation of immune responses of the Apis cerana cerana larval gut infected by Ascosphaera apis
Journal of Invertebrate Pathology, 2019,166:107210.

[本文引用: 1]

QIN X, EVANS J D, ARONSTEIN K A, MURRAY K D, WEINSTOCK G M. Genome sequences of the honey bee pathogens Paenibacillus larvae and Ascosphaera apis
Insect Molecular Biology, 2006,15(5):715-718.

[本文引用: 1]

SHANG Y F, XIAO G H, ZHENG P, CEN K, ZHAN S, WANG C S. Divergent and convergent evolution of fungal pathogenicity
Genome Biology and Evolution, 2016,8(5):1374-1387.

[本文引用: 1]

张曌楠, 熊翠玲, 徐细建, 黄枳腱, 郑燕珍, 骆群, 刘敏, 李汶东, 童新宇, 张琦, 梁勤, 郭睿, 陈大福. 蜜蜂球囊菌的参考转录组de novo组装及SSR分子标记开发
昆虫学报, 2017,60(1):34-44.

[本文引用: 5]

ZHANG Z N, XIONG C L, XU X J, HUANG Z J, ZHENG Y Z, LUO Q, LIU M, LI W D, TONG X Y, ZHANG Q, LIANG Q, GUO R, CHEN D F. De novo assembly of a reference transcriptome and development of SSR markers for Ascosphaera apis.
Acta Entomologica Sinica, 2017,60(1):34-44. (in Chinese)

[本文引用: 5]

陈大福, 郭睿, 熊翠玲, 梁勤, 郑燕珍, 徐细建, 黄枳腱, 张曌楠, 张璐, 李汶东, 童新宇, 席伟军. 胁迫意大利蜜蜂幼虫肠道的球囊菌的转录组分析
昆虫学报, 2017,60(4):401-411.

[本文引用: 3]

CHEN D F, GUO R, XIONG C L, LIANG Q, ZHENG Y Z, XU X J, HUANG Z J, ZHANG Z N, ZHANG L, LI W D, TONG X Y, XI W J. Transcriptomic analysis of Ascosphaera apis stressing larval gut of Apis mellifera ligustica (Hyemenoptera: Apidae)
Acta Entomologica Sinica, 2017,60(4):401-411. (in Chinese)

[本文引用: 3]

郭睿, 陈大福, 黄枳腱, 梁勤, 熊翠玲, 徐细建, 郑燕珍, 张曌楠, 解彦玲, 童新宇, 侯志贤, 江亮亮, 刀晨. 球囊菌胁迫中华蜜蜂幼虫肠道过程中病原的转录组学研究
微生物学报, 2017,57(12):1865-1878.

[本文引用: 3]

GUO R, CHEN D F, HUANG Z J, LIANG Q, XIONG C L, XU X J, ZHENG Y Z, ZHANG Z N, XIE Y L, TONG X Y, HOU Z X, JIANG L L, DAO C. Transcriptome analysis of Ascosphaera apis stressing larval gut of Apis cerana cerana
Acta Microbiologica Sinica, 2017,57(12):1865-1878. (in Chinese)

[本文引用: 3]

郭睿, 李汶东, 陈大福, 熊翠玲, 郑燕珍, 付中民, 徐细建, 黄枳腱, 骆群. 意大利蜜蜂幼虫肠道内球囊菌及其纯培养的高表达基因差异分析
微生物学通报, 2018,45(2):368-375.

[本文引用: 2]

GUO R, LI W D, CHEN D F, XIONG C L, ZHENG Y Z, FU Z M, XU X J, HUANG Z J, LUO Q. Highly-expressed gene differences between Ascosphaera apis stressing the larval gut of Apis mellifera ligustica and the pure culture of Ascosphaera apis
Microbiology China, 2018,45(2):368-375. (in Chinese)

[本文引用: 2]

陈大福, 王鸿权, 李汶东, 熊翠玲, 郑燕珍, 付中民, 徐细建, 黄枳腱, 郭睿. 胁迫中华蜜蜂幼虫肠道的球囊菌及其体外培养的高表达基因分析
福建农林大学学报 (自然科学版), 2017,46(5):562-568.

[本文引用: 2]

CHEN D F, WANG H Q, LI W D, XIONG C L, ZHENG Y Z, FU Z M, XU X J, HUANG Z J, GUO R. Analysis of highly expressed genes of Ascosphaera apis infecting the gut of Apis cerana cerana larvae and its in vitro culture
Journal of Fujian Agriculture and Forestry University (Natural Science Edition), 2017,46(5):562-568. (in Chinese)

[本文引用: 2]

郭睿, 陈华枝, 童新宇, 熊翠玲, 郑燕珍, 付中民, 解彦玲, 王海朋, 赵红霞, 陈大福. 蜜蜂球囊菌基因结构优化及新基因鉴定
中国农业大学学报, 2019,24(1):61-68.

[本文引用: 2]

GUO R, CHEN H Z, TONG X Y, XIONG C L, ZHENG Y Z, FU Z M, XIE Y L, WANG H P, ZHAO H X, CHEN D F. Structural optimization of annotated genes and identification of novel genes in Ascosphaera apis
Journal of China Agricultural University, 2019,24(1):61-68. (in Chinese)

[本文引用: 2]

郭睿, 王海朋, 陈华枝, 熊翠玲, 郑燕珍, 付中民, 赵红霞, 陈大福. 蜜蜂球囊菌的microRNA鉴定及其调控网络分析
微生物学报, 2018,58(6):1077-1089.

[本文引用: 2]

GUO R, WANG H P, CHEN H Z, XIONG C L, ZHENG Y Z, FU Z M, ZHAO H X, CHEN D F. Identification of Ascosphaera apis microRNAs and investigation of their regulation networks
Acta Microbiologica Sinica, 2018,58(6):1077-1089. (in Chinese)

[本文引用: 2]

GUO R, CHEN D F, XIONG C L, HOU C S, ZHENG Y Z, FU Z M, DIAO Q Y, ZHANG L, WANG H Q, HOU Z X, LI W D, KUMAR D, LIANG Q. Identification of long non-coding RNAs in the chalkbrood disease pathogen Ascospheara apis
Journal of Invertebrate Pathology, 2018,156:1-5.

[本文引用: 3]

GUO R, CHEN D F, CHEN H Z, FU Z M, XIONG C L, HOU C S, ZHENG Y Z, GUO Y L, WANG H P, DU Y, DIAO Q Y. Systematic investigation of circular RNAs in Ascosphaera apis, a fungal pathogen of honeybee larvae
Gene, 2018,678:17-22.

[本文引用: 2]

LU H Y, GIORDANO F, NING Z M. Oxford Nanopore MinION sequencing and genome assembly
Genomics Proteomics and Bioinformatics, 2016,14(5):265-279.

[本文引用: 2]

WORKMAN R E, TANG A D, TANG P S, JAIN M, TYSON J R, RAZAGHI R, ZUZARTE P C, GILPATRICK T, PAYNE A, QUICK J, et al. Nanopore native RNA sequencing of a human poly (A) transcriptome
Nature Methods, 2019,16(12):1297-1305.

[本文引用: 2]

LEA W A, PARNELL S C, WALLACE D P, CALVET J P, ZELENCHUK L V, ALVAREZ N S, WARD C J. Human-specific abnormal alternative splicing of wild-type PKD1 induces premature termination of polycystin-1
Journal of the American Society of Nephrology, 2018,29(10):2482-2492.

[本文引用: 1]

CHEN S Y, DENG F L, JIA X B, LI C, LAI S J. A transcriptome atlas of rabbit revealed by PacBio single-molecule long-read sequencing
Scientific Reports, 2017,7:7648.

[本文引用: 1]

BAYEGA A, OIKONOMOPOULOS S, ZORBAS E, WANG Y C, GREGORIOU M E, TSOUMANI K T, MATHIOPOULOS K D, RAGOUSSIS J. Transcriptome landscape of the developing olive fruit fly embryo delineated by Oxford Nanopore long-read RNA-Seq
bioRxiv, 2018. doi: https://doi.org/10.1101/478172.

[本文引用: 2]

CHAO Q, GAO Z F, ZHANG D, ZHAO B G, DONG F Q, FU C X, LIU L J, WANG B C. The developmental dynamics of the Populus stem transcriptome
Plant Biotechnology Journal, 2019,17(1):206-219.

[本文引用: 1]

ZHU C H, LI X F, ZHENG J Y. Transcriptome profiling using Illumina- and SMRT-based RNA-seq of hot pepper for in-depth understanding of genes involved in CMV infection
Gene, 2018,666:123-133.

[本文引用: 1]

TOMBáCZ D, BALáZS Z, CSABAI Z, MOLDOVáN N, SZ?CS A, SHARON D, SNYDER M, BOLDOGK?I Z. Characterization of the dynamic transcriptome of a herpesvirus with long-read single molecule real-time sequencing
Scientific Reports, 2017,7:43751.

[本文引用: 1]

TOMBáCZ D, BALáZS Z, CSABAI Z, SNYDER M, BOLDOGKOI Z. Long-read sequencing revealed an extensive transcript complexity in herpesviruses
Frontiers in Genetics, 2018,9:259.

[本文引用: 1]

陈华枝, 祝智威, 蒋海宾, 王杰, 范元婵, 范小雪, 万洁琦, 卢家轩, 熊翠玲, 郑燕珍, 付中民, 陈大福, 郭睿. 蜜蜂球囊菌菌丝和孢子中微小RNA及其靶mRNA的比较分析
中国农业科学, 2020,53(17):3606-3619.

[本文引用: 1]

CHEN H Z, ZHU Z W, JIANG H B, WANG J, FAN Y C, FAN X X, WAN J Q, LU J X, XIONG C L, ZHENG Y Z, FU Z M, CHEN D F, GUO R. Comparative analysis of microRNAs and corresponding target mRNAs in Ascospheara apis mycelium and spore
Scientia Agricultura Sinica, 2020,53(17):3606-3619. (in Chinese)

[本文引用: 1]

陈华枝, 王杰, 祝智威, 蒋海宾, 范元婵, 范小雪, 万洁琦, 卢家轩, 郑燕珍, 付中民, 徐国钧, 陈大福, 郭睿. 蜜蜂球囊菌菌丝和孢子中长链非编码RNA的比较及其潜在功能分析
中国农业科学, 2021,54(2):435-448.

[本文引用: 1]

CHEN H Z, WANG J, ZHU Z W, JIANG H B, FAN Y C, FAN X X, WAN J Q, LU J X, ZHENG Y Z, FU Z M, XU G J, CHEN D F, GUO R. Comparison and potential functional analysis of long non-coding RNAs between Ascosphaera apis mycelium and spore
Scientia Agricultura Sinica, 2021,54(2):435-448. (in Chinese)

[本文引用: 1]

CHEN H Z, FAN X X, DU Y, FAN Y C, WANG J, JIANG H B, XIONG C L, ZHENG Y Z, CHEN D F, GUO R. Nanopore-based long-read transcriptome data of Nosema ceranae-infected and un-infected western honeybee workers’ midguts
bioRxiv, 2020. doi: https://doi.org/10.1101/2020.03.21.001958.

[本文引用: 1]

DU Y, FAN Y C, CHEN H Z, WANG J, XIONG C L, ZHENG Y Z, CHEN D F, GUO R. A full-length transcriptome dataset of normal and Nosema ceranae-challenged midgut tissues of eastern honeybee workers
bioRxiv, 2020. doi: https://doi.org/10.1101/2020.03.18. 997981.

[本文引用: 1]

JENJAROENPUN P, WONGSURAWAT T, PEREIRA R, PATUMCHAROENPOL P, USSERY D W, NIELSEN J, NOOKAEW I. Complete genomic and transcriptional landscape analysis using third-generation sequencing: A case study of Saccharomyces cerevisiae CEN.PK113-7D
Nucleic Acids Research, 2018,46(7):e38.

[本文引用: 1]

BOLDOGKOI Z, MOLDOVAN N, BALAZS Z, SNYDER M, TOMBACZ D. Long-read sequencing-A powerful tool in viral transcriptome research
Trends in Microbiology, 2019,27(7):578-592.

[本文引用: 1]

邓泱泱, 荔建琦, 吴松锋, 朱云平, 陈耀文, 贺福初. nr数据库分析及其本地化
计算机工程, 2006,32(5):71-73, 76.

[本文引用: 1]

DENG Y Y, LI J Q, WU S F, ZHU Y P, CHEN Y W, HE F C. Integrated nr database in protein annotation system and its localization
Computer Engineering, 2006,32(5):71-73, 76. (in Chinese)

[本文引用: 1]

The UniProt Consortium. UniProt: The universal protein knowledgebase
Nucleic Acids Research, 2017,45(D1):D158-D169.

[本文引用: 1]

KOONIN E V, FEDOROVA N D, JACKSON J D, JACOBS A R, KRYLOV D M, MAKAROVA K S, MAZUMDER R, MEKHEDOV S L, NIKOLSKAYA A N, RAO B S, et al. A comprehensive evolutionary classification of proteins encoded in complete eukaryotic genomes
Genome Biology, 2004,5(2):R7.

[本文引用: 1]

POWELL S, FORSLUND K, SZKLARCZYK D, TRACHANA K, ROTH A, HUERTA-CEPAS J, GABALDóN T, RATTEI T, CREEVEY C, KUHN M, JENSEN L J, VON MERING C, BORK P. eggNOG v4.0: Nested orthology inference across 3686 organisms
Nucleic Acids Research, 2014,42(Database issue):D231-D239.

[本文引用: 1]

FINN R D, BATEMAN A, CLEMENTS J, COGGILL P, EBERHARDT R Y, EDDY S R, HEGER A, HETHERINGTON K, HOLM L, MISTRY J, SONNHAMMER E L L, TATE J, PUNTAM. Pfam: The protein families database
Nucleic Acids Research, 2014,42(Database issue):D222-D230.

[本文引用: 2]

ASHBURNER M, BALL C A, BLAKE J A, BOTSTEIN D, BUTLER H, CHERRY J M, DAVIS A P, DOLINSKI K, DWIGHT S S, EPPIG J T, et al. Gene ontology: Tool for the unification of biology
Nature Genetics, 2000,25(1):25-29.

[本文引用: 1]

KANEHISA M, GOTO S, KAWASHIMA S, OKUNO Y, HATTORI M. The KEGG resource for deciphering the genome
Nucleic Acids Research, 2004,32(Database issue):D277-D280.

[本文引用: 1]

熊翠玲, 耿四海, 王心蕊, 刘思亚, 陈大福, 郑燕珍, 付中民, 杜宇, 王海朋, 陈华枝, 周丁丁, 郭睿. 意大利蜜蜂工蜂中肠的长链非编码RNA的预测、分析及鉴定
应用昆虫学报, 2018,55(6):1034-1044.

[本文引用: 1]

XIONG C L, GENG S H, WANG X R, LIU S Y, CHEN D F, ZHENG Y Z, FU Z M, DU Y, WANG H P, CHEN H Z, ZHOU D D, GUO R. Prediction, analysis and identification of long non-coding RNA in the midguts of Apis mellifera ligustica workers
Chinese Journal of Applied Entomology, 2018,55(6):1034-1044. (in Chinese)

[本文引用: 1]

KONG L, ZHANG Y, YE Z Q, LIU X Q, ZHAO S Q, WEI L, GAO G. CPC: Assess the protein-coding potential of transcripts using sequence features and support vector machine
Nucleic Acids Research, 2007,35(Web Server issue):W345-W349.

[本文引用: 1]

SUN L, LUO H T, BU D C, ZHAO G G, YU K T, ZHANG C H, LIU Y N, CHEN R S, ZHAO Y. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts
Nucleic Acids Research, 2013,41(17):e166.

[本文引用: 1]

WANG L, PARK H J, DASARI S, WANG S, KOCHER J P, LI W. CPAT: Coding-potential assessment tool using an alignment-free logistic regression model
Nucleic Acids Research, 2013,41(6):e74.

[本文引用: 1]

CHEN D F, DU Y, FAN X X, ZHU Z W, JIANG H B, WANG J, FAN Y C, CHEN H Z, ZHOU D D, XIONG C L, ZHENG Y Z, XU X J, LUO Q, GUO R. Reconstruction and functional annotation of Ascosphaera apis full-length transcriptome via PacBio single-molecule long-read sequencing
bioRxiv, 2019. doi: https://doi.org/10.1101/770040.

[本文引用: 1]

MAGI A, SEMERARO R, MINGRINO A, GIUSTI B, D’AURIZIO R. Nanopore sequencing data analysis: State of the art, applications and challenges
Briefings in Bioinformatics, 2018,19(6):1256-1272.

[本文引用: 1]

ARONSTEIN K A, MURRAY K D. Chalkbrood disease in honey bees
Journal of Invertebrate Pathology, 2010,103(Suppl.1):S20-S29.

[本文引用: 1]

李江红, 郑志阳, 陈大福, 梁勤. 影响蜜蜂球囊菌侵染蜜蜂幼虫的因素及侵染过程观察
昆虫学报, 2012,55(7):790-797.

[本文引用: 1]

LI J H, ZHENG Z Y, CHEN D F, LIANG Q. Factors influencing Ascosphaera apis infection on honeybee larvae and observation on the infection process
Acta Entomologica Sinica, 2012,55(7):790-797. (in Chinese)

[本文引用: 1]

TAUBER J P, EINSPANIER R, EVANS J D, MCMAHON D P. Co-incubation of dsRNA reduces proportion of viable spores of Ascosphaera apis, a honey bee fungal pathogen
Journal of Apicultural Research, 2020,59(5):791-799.

[本文引用: 1]

相关话题/数据库 技术 鉴定 纳米 信息