首页 > 组学教程 > 宏基因组:扩增子测序常用数据库整理与介绍
2022
03-23

宏基因组:扩增子测序常用数据库整理与介绍

微生物扩增子测序是研究微生物组成的重要方法,且成本较低,是许多课题组的首要选择。扩增子测序数据分析最主要的一个材料就是扩增子数据库,用来与测序数据进行比对,并进行物种注释,主要收录了微生物的16S,18S个ITS序列信息。扩增子数据库版本较多,本期就对主流的扩增子数据库进行一个详细的整理和介绍,以便大家选择使用。

1. GreenGenes

网址:http://greengenes.secondgenome.com/

GreenGene是一个最经典的16S物种数据库,专门针对细菌、古菌16S rRNA基因。该数据库是基于人工整理,数据更加比较准确。分类上采用的是通用的界门纲目科属种七级,方便使用者理解和阅读。可惜的是,该数据库很久未更新了,目前的最新版本还是2013年更新的。但是很多实验室还是热衷于用该数据库进行注释,而且PICRUST、QIIME等诸多工具也是基于该数据库设计的。

2. SILVA

网址:https://www.arb-silva.de/

SILVA数据库是收纳细菌、古菌和真核微生物的rRNA基因序列的综合数据库,该数据库包含了原核和真核微生物的小亚基rRNA(16S和18SrRNA)和大亚基rRNA(23S和28SrRNA)序列。该数据库更新很频繁,但是数据假阳性较greengene高。而且该数据库的物种注释采用的是14级,与常用的七级不同,不方便比较。

3. RDP

网址:https://rdp.cme.msu.edu/index.jsp

RDP数据库的全称是“RibosomalDatabase Project”。是由密歇根州立大学开发维护的在线工具,内容主要包括了数据库和在线分析工具2部分。其中,数据库部分提供了细菌、古菌的16S rRNA基因以及真菌28S rRNA基因序列。其最新版本是2016年9月更新,包含了3356809条16S rRNA基因序列和125525条真菌28S rRNA基因序列。

4. UNITE

网址:https://unite.ut.ee/index.php

UNITE数据库是专门针对真菌ITS序列,包括ITS1和ITS2区最全面的数据库。ITS是最常用的真菌鉴定及多样性检测的marker基因,UNITE是ITS高通量测序后对真菌进行分类注释的比对最常用的数据库。该数据库最新版本是2017年12月更新,新版本包含 817130条ITS序列,可以下载数据库,也可以在线对ITS序列进行鉴定(https://unite.ut.ee/analysis.php)。

5. PR2

网址:https://figshare.com/articles/PR2_rRNA_gene_database/3803709

PR2数据库是专门针对真核微生物18SrRNA基因的数据库。该数据库主要由核编码的原生生物序列构成,但为方便分析18S的高通量测序数据,数据库也包含了后生生物、陆地植物、大型真菌和真核细胞器(线粒体、质体等)的SSU序列。该数据最新更新是在2018年2月。

6. FunGene

网址:http://fungene.cme.msu.edu/index.spr

FunGene是一个针对微生物功能基因序列的数据库,而且提供了一些工具对功能基因进行分析。FunGene数据库将功能基因分为了7类,抗生素抗性(Antibiotic resistances)、生物地球化学循环(Biogeochemical cycles)、植物的致病基因(Plant Pathogenicity)、系统进化标记(Phylogenetic markers)、生物降解(Biodegradation)、金属循环(Metal Cycling)和其他(Other。FunGene的序列来源于GeneBank 数据库,而GeneBank 数据库是有冗余的,所以FunGene 也会有冗余现象,所以在下载完序列之后,需要去冗余。FunGene可被用于功能marker基因高通量测序后的比对以及功能基因的引物设计等。

7. NCBI

网址:https://www.ncbi.nlm.nih.gov/

除了上述数据库之外,另一个最全面的当属NCBI,而该数据库中的信息是没有专人整理的,所以会有冗余,且有相当的错误率,需要自己整理和甄别。

转自生信草堂公众号

最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情