首页 > 科研教程 > 做微生物研究必懂的OTU table相关知识
2020
02-01

做微生物研究必懂的OTU table相关知识

微生物多样性分析中最基础、最重要的文件为OTU table,几乎所有的后续分析,如alpha多样性分析,beta多样性分析,差异分析等等都是基于OTU table展开的。因此理解OTU table的含义和来路,对微生物多样性分析至关重要。下面我们就来介绍一下OTU table是怎么样一步一步得来的,及其注意事项。

建库测序步骤:

  1. 16s/18S/ITS rRNA测序首先需要提取环境样品的DNA,这些DNA可以来自肠道、土壤、粪便、空气或水体等任何来源。

  2. 提取DNA后需要经过质检和纯化。

  3. 加入通用引物对16s/18S/ITS rRNA基因进行扩增,完成PCR扩增之后经过切胶回收,不同的样品再加上特定的测序接头,经过定量均匀混样之后,就可以直接上测序仪测序,得到原始测序reads;

  4. illumina测序原理视频帮助理解;

https://v.qq.com/x/page/f0519pz5jmw.html

原始数据处理:

  1. 根据测序barcode序列区分不同的样本序列,将数据分开至不同的样品中。

  2. 原始测序数据需要去除接头序列,并将双端测序序列通过序列之间的overlap拼接成单条序列(Tags),此步可由flash[1]软件完成。

  3. 过滤低质量序列和去除嵌合体序列。

什么是嵌合体?

在PCR反应中,在延伸阶段由于不完全延伸,就会导致嵌合体序列的出现。如下图所示:在扩增序列Template1的过程中,在序列延伸阶段,只产生了部分Template1序列在延伸阶段就结束了,在下一轮的PCR反应中,这部分序列作为序列Template2的引物接着延伸,扩增就会形成Template1和Template2的嵌合体序列。通常在PCR过程中,大概有1%的几率会出现嵌合体序列,而在16S/18S/ITS 扩增子测序的分析中,由于序列相似度很高,嵌合体可达1%-20%,因此需要去除嵌合体序列。去除嵌合体可以将拼接好的Tags比对到参考数据库当中确定嵌合体,然后进行去除,这一步可以用mothur[2]软件实现。

1.png图注:PCR嵌合体生成生成OTUtable:

什么是OTU

OTU(operational taxonomic units) 是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元(品系,种,属,分组等)设置的同一标志。通常按照 97% 的相似性阈值将序列划分为不同的 OTU,每一个 OTU 通常被视为一个微生物物种。相似性小于97%就可以认为属于不同的种,相似性小于95%,可以认为属于不同的属。

为什么引入OTU

高通量测序得到的16S序列有成千上万条,如果对每条序列都进行物种注释的话,工作量大、耗时长,而且16S扩增、测序等过程中出现的错误会降低结果的准确性。在16S分析中引入OTU,首先对相似性序列进行聚类,分成数量较少的分类单元,基于分类单元进行物种注释。这不仅简化工作量,提高分析效率,而且OTU在聚类过程中会去除一些测序错误的序列,提高分析的准确性。

2.png
序列聚类形成OTU

聚类生成OTU的三种方法:

1、de novo OTU 聚类,是将所有序列直接按照两两之间的相似度,划分成一个个OTU,选取该OTU中丰度最高的序列作为该OTU的代表序列,然后用代表序列比对参考数据库,获得该OTU的物种注释。常用数据库有RDP、Silva及Greengene,由于GreenGene和RDP数据库一直没有更新,一般采用Silva数据库进行分析。

3.pngOTU注释数据库


优点:不依赖参考数据库,尤其是所研究的样品中含有的已知物种较少,如极端环境中。
缺点:受测序错误及嵌合体影响较大,说白了就是有些序列并非真实存在,是实验过程产生的“假序列”,用这种方法聚类时就会被误认为是一个独立的OTU,不过可以通过去嵌合体等分析手段缓解。
2、closed-reference聚类,这种方法是将序列与参考数据库直接比对,比对到同一参考序列的作为一个OTU,在OTU聚类的同时,也获得了该OTU的物种注释信息。
优点:所获得的OTU可信度高;另外,由于不同文章中检测的16S区域不同,如果要合并分析,不能用de novo OTU picking的方法聚类,因此只能用close-reference方法聚类。
缺点:只能得到已知物种的序列,丢失未知物种的信息。
3 、open-reference OTU聚类,具有上述两种聚类方法的特点,即将序列与参考序列比对,未比对上的序列再进行de novo聚类。兼具上述两种方法的优点,但无法用于不同16S区域的合并分析。
由于目前的参考数据库信息有限,所以OTU的注释结果中常见到一些uncultured*之类的没有分类信息。

4.png

三种OTU聚类方法

经过OTU聚类和对OTU进行物种分类注释就可以得到一个OTU table了,这里包含每个样本所含的OTU种类及序列数,同时还有各个OTU的物种注释信息。一般如果没有特殊分析要求的话,应采用denovo的方法聚类获取OTU以最大限度的保留样品中物种种类,此分析过程可以用qiime[3]软件完成。具体如下图所示:

5.pngOTU table

如果某个样品的测序量较大(测序技术无法保证每个样品的测序量绝对的一致),相应的测到该样品中各种微生物的序列数会比其他样品多,即每个OTU中分到的序列数相应增加。因此OTU的序列数不能直接进行样品间的横向比较,而是要将序列数转化为比例也就是相对丰度(即序列数除以该样品的测序总序列数),得到该OTU在该样品中的比例,用这一比例进行横向比较。我们就可以说该OTU的丰度在不同样品间是升高了还是降低了。到这里,我们已经知道样品中的物种及其比例,可以根据比例绘制OTU丰度柱状图如下:

6.png样品丰度比较

至此我们得到了,OTU table表格,后续的分析就很好展开了。


最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情