首页 > 科研教程 > 如何进行选择压力分析?
2023
05-01

如何进行选择压力分析?

在周一(4月2日)的《浅谈选择压力分析》一文周老师向大家介绍了选择压力分析的由来和用途,下面就可看下如何进行选择压力分析。按照群体数量,选择压力分析的方法主要可分成两类:DNA多样性的计算(单个群体内分析)和样性水平在不同亚群间的比较(多群体分析)。

第一类方法

DNA多样性的计算(单个群体内分析)。在动植物重测序领域,选择压力分析的方法大多数是在同一个物种内,进行多样性统计和比较。最基础的方法,也是重测序文章中用的最多的方法π值的计算。

π值就是计算两两序列的差异度,然后求均值。下图有4条序列,它们如果进行两两比较,应该有6组比较。例如,序列1和2的差异度是0.1(10个碱基长度,1个差异位点),序列1和3的差异度是0.3。最终计算得到均值是0.233。这个小群体的π值=0.233。

图1 多条序列的比较计算π值

这个π值就是代表了某个物种的某个群体的多样性程度(个体平均两两差异度的大小)。大部分动植物的π值都在1~5‰的水平。当然,这个数值只是整个基因组的均值。

在基因组的不同区域,由于受到不同的选择压,所以多样性水平实际上不同。例如下图,从野生种到栽培种的驯化过程中,基因组上只有第二个位点受到选择(蓝色基因型被淘汰,只有红色基因型被保留),所以只有这个位点的多样性显著降低。

图2 基因组不同区域的多样性变化并不相同

为了寻找基因组上那些潜在最极端的受选择的区域,在重测序分析中通常我们会采用滑窗分析的方法(例如,以40kb为窗口在基因组上扫描,计算各个窗口区域π值的均值)计算基因组上不同区域的π值变化,将那些潜在π值最极端的区域(例如,最低的1%或5%)作为潜在受选择的区域。

当然,其他常见多样性分析的方法,包括ω ,Tajima’D,ZHp(用在混池测序里)等,相关方法的介绍可以见《DNA水平自然选择作用的检测》[1]

第二类方法

多样性水平在不同亚群间的比较(多群体分析)。多样性水平在亚群间的比较,包括线性相关性分析和亚群间差异比较两大类方法。

线性相关性分析类的方法,主要是计算各个位点基因型(或者基因型频率)与环境因子间的相关性(例如,海拔,温度,维度等),从而筛查与环境相关的受选择位点(例如相关性最强的前top1%的位点或区域)。这个方法在重测序文章中并不常见。更常见的是,在不同亚群间进行多样性差异比较的方法。

亚群体间多样性(π值)的比较,在重测序文献中最常见的方法是Fst(群体分化程度)和 π ratio(多样性的变化倍数)。从两个数值的计算方法,我们可以了解它们意义的不同。假设有一个物种,分为A和B两个亚群。

Fst公式:Fst=[π(亚群间)-π(亚群内)] / [π(亚群间)]

所以某个位点(或区间)的Fst数值越大,则说明在这个位点,亚群间两两个体的平均差异度要大于亚群内两两个体的差异度。其说明的问题就是:两个亚群已经发生了明显的分化(缺乏基因交流),亚群体内的个体较为相似,而亚群间的个体则差异较大。

从进化选择的角度来考虑,则说明在两个亚群体中,进化/驯化的力量对两个群体施加了不同的作用,使用A和B两个亚群在基因型(频率)上呈现了不同的偏好。

图3 两个亚群间各个差异度衡量方式的示意图

公式:π ratio= π(A)/π(B)

π ratio这个公式更加简单粗暴,直接代表某个位点(或区间)在两个亚群间的多样性差异倍数。相比Fst关心基因型的分化,π ratio关心多样性值的高低变化。因此,π ratio通常应用在驯化种和野生种的比较。

假设亚群A为野生种群体,亚群B为栽培种群体。通常,野生群A多样性较高,而栽培群体B是从野生种群体中育种选育而来,其多样性必然会降低。而B群体中,多样性降低最显著(例如 top1%)的基因组区域,往往与驯化改良的选择相关。

这些基因组区域常常携带产量高、生长快等相关的基因,在育种过程中人类会强烈选择优良的基因型,导致这些区域在栽培群体中的多样性更显著的下降。

例如在西红柿驯化历史研究的文章中[2],通过π ratio两组比较(西红柿野生群体PIM vs 地方品种群体CER,地方品种群体CER vs 商品种群体BIG)分别挖掘在西红柿驯化和改良两个阶段潜在受选择的基因。

图4 利用π ratio挖掘西红柿驯化和改良两个阶段受选择的基因

以上的方法,都只是针对两个群体比较的方法。有的时候,可能会同时研究多个品种。那么,就可能会同时比较A品种与其他品种(B、C、D、E……)的分化差异。这个时候,则可以采用di分析的方法。di最早来源一篇研究10个狗品种选择分化的文章,用于解析任意一个狗品种与其他9个品种分化相关基因[3]。

为什么会有这么多方法?

上文我们介绍了选择压力分析的主流方法,但实际上在这些主流方法中还分化出了更多丰富的变种。那么,我们为什么需要这么多方法呢?

(1)不同方法适用范围不同,用于不同情况下的问题

例如,Fst可以广泛用于两个群体的分化。如果有多个群体相互比较,则可以采用di分析。但如果关心驯化过程中的多样性下降,π ratio的方法则更加有针对性。

(2)单个方法可能有较高假阳性,多个联合分析可以让结果更加可靠。

在自然群体中,除了因为选择压导致多样性变化,基因型频率随机波动导致的随机漂变也会导致多样性变化,导致结果假阳性。如果有2~3个方法联合解析,则可以降低假阳性。

例如,在狗适应性驯化研究文章中[4],作者就采用狗群体多样性下降(ZHp分析)和两个群体(狗和狼)分化程度上升两个指标的交集,来寻找狗驯化过程中受选择的基因,从而得到更加可靠的结果。

图5 两种方法结合寻找狗受选择的基因

正因为以上两点原因,基迪奥公司动植物群体选择压力分析结题报告中,提供包括π,ω ,Tajima’D,ZHp,Fst,π ratio,di在内的多种方法,便于用户可以根据自己的项目特点选择最适用的方法,挖掘目标材料受选择的基因。

最后,感兴趣的读者可通过点击 阅读原文直接观看Omicshare课堂的录播视频《群体遗传与进化选择技术交流》。也可以在基迪奥微信公众号底端菜单栏的“在线课堂”观看所有往期视屏。

今天的内容就到这里啦,接下来周老师会为大家介绍连锁分析、关联分析和选择压力分析三者的比较以及联合应用,敬请期待。

参考文献

[1] 周琦, 王文. DNA 水平自然选择作用的检测[J].动物学研究,2004, 25(1): 73-80.

[2] Lin T,Zhu G, Zhang J, et al. Genomic analyses provide insights into the history oftomato breeding[J]. Nature genetics, 2014, 46(11): 1220.

[3] Akey JM, Ruhe A L, Akey D T, et al. Tracking footprints of artificial selection inthe dog genome[J]. Proceedings of the National Academy of Sciences, 2010,107(3): 1160-1165.

[4] Axelsson E, Ratnakumar A, Arendt M L,et al. The genomic signature of dog domestication reveals adaptation to astarch-rich diet[J]. Nature, 2013, 495(7441): 360.

最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情