首页 > 组学教程 > 学员来稿|全基因组关联分析(GWAS)学习笔记分享(三)
2023
04-09

学员来稿|全基因组关联分析(GWAS)学习笔记分享(三)

群体结构

我们上一节讲到了如何处理vcf文件,那我们这节课给大家讲一下,如何运用处理好的vcf文件进行群体结构计算。

首先给大家讲一下为什么要做群体结构呢,举一个简单的例子,黄种人的头发是黑的,白种人的头发是非黑的,你拿这个性状在这俩人种里关联,所有一个人种内特异的SNP都会起来峰,那这个峰还很好看,那这个峰是不是你想要的呢?

答案是NO,因为这是群体结构造成的影响。具体的原理我们这里不过多的陈述,如果想了解原理,可以看这里的群体结构与亲缘关系原理这一章节,里面有很详尽的讲解

http://www.omicshare.com/class/home/index/series?id=41

我们这期主要是讲重测序数据的GWAS分析,那重测序数据的SNP数目少则几十万,多则几百万上千万,传统的的计算群体结构的软件是structure,计算速度十分感人,如果您的项目是几百个品种,上百万甚至上千万个SNP,可能计算到您毕业都不一定都算完,这里给大家推荐一个算法和structure一样的,计算速度更快的软件,那就是今年来引用率更高的admixture。

运用admixture需要准备的文件,为处理好的vcf文件,我们建议您用admixture进行群体结构分析的时候,能将LD近的标记过滤掉,只保留这个,这样会提升您的运算速度,Admixture的美中不足的是不接受vcf文件,你需要将vcf文件转换为admixture所接受的bed格式,这里推荐大家用plink软件进行转换。

##按照LD过滤并转换为bed格式

plink--vcf snp.int0.8.maf0.05.vcf --indep-pairwise 100 50 0.2 --outsnp.int0.8.maf0.05 --allow-extra-chr --make-bed

##转换为admixture可以接受的格式

plink--bfile snp.int0.8.maf0.05 --extract snp.int0.8.maf0.05.prune.in --out prunData--recode 12 --allow-extra-chr

生成的文件就可以做admixture啦。

##做K=2时候的admixture

admixture--cv prunData.ped 2 >> log.txt

运行结束后会生成响应的Q文件:

这个Q文件,稍加修改就可以进行GWAS分析了,当然您也可以用已经做出来的结果,绘制发表级别的图片(如下图)。

以上部分就是admixture的全部讲解了,当然我们建议您能充分解群体结构原理,会用admixture结果绘制发表级的图片,一个高分的文章,图片一定是精美的。

亲缘关系

上面给大家讲了如何用admixture去计算群体结构,在做GWAS分析的时候,只矫正群体结构是不够的,亲缘关系也会回GWAS结果造成一定的假阳性。这一节为大家讲一下如何计算kinship。

先给大家介绍几款计算亲缘关系的软件:目前常用的几款软件有GCTA、LDAK、SPAGeDi、TASSEL。

首先SPAGeDi是一款引用率非常高的软件,在那个还是用芯片做GWAS的时代,它还是可以胜任亲缘关系计算这项工作的,但是由于测序技术的不断提高,做GWAS的标记量越来越高,渐渐就形成了日益增长的需求和落后的计算能力之间的矛盾。举个例子,如果你有几百万标记,几百个样本,这款软件会浪费你的青春。

那我们用什么如做大标记量的亲缘关系计算呢,GCTA、LDAK、TASSEL适合你,今天我们给您讲解一下如何用TASSEL去计算kinship。

提问,用TASSEL计算kinship需要几步。

答案:4步

第一步,您要在您的服务器上安装一个TASSEL,Windows界面版的不能够胜任这一项工作,具体的方法可以参考我们第一期。

第二步,准备好您的vcf文件,当然我们默认您的vcf文件是处理好的那样。

第三步,给vcf文件排序,排成tassel认可的序列,如果您不排序,运行任何命令都会报错,毕竟人家软件牛,还是有点脾气的哈。

命令格式:run_pipeline.pl -Xmx1536m-Xms512m -SortGenotypeFilePlugin -inputFile 你的vcf文件 -outputFile 输出vcf文件的名字 -fileType VCF

run_pipeline.pl-Xmx1536m -Xms512m -SortGenotypeFilePlugin -inputFile lecture06_genotype.vcf-outputFile lecture06cp -fileType VCF

我们ls -t看一下:

生成了个重新排序tassel可以接受的vcf文件。

第四步,开始振奋人心的亲缘关系分析,同样也是一条命令:

run_pipeline.pl-Xmx1536m -Xms512m -importGuess lecture06cp.vcf -KinshipPlugin -methodCentered_IBS -endPlugin -export tassel_kinship.txt -exportType SqrMatrix

我们再ls -t看一下:

就生成了你所需要的文件啦:

这个文件就可以直接拿去做GWAS分析了。

当然,我们今天只讲了用tassel去算kinship,如果您想用别的方法比如GCTA、LDAK、SPAGeDi去计算,没关系,基迪奥的GWAS课程有详细的讲解,从原理到方法再到技术,你想要的这里都有,同时也会教你,如何用您算出来的亲缘关系文件去绘制发表级别的图片。

教程链接:http://www.omicshare.com/class/

转自:基迪奥



最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情