首页 > 组学教程 > 【生物信息学笔记】其他主要生物信息资源
2023
03-04

【生物信息学笔记】其他主要生物信息资源

这一节里,我们来看一下独立资源的几个例子。

一个很重要的资源是蛋白三维结构数据库 Protein DataBank (PDB)。我们这门课里对于蛋白三维结构的计算和预测讲的很少,但这其实也是非常重要的资源和研究方向。Protein DataBank现在主要是由Rutgers和UC Sandiego共同来管理。

它目前共有9万多,将近10万的三维结构,包括8万多的X-ray晶体结构,1万多的核磁结构,还有其它的像Electron Microscopy等等的一些结构。

这些结构中最多的是蛋白的结构,另外也有核酸结构,和蛋白和核酸的复合体的结构。

解蛋白结构不像测序这样能够有这么高的通量。这个图显示的是PDB这么些年来增长的一个趋势。 蓝的显示的是每一年新增加的蛋白三维结构的数量,每一年都有增加,但增加的不是那么多。但是要是看总数的话,还是有一个比较大的增加。这里90%是蛋白的结构,10%是核酸和复合体的结构。

Stanford有一个比较有用的资源叫GERP,它主要是来计算保守性。你如果给它一组蛋白序列,它就可以找到这一组序列里最保守的区间是什么。

再举另外的一个例子。这是Yale的Gerstein Lab做的CNVnator。它主要是通过新一代测序技术来鉴定拷贝数变异。 类似的还有像BICseq等等的几个相关的这种软件。

Sanger Institute做了一个Rfam这样的一个数据库及相关的工具,把已知的很多非编码RNA——非编码RNA它自己也有很多的家族——的家族做了比对和相应的motif[分析]。 然后如果你有一个新的非编码RNA测量出来,你想知道它有什么潜在的功能,你就可以用这个Rfam来做一个预测。

最后给大家简单介绍一下还有一类很重要的资源,就是我在第一节里也简单提到过的这些小的程序包,包括最主要的就是Bioconductor,BioPerl,和BioPython。

Bioconductor里有很多小的R包。一般来说,在你动手写一个R程序之前,你要先到Bioconductor去看一下有没有别人写了。 别人写的程序你也不能直接拿过来不动脑子地用,你也要看它的程序,你要做测试,确认它没有问题。

不要到时候被别人一个错误的程序把你给害了。这个资源是非常非常的有用的,而且[它是]随着时间的推移会越来越重要的一个资源。

类似的一个资源是BioPerl,[它]有很多Perl的程序包。另外它可以装到Linux、Windows、Macintosh等等很多不同的平台。它也有很多的帮助文档,比如说How do I learn Perl?

BioPython就是类似的。R语言、Perl、Python也是生物信息学用的最多的三种编程语言。 如果是计算量很大的一些程序,我们都还是要用C和C++来写。但是其它的很多程序,尤其是[把]你已知的几个程序包裹一下的话,用的最多的就是Perl和Python。而涉及到统计分析,用的很多的就是R。

所以像我前面提到的,生物信息学发展的很快,有很多没有解决的问题,[是]一个非常年轻很有活力的一个领域。 两年之后我们再上这门课,可能就会再讲新的内容,[其中就]可能有在坐的某一个同学开发的一个工具。另外,即使你自己不开发,[也]一定要去用。这是生命科学必然的一个趋势。一定是很重要的一部分。

[这里要]提醒大家,像Spider-Man电影里[那样说的],不知道大家有没有记得,Spider-Man电影里第一集有很著名的一句话,叫”With great power comes great responsibility.” 我觉得[这句话无论]对于Spider-Man这种power还是对于一个实验技术都是适用的。尤其像生物信息学的方法,它有一个特点,就是不管你输入什么数据,你一click、run,它都会给你个结果。

如果你对这个方法的底层的假设、局限性、准确性不了解的话,你很有可能就做出一个很错误的推断;如果你对它很了解的话,这真的就是一个很有用的power。

一分钟抓住一个知识点

(CNV)Copy-number variation

拷贝数变异(CNV)是一种基因组片段重复的现象,基因组中重复的数量因个体而异。拷贝数变化是一种结构变化:具体来说,它是一种影响大量碱基对的复制或删除事件。然而,请注意,尽管现代基因组学研究主要集中在人类基因组上,复制数的变化也发生在其他多种生物中,包括大肠杆菌和酿酒酵母。

最近的研究表明,大约三分之二的人类基因组由重复的序列组成,4.8-9.5%的人类基因组可分为拷贝数变异。在哺乳动物中,拷贝数的变化在种群和疾病表型的必要变化中起着重要的作用。

拷贝数变化一般可分为两大类:短重复和长重复。然而,这两个群体之间没有明确的界限,分类取决于感兴趣的位点的性质。短重复主要包括双核苷酸重复(两个重复的核苷酸,如A-C-A-C-A-C…)和三核苷酸重复。长重复包括整个基因的重复。这种基于重复大小的分类是最明显的分类类型,因为大小是检查最有可能产生重复的机制类型的一个重要因素,因此这些重复对表型的可能影响。

——维基百科

转自华康基因



最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情