首页 > 学习课程 > DNA 元件百科全书(ENCODE)计划的“野心”
2023
01-13

DNA 元件百科全书(ENCODE)计划的“野心”

人类基因组计划(Human Genome Project,HGP)的完成标志着科学家们已将人类的一个完整的遗传密码握在手中。而与这些密码相关的其他内容同时也在静静地参与导演着生命的全过程。于是,一场更加盛大的探究基因组中功能元件的活动拉开了帷幕, DNA 元件百科全书(the Encyclopedia of DNA Element,ENCODE)计划应运而生。ENCODE 项目的目标是建立人类基因组中全部具有功能性的元件清单,包括在蛋白质和RNA 水平上起作用的元件,以及活跃细胞与协同环境的调控元件。

背景资料

ENCODE 计划自2003 年9 月正式启动(ENCODE Project Consortium,2012),吸引了来自美国、英国、西班牙、日本和新加坡等5 个国家的32 个研究机构、440 多名科学家共同参与。迄今为止,该计划研究了147 个组织类型,进行了1478 次实验,获得并分析了超过15 万亿字节的原始数据,确定了400 万个基因开关,明确了哪些DNA 片段能打开或关闭特定的基因,以及不同类型细胞之间的“开关”存在的差异,甚至证明我们之前认为的 “垃圾DNA”(junk DNA)很可能是十分有用的基因成分,担任着基因调控重任。

人类对生物遗传信息的探索,可以追溯到大约19 世纪中叶奥地利帝国的遗传学家格雷戈尔·孟德尔种下那些豌豆起,人类开启了对“遗传”这件事孜孜不倦的探索。一直到20 世纪50 年代,沃森和克里克第一次解锁脱氧核糖核酸(DNA)的双螺旋结构,才正式拉开人类探索生命密码单位的序幕,也将DNA与遗传密码联系起来。总体来看, 人们对生命物质的认识大概分为四个阶段

  • 第一阶段为细胞学遗传基础——染色质;
  • 第二阶段为分子学遗传基础——DNA 双螺旋结构;
  • 第三阶段为信息学遗传基础,即发现基因读取的生物学机制,并能够通过DNA 重组技术进行生物克隆;
  • 第四个阶段则是从20 世纪80 年代一直持续到21 世纪初的人类基因组计划。

科学家们用20 多年的时间,破译了数百个病毒和质粒的序列、细胞器及94%左右的人类基因组序列。然而,跨越一个多世纪的遗传研究表明,仅仅知道序列是不够的。

科学家们怎么做的

要搞清ENCODE 计划究竟做了些什么,我们要先看看ENCODE 计划是怎么做的。这就不得不提一系列先进的生物测序技术(详细介绍略)。

▲ ENCODE 计划主要使用的技术方法(引自ENCODE 计划官方网站)

  • 3C、5C、Hi-C 及ChIA-PET 技术
  • DNase-Seq、FAIRE-Seq、ATAC-Seq、ChIP-Seq 和MNase-Seq 技术
  • WGBS 和RRBS 技术
  • 计算机生物学预测技术
  • RNA-Seq 技术

▲ DNase-Seq、FAIRE-Seq、ATAC-Seq、ChIP-Seq 和MNase-Seq 技术的作用方式(Mayer & Liu,2014)

在ENCODE 计划中,科学家得到什么

▋ 80%的基因组与生化有关

最初,科学家们曾经认为生物体内的基因组中,只有部分基因发挥着生物学功能;也就是说,存在着众多的所谓“垃圾基因”(junk DNA)。但随着ENCODE 计划的展开,这些曾经的“垃圾基因”似乎同样在生命的形成过程中发挥着不可替代的重要作用。在DNA 与DNA 之间,充满了增强子、启动子和无数之前忽视的能够编码RNA 转录但不翻译成蛋白质的区域(非蛋白质编码区)。科学家们研究发现基因组中80%的区域可能承担着生化功能(ENCODE Project Consortium,2012),这些调控元件在空间上密切联系,同时调控着蛋白编码区基因的表达,关系着与DNA 突变相关的疾病的发生。

▋ 建立转录因子网络:基因调控存在远程干预

除了要寻找蛋白X 与DNA 元件Y 的简单关系外,ENCODE 计划的科学家还在寻找转录因子之间的优先关系和相互关系。除了染色体上基因和转录本的线性组织外,还有一个更复杂(而且仍然很难理解)的染色体环和扭曲网络。通过这个网络,启动子和更多的远端元件,如增强子,相互传递它们的调控信息。Sanyal 等(2012)在每种细胞类型中绘制了1000 多个类似的远程信号。他们的发现推翻了长期以来科学家对基因表达调控的假说,即一个基因的调控是由它最邻近的调控元件所主导的。

▋ 作为人类基因组计划的延续

一旦科学家们完成了基因组测序,就需要进一步对染色质进行全面的、百科全书式的认知。而在ENCODE 计划执行至今,突出了转录因子在塑造染色质方面的关键作用。

Thurman 团队发现(Thurman et al.,2012),开放的染色体能够被酶切是由于DNA 结合蛋白(DNA-binding protein)使核小体移位并对其进行置换造成的。它们是远离启动子位置的、细胞特异性增强子的标志,这种现象称之为DHS。相继有大量论文揭示了DHS 的存在——每种细胞类型超过200 000 个位点。这个数量相当惊人,已经远远超过启动子的数量,以及它们在细胞类型之间的异质性。通过同时存在于同一细胞类型的DHS 和附近的活性启动子研究,研究人员将50 万个增强子与其可能的目标基因进行配对,使得200 多万种可能的增强子没有了已知的目标靶点。那么它们从哪里来,准备到哪里去呢?无疑,这些研究结果提示了调控基因组的一种全新的未知格局。染色体构象捕捉法应运而生,用以检测远距离DNA 区域之间的桥梁联系。

▲ 染色体开放区中的DHS(DNase I 超敏结合位点)(Ecker et al.,2012)

▋ 生物计算时代的来临

人类基因组计划及ENCODE计划产生了海量的数据,对有效甚至高效的计算和数据分析提出了挑战。ENCODE 计划中,产生的每个碱基对的可及性、甲基化、转录状态、染色质结构和结合分子的初步数据,都需要对原始数据进行有效的处理。

对于上文中谈到的每一种分析方法,ENCODE 研究人员设计了新的处理算法,从而消除异常值和偏倚,并确保导出的功能信息的可靠性。在此基础上,这些研究数据的处理流程和质控措施,被规范成相关分析数据的标准。

除了运算方法外,ENCODE 计划中对结合DNA 甲基化、DNA 可及性和转录因子表达的综合情况,进行数据分析,也是这次研究计划的重要部分。Thurman 等(2012)对DNA 甲基化在基因沉默中的因果作用进行了研究。他们发现,在表达这些转录因子的细胞类型中,转录因子结合位点的甲基化频率较低。这说明结合位点的甲基化通常是由一种不受转录因子约束的位点甲基化的被动机制造成的。

▋ 演化生物学壮大的蓝图

演化生物学面临的重大挑战之一是了解物种间DNA 序列的差异如何决定其表型的差异。演化的变化可能是通过改变蛋白质编码序列和改变调节基因序列来实现的。随着研究的不断展开,人们越来越认识到这种调控演变的重要性。有人认为,蛋白质编码序列的潜在适应性变化可能被自然选择所阻止,因为即使它们在一种细胞类型或组织中是有益的,它们在生物体的其他地方也可能是有害的。相反,由于基因调控序列经常与特定时间和空间上特定的基因表达模式相关联,这些区域的变化可能只在特定时间改变某些细胞类型的功能,从而使它们更有可能具有演化优势。

然而,到目前为止,几乎没有关于哪些基因组区域具有调控活性的信息。ENCODE 项目提供了这些调控元素的第一份蓝图,并使我们更接近基因组学的一个重要目标——了解人类基因组中每一个位置的功能作用。

ENCODE 计划的野心与未来

ENCODE(以及类似的项目)未来的主要挑战之一将是 捕捉基因调控的动态变化。从前面的描述中可以看出,ENCODE 的已有研究中,大多数分析只是提供了细胞调节事件的瞬时快照,而捕捉这些过程如何变化的时间序列显得更加重要。此外,按照目前的分析要求,对大量细胞的检查可能会过于简化对潜在复杂性的研究,例如,成批的单个细胞(尽管在基因上是相同的)有时会表现出不同的行为方式。开发旨在同时捕获多种数据类型的新技术及其在单细胞中的动态监控,将有助于解决这些问题。

截止到成稿阶段,ENCODE 已经完成了ENCODE Pilot Project、ENCODE 2、ENCODE3 三个阶段。前三个计划从关注1%的人基因组基因(ENCODE Pilot Project)扩展到关注人及小鼠全基因组分析(ENCODE 2、ENCODE 3),生成的免费的数据库(均可在ENCODE Portal 中查阅)供参阅,包括整理好的合集、各个出版及发表的实验数据。目前,ENCODE 计划已经到ENCODE 4 阶段,该阶段的主要研究目标是拓展人和小鼠基因组候选调控元件的目录,并加入疾病等样本的研究;同时,希望探索更新已有的ENCODE 基因组检测手段。所有的研究数据都将开放共享。

结 语

科学家面临的一个挑战是如何将基因组成分有效地组合起来,通过组装基因网络和生化途径从而实现复杂的功能,如细胞与细胞间的通讯,从而使器官和组织得以发育;另一个更大的挑战是,利用由基因组测序而快速增长的数据和解码生命带来的结果去理解人类的表型,特别是从正常的发育过程认识疾病的产生,如从生理衰老去认识病理衰老(阿尔茨海默病等)发生的由来。

(李卫东 匡奕方 沈逢焘 陈 蕾 杨翔宇 高 波)

解码生命:从多视角看生命

本文摘编自《解码生命:从多视角看生命》(贺林主编. 2 版. 北京:科学出版社, 2020.12)一书“3 ENCODE 计划的'野心'”,有删减,标题为编者所加。

ISBN 978-7-03-066395-5

责任编辑:王 静 罗 静 刘 晶

本书由“人类基因组计划及后续相关计划”“基因组计划引导生物技术的强劲发展”“当前对人类基因组的认识及其拓展”“基因组学的临床应用”“生命的合成、人工智能及其他”5 篇共50 章组成,涵盖了基因组学及其相关学科发展和应用的方方面面。

本书不仅适用于生命科学领域的研究人员和青年学者用来梳理最前沿的科学问题,了解最新的研究方法和技术进展,也适用于临床医务工作者参考使用,因为书中用较大篇幅介绍了基因组学与疾病的关系就是结合了他们的需求,以期为疾病的预防、诊断和治疗提供新思路。本书同样适用于所有热爱生命、有兴趣了解生命奥秘的社会各界人士,可以使大家对这一研究领域及其在我们日常生活中的应用有更深入的认识与了解。

(本文编辑:刘四旦)

转自:科学出版社

最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情