首页 > 科研教程 > 揭秘!8分+经典高端“基因家族”纯生信套路大放送~
2022
09-06

揭秘!8分+经典高端“基因家族”纯生信套路大放送~

领略高端套路,发表高分文章!

小伙伴们大家好,我是菠小萝。这里是菠小萝的高分生信SCI解读专栏。说到套路,大家都是又爱又恨,简单的套路分数低,分高的套路实验多,难道就没有我们自己也能通过基础的生信和简单的实验发表的高分文章吗?2020年的12月,菠小萝将以“你也能发表的高分生信”为专题,带给大家不一样的生信套路套路~本周我要与大家分享的是一篇2018年发表在《Cell Systems》上的纯生信文章,题目是“ A Pan-Cancer Analysis Reveals High-Frequency Genetic Alterations in Mediators of Signaling by the TGF-β Superfamily”,最新影响因子8.673。 本周的范文是一篇最经典的“基因家族套路”文章哦~套上别的家族就是你的文章!

期刊信息

背景知识积累

我们在本篇范文仍然是基于癌症基因组图谱(TCGA)的泛癌研究,对调节转化生长因子b (TGF-β) SMAD介导的信号传导的基因改变进行了整体分析。TGF-β信号转导通路我们都知道,可促进看似矛盾的细胞过程,包括促进分化和肿瘤生长、抑制细胞增殖、抑制免疫应答和维持干细胞稳态。我们今天研究的主角是就转化生长因子β (TGF-β),其配体超家族能够激活SMAD蛋白,调控转录和细胞增殖分化。TGF-β超家族的改变与转移相关基因的表达和生存降低呈正相关。相关分析显示了突变、扩增、缺失、DNA甲基化和miRNA表达对每种癌症中TGF-β信号的转录活性的影响。

到目前为止,还没有关于多种癌症信号通路的TGF-β超家族的研究。项研究为阐明这个复杂的超家族在9000多名患者的33种不同癌症类型中的作用提供了一个关键起点。并且,为未来TGF-β超家族介导的多种癌症通路的功能和治疗研究提供了更加广泛的分子视角。

数据图表精析

本项研究重点分析了TCGA数据库33种肿瘤类型中的43个TGF-β超家族成员的多类型数据,包括基因组,表观基因组和转录组结构。下面我们仍以“挑圈联靠”的思路解析全文数据。基因家族套路的重点就在于如何确定研究的基因家族成员,也就是“挑”分子!需要注意的是这与其他套路略有不同,比如能够涉及了很多生信研究方向的单基因套路,“挑”分子在于表达差异。我们今天要学习的基因家族套路“挑”分子这一步就很多样化,包含很多技巧。我们今天就以范文为例,看看高端的典型套路是如何确定基因家族成员的。

”——选择与TGF-β超家族相关的43个核心基因

那么,作者是如何筛选的呢?

1

研究通过BIOCARTA、KEGG、BioMar数据库,以“TGF-β”为关键词检索相关基因,并过滤出具有实验证据的181个基因。然后使用以下三个标准将列表筛选到43个基因。根据数据库的注释和现有文献,将基因分为属于信令级联的和编码信令级联的目标两类,并选择保留前一类基因。

2

接下来是再次广泛的文献检索,仅保留了满足以下任何条件的那些基因:已知与癌症相关的(a),或者直接与SMAD功能结合并对其进行调节的(b),或与TGF-β超家族在表型上相关的(c)。

3

最后,与TCGA联盟的主题专家讨论后,获得43个“核心”基因。这其中包括编码适配器蛋白的2个基因(SPTNB1和ZFYVE9),它们在TGF-β信号传导中很重要,并与表型相关。其他41个核心基因编码则参与TGF-β信号通路,或者激活SMAD调节基因表达(Fig. 1A)。并通过在TGF-β信号通路的每个水平的组分排列展示于Fig. 1B。

(Fig. 1)

”——差异功能聚类

高分泛癌生信分析这怎么能少了突变和拷贝数变异呢?在接下来的分析种作者利用了TCGA数据库种多种数据类型, 包括体细胞拷贝数变异(CNV)、点突变、DNA甲基化、mRNA表达(来自mRNA-seq)、miRNA表达(来自miRNA-seq),以及蛋白表达(来自反向蛋白阵列[RPPA])进行相关分析。在分析之前,作者也已对数据进行了批量效应和系统偏差校正。 菠小萝还要在这里提醒大家,作者指的这种改变,包括了突变[截断或误义]和CNVs[深度缺失或扩增]。

1

TGF-β超家族基因的基因组改变及分布

首先,作者对43个基因进行了突变和CNV分析,以确定泛癌队列中的基因组畸变(Fig. 1B)。并根据cBioPortal的定义将基因组改变被分为基因扩增、增益(低水平扩增)、深度缺失(相当于非非整倍体情况下的纯合缺失)、浅缺失(杂合缺失)、截断突变、框内突变或错义。

基因组改变的频率和类型在不同的肿瘤类型中差异很大,在12种肿瘤类型中,超过50%的样本中TGF-β通路基因发生了基因组改变(Fig. 2A)。其中,前列腺腺癌(PRAD)的缺失频率最高,以SMAD9(编码a受体- SMAD [R-SMAD])和ACVR2A(编码a受体)的缺失为标志(Fig. 2B-C)。

接下来作者分析了所有个体癌症类型和泛癌症队列的MutSigCV和GIsticprecomputed结果,以识别显著突变基因(SMGs)和体细胞CNVs靶向的基因(Fig. 2D-F)。分析显示,SMAD4、ACVR2A和tgfbr2是特定疾病类型和泛癌症队列中最常见的SMGs。SMAD4与TGFBR2高度重叠;两者在胃肠道肿瘤PAAD、ESCA和STAD中都是SMGs。

(Fig. 2A-F)

2

TGF-β通路基因组改变的转录标记

为了进一步了解基因改变如何影响通路的转录输出,作者分析了50个SMAD信号下游靶点的mRNA表达。这一部分呢,作者是通过 无监督层次聚类分析确定目标基因表达和每一类基因组改变之间的相关模式(Fig. 2G-I)。其中,点突变与目的基因标记的两种主要模式相关:表达增加或减少(Fig. 2G)。结果发现靶基因改变的方向性对所有突变都是一致的,甚至对抑制剂SMAD6/7的突变也是如此。这可能提示着通路激活因子如TGFB1/2/3和TGFBR1/2/3的突变可能导致这种功能获得,而抑制因子SMAD6和SMAD7的突变可能导致抑制功能的丧失。另一种可能是Fig. 1B中展示的SMAD2通常与SMAD7共同扩增。

于是作者提出假设,这些共扩增的效应可能是通路活性的整体增加。为了验证这一假设,作者在Fig. 2H-I中展示了这些基因对的扩增和缺失谱,结果发现都是相似的,因此SMAD2和SMAD7是共聚的,而SMAD3和SMAD6是聚在一起的。并且,TGF-β通路扩增事件对靶基因mRNA表达的影响与突变类似(Fig. 2H)。这样的结果说明TGF-β通路激活因子的大部分突变是功能获得性的。

(Fig. 2G-I)

3

TGF-β超家族通路相关基因的热点突变

对于泛癌突变数据,作者集中研究了在至少5个样本中发现的热点突变。进一步分析鉴定出了6个热点突变基因,代表了TGF-β通路的各个水平(Fig. 3A-E)。作者考虑到SMAD4是所有SMAD依赖的转录调控的结合因子,因此这些突变可能具有广泛影响。

(Fig. 3)

4

GI癌症富含TGF-β通路热点突变

作者从上面的结果分析中发现,在6个基因的176个热点位点突变中,115个(65%)发生在GI系统的癌症中。并查阅文献发现其他很多研究也支持了TGF-β通路热点突变与GI癌症的联系。于是,为了进一步确定GI癌症是否具有TGF-β通路活性改变的独特特征,作者结合Fig. 3B中50个与热点位点突变相关的下游基因的表达变化结果,发现与BMP5热点相关的表达签名与其他热点相关的表达签名分开聚集。并且与泛癌队列相比,GI亚群显示了热点突变与下游基因表达较少的相关性。这一趋势的主要特征是上调基因(HMGA2、胶原编码基因、FOXP3、MMP9和MYC)的上调减弱,而下调基因(ALDH1A1和CDH2)的下调幅度更大。

(Fig. 3B)

接下来,作者又重点描述了胃癌中TGF-β通路改变的转录特征。在比较GI和其他癌症中的TGF-β通路转录签名后,作者计算了两组中与TGF-β通路突变相关的靶基因表达签名(Fig. 4A-β)。发现TERT和HMGA2的上调在胃肠道癌症中没有在泛癌症队列中那么显著。在进一步比较GI和非GI癌症突变导致的转录输出后,发现在GI癌症中,转录输出的抑制有所转变,其中最显著的转变发生在ACVR2B、INHBA、SMAD3、GDF2的突变中(Fig. 4C)。在GI癌症中,GDF1突变与靶基因转录显著升高相关。并同时展示了每个靶基因的下调情况(Fig. 4D)。与非GI癌症相比,这43个基因中的任何一个突变都与大多数靶基因的mRNA表达降低有关,其中HMGA2和TERT的降低幅度最大。而非GI癌症中由于通路突变导致的相同基因的表达变化则不同。最后,我们研究了所有癌症、GI和非GI亚群的转录输出和TGF-β通路基因改变之间的关系(Fig. 4E)。

(Fig. 4)

5

TGF-β信号通路的活性

前面的分析中提到了各种为了探索泛癌队列中33个癌症的TGF-β信号通路的变化,作者计算了基于43个基因的mRNA表达的“通路活性评分”。通过将pathway评分与50个TGF-β靶基因的中位表达,以及单独与50个随机基因的中位表达相关联,并根据肿瘤类型对活性评分进行分组,结果发现没有一个基因在每种癌症中都具有普遍的抑制作用,其中子宫癌肉瘤(UCS)的中位通路活性得分最高(Fig. 5A)。43个基因的监督聚类显示INHBC和INHBE在LIHC中高表达,而BMP3和BMP5在肺腺癌(LUAD)中高表达(Fig. 5B)。

随后,作者,分析了泛癌队列中TGF-β超家族通路评分与细胞周期通路和凋亡通路活性评分的相关性,结果发现呈负相关,并以聚类热图展示(Fig. 6B)。相反,EMT途径、乳腺反应途径、RAS/ MAPK和RTK途径呈正相关。以上结果表明TGF-β通路活性与其他肿瘤相关通路活性相关。

(Fig. 6B)

”——下游靶基因的生存分析

最后,落脚于生存意义。作者比较了具有3种不同癌症特征的患者的生存率:

① HMGA2高表达和43种TGF-β通路基因中任何一种发生改变的患者;

②43个基因HMGA2高表达且无任何改变的患者;

③ HMGA2低表达而未考虑TGF-β通路基因的改变的患者。

其中HMGA2低表达的患者效果最好,其次是HMGA2高表达且43个基因无突变的患者(Fig. 6C)。并且特异性靶向基因的表达概况和TGF-β超家族基因的改变共同提高了肿瘤的侵袭性。胶原编码基因HMGA2和mmp9的过表达对存活率的影响最为显著(Fig.6C-E)。由于胶原蛋白过表达和TGF-β通路基因的改变与较差的生存率相关,作者推测通过TGF-β超家族通路的信号改变可以重塑细胞外基质,从而在多种癌症背景下驱动转移。并分析了GI和非GI癌症的生存期。发现在GI队列中,只有ZEB2联合TGF-β通路基因改变产生显著差异,低ZEB2表达对应生存获益。在非GI患者中,TGF-β通路靶基因IL6、HMGA2、ZEB2和FOS的高表达与生存率降低有关,尤其是在与TGF-β通路突变相结合的情况下。因此,尽管TGF-β途径突变在非GI癌症中可能不常见,但它们可能是导致死亡的重要因素。

(Fig. 6C-E)

以上分析都是基于mRNA表达谱的,高分生新文章的另一大特点是多数据类型。为了探究TGF-β通路活性的调控,作者评估了DNA甲基化和miRNA表达与癌症的相关性。根据肿瘤类型分组的每个样本的41个基因的甲基化水平显示了高变异性。发现TGF-β途径活性评分最低的DLBCs的DNA甲基化评分中值和范围最高,而途径活性较低的LAML的DNA甲基化评分中值较低(Fig. 7A)。根据DNA甲基化水平聚类分析,表观遗传聚类分析将基因分为两大类:在任何癌症中几乎或没有发生DNA甲基化的基因,以及在部分或全部癌症中发生DNA甲基化的基因(Fig. 7B)。并选择了与转录丰度相关的前32个miRNA,在32种肿瘤类型中表现出可变表达(Fig. 7C);预测43个基因中有15个是至少1个miRNA的靶标;BMPR2、TGFBR2和SMAD4均被5个或更多的miRNA靶向(Fig. 7D)。

(Fig. 7A-D)

思路总结

本篇范文内容很多,但解构清晰。总的来说,本项研究重点分析了TCGA数据库33种肿瘤类型中的43个TGF-β超家族成员的基因组,表观基因组和转录组结构,这些基因编码介导或调节TGF-β超家族介导的信号或SMAD依赖性信号传导的50个下游靶基因。

本篇文章其实归根结底就是“横纵六宫格

横向即生信文章套路三大部分:

”(基因家族成员)

”(功能聚类的差异比较)

”(生存分析)

纵向呢就是各种不同的数据类型:

不同的表达矩阵:mRNA、miRNA、DNA甲基化、蛋白表达数据;

不同的分析角度:体细胞拷贝数变异(CNV)和点突变。用于了解TGF-β家族在不同环境下的功能,这对于设计针对具有异常TGF-β信号的肿瘤的治疗是必要的。

最后,这项研究的关键发现包括以下几点:

关键发现

(1)39%的癌症携带TGF-β途径基因改变;

(2)基因组的改变似乎影响了转移和EMT基因的表达;

(3)在6个基因中鉴定出6个热点突变;

(4)该通路在GI癌症中异常最为常见,发现的176个热点突变中有115个出现;

(5)下游靶基因的高表达加上TGF-β通路基因的突变与不良预后相关,提示超家族在整个泛癌队列中具有净肿瘤促进作用;

(6) DNA甲基化和TGF-β通路基因缺失导致的明显基因沉默在DLBC中最常见,而miRNA沉默在LAML中最常见。

DLBC和LAML的TGF-β通路活性评分也最低,这表明TGF-β超家族可能在血液癌中发挥肿瘤抑制作用。

欢迎大家关注解螺旋生信频道-挑圈联靠公号~


转自:解螺旋  


最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情