首页 > 网络资讯 > GPB | PIGOME:猪功能基因组多组学数据库
2025
10-09

GPB | PIGOME:猪功能基因组多组学数据库



Genomics, Proteomics & Bioinformatics (GPB)在线发表了中国农业科学院农业基因组研究所唐中林教授课题组完成的题为“PIGOME: An Integrated and Comprehensive Multi-omics Database for Pig Functional Genomics Studies”的数据库文章。“要文译荐”栏目很高兴邀请到作者团队为大家介绍PIGOME数据库。




要点介绍



研究问题:

养猪业是全球畜牧业经济中重要的支柱产业之一,同时猪也是探究人类发育与疾病的重要生物医学模型。随着高通量测序技术的快速发展,猪的多组学数据(如基因组、转录组、表观组等)呈爆发式增长,这些数据涉及不同组织、品系和发育阶段。然而,这些高通量数据往往散落在不同实验室与平台,缺乏统一的质量控制、标准化处理和整合分析框架,使得跨组学比较和功能挖掘变得困难重重。因此,亟待建立一个全面整合、多维可视、元数据清晰且支持多种在线分析工具的猪多组学功能基因组数据库,以满足当前和未来育种改良、性状解析以及猪作为人类疾病模型研究的需求。


主要结果:

1. 构建了全面的猪多组学数据库 PIGOME:集成了7种组学类型的猪多组学资源,包含全基因重测序(WGS)、RNA-seq、miRNA-seq、ChIP-seq、ATAC-seq、BS-seq(WGBS/RRBS)和MeRIP-seq,为猪的功能基因组研究提供了重要参考信息和数据资源。

2. 收录来自于392个项目的6901个测序样本,覆盖113个中外猪品种、71种组织器官与29个统一归类的发育阶段,数据规模与覆盖面大。

3.包含31908个基因注释、29687个QTL信息,整合GO、KEGG、eggNOG、miRBase等功能与注释信息,支持基因信息深度挖掘。

4. 拥有强大的在线功能与工具,提供基因表达可视化、SNP/InDel 变异分布图、组织特异基因挖掘(Find Tissue-specific Genes)、基因调控网络(Gene Network)、序列比对(BLAST)、序列获取(Get Sequence)、在线基因组浏览器(JBrowse2、IGV)、引物设计(Primer Design)、miRNA 靶基因预测(Target Prediction )等实用工具。

5. 支持图表、表格下载以及API调用,便于批量获取数据与二次分析。


本文处理编委:

西北农林科技大学姜雨教授


数据库链接:

https://pigome.com

长按识别二维码访问数据库




背景介绍



养猪业在畜牧业经济中占比极高,是全球农业经济的支柱产业之一。同时,猪是探究人类发育与疾病的重要生物医学模型。过去二十年间,随着先进测序技术的发展,在多组学水平上已产生海量高通量测序数据。这些庞大的数据集为解析猪的进化、选择、性状形成、发育及疾病背后的遗传机制提供了宝贵资源,同时也揭示了调控各类生物学过程且与经济性状相关的关键变异、基因及调控元件。因此,整合多组学数据对于猪遗传学与育种领域的科学发现具有重要意义。

值得注意的是,针对不同品种、不同发育阶段猪的多种组织,相关高通量测序研究逐渐增多。然而,这些数据集来自不同实验室和测序平台,导致其检索、管理、标准化处理及可视化工作既耗时又困难。此外,通过挖掘和整合分析这些数据集来探究生物学功能与调控机制,仍是当前面临的一大挑战,目前缺乏专门用于猪功能基因组学研究的综合性多组学数据库。

为解决上述问题,我们开发了猪多组学数据库(PIGOME)。这是一个整合的综合多组学数据库,包含来自6901个数据集的7种高通量测序数据,是目前涵盖数据类型最广的猪多组学数据库。研究人员可通过 PIGOME 便捷、高效地探索和利用猪多组学数据。




数据库介绍



PIGOME数据概述

目前,猪多组学数据库PIGOME收录了猪的7类高通量组学数据集,包括全基因组测序(WGS)、转录组测序(RNA-seq)、microRNA测序(miRNA-seq)、染色质免疫共沉淀测序(ChIP-seq)、染色质可及性测序(ATAC-seq)、亚硫酸氢盐测序(BS-seq,含全基因组亚硫酸氢盐测序 WGBS 和简化代表性亚硫酸氢盐测序 RRBS)以及RNA 甲基化测序(MeRIP-seq)数据。

数据库包含来自392个项目的6901个样本,覆盖113个品种、71 种组织和 29 个发育阶段,Clean data总量达49.21Tb。其中,RNA-seq数据集最为丰富,涵盖 4217个样本、74 个品种、50种组织和29个发育阶段。

为更好地解读组学数据,我们整合了 32452 条基因注释、16932 个外显子跳跃事件(SE events)和 29687 个数量性状位点(QTLs)。基因注释包含 22 项属性,具体包括基因名、基因类型、基因描述、基因本体(GO)、京都基因与基因组百科全书(KEGG)、碳水化合物活性酶数据库(CAZy)及蛋白质家族数据库(Pfam)等信息。可变剪接(AS)数据涵盖多个组织及骨骼肌发育阶段的外显子跳跃事件,为研究组织特异性可变剪接及时间调控型可变剪接提供了宝贵依据。此外,数量性状位点(QTL)信息包含11项属性,主要包括染色体位置、QTL 编号、名称、类型、相关性状等(图1)。

图1  PIGOME的数据库内容




数据库介绍



PIGOME 的功能

Browse浏览功能

用户可通过工具栏中的 “Browse” 标签便捷查看各类组学数据。点击组学数据类型后,系统会显示该数据的相关汇总信息。在各级组学数据的汇总页面,用户可获取样本、基因等相关的具体统计数据,并能自由下载这些表格与图表。

若需查看更多细节,用户可点击页面上基因或样本信息表 “Details” 列中的图标,该图标会链接至基因表达页面。基因表达页面顶部会显示基因或样本的基础信息,同时提供外部数据库的链接。

不同类型的基因表达页面包含不同板块:转录组测序(RNA-seq)、微小 RNA测序(miRNA-seq)和环状 RNA(circRNA)数据的基因表达页面,可展示特定组织中不同品种或发育阶段的转录本每百万片段映射数(TPM 值),也能显示用户自由选择的样本亚组的 TPM 值。为助力理解基因功能,PIGOME 整合了多种基因注释;为挖掘基因间的共调控关系,页面会展示查询基因的基因网络。用户查询的特定基因的表达模式,可通过箱线图、柱状图和折线图进行可视化呈现,数据会以表格形式便捷地展示在图表下方。

可变剪接(AS)页面支持用户探究陆川猪和杜洛克猪不同组织中,以及通城猪骨骼肌 27 个发育阶段中外显子跳跃事件(SEs)的动态变化。此外,转座酶可及性染色质测序(ATAC-seq)、亚硫酸氢盐测序(BS-seq)、染色质免疫共沉淀测序(ChIP-seq)和甲基化 RNA 免疫共沉淀测序(MeRIP-seq)数据的详情页面,均配备整合基因组浏览器(IGV)和信息展示表格,用户可自由查看每个样本的任意基因组区间。

单核苷酸多态性(SNPs)和插入缺失变异(InDels)的详情页面中,用户可通过柱状图和表格查看特定位点在不同品种中的等位基因频率,该页面还会提供与该区域相关的数量性状位点(QTL)信息。综上,PIGOME 具备丰富的浏览功能,为猪不同组学数据的整合与研究奠定了基础。


Explore检索功能

为方便使用,PIGOME 提供三种检索引擎供用户查询整个数据库,分别是 “按基因 ID 或基因名(by gene ID or symbol)”、“按位置(by position)” 和 “按样本(by sample)”。

“by gene ID or symbol” 检索:用户可通过输入 Ensembl 基因 ID 或基因名称进行查询。结果页面会整合并展示与目标基因或基因组区域相关的所有组学数据集。

“by position” 检索:用户需选择染色体,并输入起始和终止位置完成指定基因组位置查询。结果页面会整合并展示与目标基因或基因组区域相关的所有组学数据集。

“by sample” 检索:用户可选择数据集,并输入序列读取档案运行编号(SRR ID)、样本 ID 或项目 ID 进行模糊检索,结果页面会显示相关样本信息及关联链接。


基因组浏览器

PIGOME 整合了基于 JBrowse2 开发的定制化基因组浏览器,助力用户比较和分析组学数据集。该浏览器包含来自 Ensembl 数据库的基因注释信息,用户通过输入基因组范围、基因 ID 或基因符号,即可查看与目标基因相关的组学数据。所有数据轨道均会根据组学数据类型、组织、品种和发育阶段进行标注。在轨道组中,用户可通过勾选复选框来显示目标数据。


工具模块

我们共整合了 9 个实用工具,包括整合基因组浏览器(IGV)、JBrowse 浏览器、获取序列(Get Sequence)、引物设计(Primer Design)、比对工具(BLAST)、基因网络(Gene Network)、靶标预测(Target [rediction)、查找组织特异性基因(Find Tissue-specific Genes)和API接口。这些工具将帮助用户更深入地探究猪各类生物学过程及重要经济性状的生物学机制。

此外,用户可通过工具栏中的 “帮助(Help)” 标签,轻松获取数据库的更多使用帮助。




数据库应用实例



在此,我们通过一个使用案例验证了 PIGOME 中 “查找组织特异性基因(Find tissue-specific genes)” 工具的实用性,并说明如何利用 PIGOME 挖掘目标基因的多组学信息。

首先,用户可在该工具的 “查找组织特异性表达基因(Find tissue-specifically expressed genes)” 板块中选择 “骨骼肌(skeletal muscle)” 选项,然后点击 “探索(Explore)” 按钮。在结果页面,基于大量表达数据,用户可找到 186 个在骨骼肌中特异性表达的高可信度基因,随后可点击 “ENSSSCG00000026533” 的查看图标,以获取更详细的表达信息(图2A)。在表达页面,用户可得知该基因对应的基因符号为肌生成因子 6(MYF6,又称 MRF4),其编码的肌发生调节因子参与肌发生过程。此外,用户可先查看相关基因注释,并通过柱状图、折线图或箱线图可视化该基因在不同组织中的表达情况(图2B和C)。重要的是,用户还能探究该基因在不同品种、不同发育阶段骨骼肌中的表达趋势(图2D),这体现了PIGOME挖掘潜在组织特异性基因的能力。

图2  PIGOME 中查找组织特异性基因模块的使用


最后,用户可通过检索功能获取与目标基因相关的所有组学信息。在 “按基因 ID 或基因名称检索(Explore by gene ID or symbol)” 板块中,输入 “ENSSSCG00000026533” 或 “MYF6” 。结果页面会提供多种信息,包括 MYF6 的各组织基因表达丰度、可变剪接、基因注释信息、表观遗传修饰、SNP、InDel、QTL等。更重要的是,通过PIGOME还鉴定出一个源自 MYF6 基因座的环状 RNA(circRNA)图 3A)。有趣的是,点击查看图标后(图 3B),数据显示该环状 RNA(circ-MYF6)在骨骼肌中特异性表达,可能是影响骨骼肌发育与生长的候选环状 RNA。从染色质免疫共沉淀测序(ChIP-seq)数据中共鉴定出140个峰,同时还检测到MYF6基因中经转座酶可及性染色质测序(ATAC-seq)确定的开放染色质区域(图3C和D)。此外,结果显示MYF6基因的外显子、内含子及上游区域共分布有3970个CpG 甲基化位点(图 3E),以及24个SNP与InDel 变异(图3F)。这些结果表明,PIGOME 可用于探究基因的潜在调控机制。

图3  使用PIGOME对MYF6基因功能及调控的探索




总结



PIGOME作为目前覆盖组学类型最多的猪多组学功能基因组数据库,成功整合了基因组、转录组和表观组等多维数据,为研究者提供了从目标基因到调控机制和性状关联的一站式分析平台。PIGOME 极大降低了数据获取与分析门槛,为猪的分子育种、经济性状挖掘以及人类疾病研究提供了坚实基础。未来,PIGOME 将持续扩展新组学数据类型,特别是单细胞测序、空间转录组和三维基因组等前沿技术产生的组学数据。同时,我们将补充更多结构变异(SV)、拷贝数变异(CNV)、存在/缺失变异(PAV)等全基因组变异信息,并整合 GWAS、EWAS、TWAS、eQTL / sQTL 等关联分析结果,帮助用户从更多维度理解基因功能和调控网络。我们也将持续优化数据库交互体验,加强跨组学数据的联动展示,开发更多在线分析工具,让 PIGOME 不仅是数据仓库,更是分析平台。

审校人:

GPB青年编委陈依东


文章编译来源:

Han G, Yang P, Zhang Y, Li Q, Fan X, Chen R, et al. PIGOME: An Integrated and Comprehensive Multi-omics Database for Pig Functional Genomics Studies, Genomics, Proteomics & Bioinformatics 2025;23:qzaf016.


英文全文详见:

https://academic.oup.com/gpb/article/23/1/qzaf016/8046016


作者及资助信息:

中国农科院基因组所唐中林研究员杨亚岚副研究员为论文的共同通讯作者。前科研助理韩郭皓(西北农林科技大学博士在读)和已毕业硕士生杨朋为论文共同第一作者。该研究得到了国家重点研发计划、国家自然科学基金、深圳市创新创业计划—科技重大专项、中国农业科学院创新工程等资助。


最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情