首页 > 网络资讯 > 基于文本挖掘和生物医学数据库的新型冠状病毒肺炎药物发现
2023
02-28

基于文本挖掘和生物医学数据库的新型冠状病毒肺炎药物发现

摘要目的基于文本挖掘技术和生物医学数据库对新型冠状病毒肺炎(COVID-19 )相关文献进行数据挖掘分析,探究COVID-19 及其主要症状发热、咳嗽、呼吸障碍相关基因靶点,筛选潜在有效的化学药和中药。方法使用GenCLiP 3 网站获取COVID-19 和其主要症状咳嗽、发热、呼吸障碍共4 个关键词的共有靶点,在METASCAPE 数据库中对其进行基因本体(GO )和通路富集分析,再利用String 数据库和Cytoscape 软件构建共有靶点的蛋白质相互作用网络,筛选获得核心基因,运用DGIdb 数据库、SymMap 数据库针对核心基因进行中西医治疗药物预测。结果获得COVID-19 及其主要症状共有基因靶点28 个,其中有IL2 IL1B CCL2 等核心基因16 个,使用DGIdb 数据库筛选获得与16 个关键靶点相互作用的化学药包括沙利度胺、来氟米特、环孢素等28 种,中药包括虎杖、黄芪、芦荟等70 味。结论COVID-19 及其主要症状的病理机制可能和CD4 KNG1 VEGFA 28 个共有基因相关,可能通过介导TNF IL-17 等信号通路参与COVID-19 病理过程。潜在有效药物可能通过作用相关靶点通路起到治疗COVID-19 的作用。

新型冠状病毒肺炎(COVID-19 )是一类感染新型冠状病毒(SARS-CoV-2 )引发的急性全球流行性传染病。少部分COVID-19 患者无症状,大部分轻、中度患者临床表现多样,但发热、咳嗽、呼吸困难是最常见的症状,也是主要的症状诊断标准 [ 1-3 。重症患者可能并发严重的急性呼吸窘迫综合征、感染性休克和多器官衰竭,甚至导致死亡。COVID-19 的治疗尚无特效药物,主要集中在对症治疗和呼吸支持方面 [ 4 。然而临床常用的抗病毒药物及激素治疗多缺乏循证依据,且常伴随腹泻、恶心、呕吐、肝功能损害等不良反应 [ 5 。探究COVID-19 及其主要症状产生的病理机制,寻找有效的治疗药物迫在眉睫。

自疫情暴发以来,COVID-19 相关的基础和临床研究迅速增加,在PubMed 数据库中,2019 12 月与COVID-19 相关的检索结果仅有17 个,而2021 7 月检索到与COVID-19 相关的已有16 万多条相关结果,大量的文献资源为文本挖掘技术(text mining TM )的实施提供了数据基础。文本挖掘技术是指利用自然语言处理、人工智能、信息检索和数据挖掘方法来发现、检索和提取一个文本语料库中的信息,是大数据时代综合分析和解释文献及高通量数据的一个有效工具。不断成熟并被逐步推广的文本挖掘技术使从大量COVID-19 相关文献中自动收集疾病关键词- 基因关联成为可能,有助于探索COVID-19 的发病机制、治疗用药等。本研究基于文本挖掘技术和生物信息学方法探究COVID-19 主要症状的发生机制,并据此筛选治疗COVID-19 的药物,为COVID-19 的治疗及新药开发提供思路和参考。

1方法

1.1获取COVID-19及其主要症状相关靶点

通过GenCLiP 3 网站(http //ci.smu.edu.cn/genclip3/analysis.php )获得COVID-19 及主要症状相关的基因靶点。在GenCLiP 3 数据库中,以所有人类基因作为基因数据集,选择MEDLINE 中搜索,并在期刊过滤器中使用默认值,分别搜索关键词发热”“ 咳嗽”“ 呼吸障碍“COVID-19” 。得到关联基因列表后,对4 组关联基因集取交集作为COVID-19 及其主要症状相关靶点基因集,并进行进一步的处理。

1.2基因本体和通路富集分析

基因本体分析(gene ontology GO )是注释基因产物及其功能特征的通用且有效的方法,其中GO 分析依据功能的不同可区分为生物过程(biological process BP )、细胞成分(cellularcomponent CC )、分子功能(molecular function MF )。将交集靶点导入METASCAPE https //metascape.org ),物种类型选择为“Homo sapiens” ,再选择“Custom Analysis” ,使用默认设定值作为筛选条件,进行GO 和京都基因组百科全书(Kyoto encyclopedia ofgenes and genomes KEGG )通路注释及富集分析,并用于基因注解可视化。

1.3构建蛋白质相互作用网络和聚类功能模块

将关键靶点输入到STRING 数据库,设定物种为“Homosapiens” ,置信度设置为0.4 进行筛选,获取目标基因的蛋白质相互作用(PPI )信息的TSV 格式文件。并将该文件导入Cytoscape 软件,运用Cytoscape 软件的分子复合物检测(MCODE )和STRING 应用程序(APP )对重要的基因模块进行聚类分析,执行MCODE STRING APP 中的默认参数,得到在PPI 网络中密集连接的网络模块即为COVID-19 主要症状相关核心基因。

1.4药物基因相互作用

将筛选出的核心靶点输入药物基因相互作用数据库(DGIdb https //www.dgidb.org )及SymMap 数据库(http //www.symmap.org )中,筛选可能具有COVID-19 治疗作用的药物。

1.4.1潜在化学药筛选使用DGIdb 数据库检索“1.3” 项得到的核心基因,勾选“FDAApproved”“Immunotherapies”2 个筛选值,获得靶向COVID-19 主要症状相关基因的候选药物,这些药物可能代表了潜在的症状治疗手段。

1.4.2潜在中药筛选SymMap 数据库是中国传统医学与现代医学的集成数据库。该数据库提供大量有关中药、中国传统医学症状、现代医学症状、化学成分、靶点和疾病的描述性信息,并且通过直接关联或间接相互作用计算推断这6 种类型的条目之间的对应关系,并以网络的形式展现。将“1.3” 项得到的核心基因依次输入SymMap 数据库,在Target 选项下进行搜索,查找每个靶点基因所对应的具有统计意义(P 0.05 )的中药和功效,导出每次的结果,最后对中药名称及中药功效进行统计,得到出现频次较高(频率11 次)的中药及中药功效,这些中药可能对COVID-19 症状起到治疗作用。研究数据分析及其流程框架见图1

2结果

2.1COVID-19及其主要症状相关靶点和GOKEGG分析

在探索COVID-19 的潜在药物的过程中,通过文本挖掘工具搜索分别发现了1 262 302 83 370 个与发烧、咳嗽、呼吸障碍和COVID-19 作为主题词相关的基因。对4 组基因取交集,得到28 4 组共有基因。共有基因的生物过程注释可能揭示了COVID-19 肺炎的病理过程,使用Metascape 网站分别对交集基因进行蛋白功能分析,结果见表1

28个基因进行GO注释和KEGG通路富集分析,并将注释结果可视化,收集P0.01,最小计数为3且富集因子(富集因子是观察到的计数与偶然预期的计数之间的比率)>1.5的术语,并根据其成员相似性将其分组。GO注释(图2)包含了探究基因组的BPCCMF重要富集项。在BP注释中,主要参与细胞因子介导的信号通路、白细胞分化、造血调节、细胞黏附调节、基于免疫受体体细胞重组的适应性免疫调节和细胞黏附调节。在CC注释中,显著富集在血小板α颗粒管腔、血小板α颗粒、分泌颗粒腔、胞质小泡腔、囊腔和细胞外基质。在MF中与细胞因子活性、受体配体活性、细胞因子受体结合、受体调节活性、生长因子受体结合和G蛋白偶联受体结合显著相关。

KEGG 通路分析结果(图3 )中,排名前15 位的通路分别是细胞因子与细胞因子受体的相互作用、类风湿关节炎、IL-17 信号通路、恰加斯病(美国锥虫病)、疟疾、NOD 样受体信号通路、造血细胞谱系、糖尿病并发症中的AGE-RAGE 信号通路、TNF 信号通路、流体剪切应力与动脉粥样硬化、乙型病毒性肝炎肝、甲型流行性感冒、阿米巴病、T 细胞受体信号通路和Toll 样受体信号通路。

2.2PPI网络分析

COVID-19 及症状共有基因输入STRING 数据库中,然后从STRINGEXPORT 通道以“tsv” 格式将数据导出,使用Cytoscape 构建网络,得到了具有26 个节点,166 个边缘的PPI 网络,见图4-A 。并使用mcode app 筛选出16 个核心基因,见图4-B 。核心基因有趋化因子(C-C 基元)配体2 CCL2 )、血管紧张素转化酶(ACE )、基质金属肽酶9 MMP9 )、白细胞介素-2 IL2 )、血管内皮生长因子A VEGFA )、白细胞介素-1 IL1B )、白蛋白(ALB )、C 反应性蛋白(CRP )、集落刺激因子2 CSF2 )、集落刺激因子3 (粒细胞)(CSF3 )、重组人白介素-8 CXCL8 )、α1- 抗胰蛋白酶(SERPINA1 )、谷氨丙酮酸转氨酶(GPT )、肿瘤坏死因子(TNF )、髓过氧化物酶(MPO )、激肽原1 KNG1 )。这些靶点基因在网络中具有重要地位,说明其在COVID-19 的发病机制中也具有重要意义。

2.3药物基因相互作用

2.3.1化学药筛选将筛选所得到的16 个核心基因导入DGIdb 数据库中,使用预设过滤器默认值,勾选FDA 批准、免疫疗法2 个筛选项,导出结果中交互评分提示基因与药物交互作用关系证据的可靠程度,筛选出评分0.1 28 种药物(表2 ),其中大多数药物靶向CSF2 CXCL8 IL1B VEGFA TNF ,这提示它们能够与这些基因发生相互作用。使用临床试验数据库(ClinicalTrials.gov )检索该药物是否有与COVID-19 相关的临床试验并获得临床试验注册号。

2.3.2中药筛选16 个核心基因分别输入SymMap 数据库,导出靶点相关中药及功效,并进行统计。共发现具有统计意义的中药556 味,功效包括清热解毒、活血祛瘀、化痰和利水渗湿等,统计出排名前10 的功效及其频次,结果见表3 。并按照中药出现频次进行排序,统计出频次11 的中药共有70 味,见表4

3讨论

3.1COVID-19及其主要症状的相关靶点和发生机制

COVID-19 作为尚未得到有效控制的一种全球性流行病已经造成了难以计算的经济和生命财产损失。绝大多数轻症患者预后良好,而重症患者则病情进展迅速且具有较高的死亡率。虽然目前针对COVID-19 炎症反应具体的发生发展机制仍有待进一步研究,但多项临床研究已证实细胞因子风暴在COVID-19 病情的恶化中起到了非常重要的作用。高细胞因子血症导致炎性物质的大量聚集和渗出,破坏组织器官,引发多器官衰竭和急性呼吸窘迫可能是导致COVID-19 重型、危重型患者死亡的重要原因 [ 6 。本研究发现的28 个与COVID-19 及其主要症状相关的靶点中与细胞因子相关的有11个基因(IFNA2 IL1B IL2 CXCL8 CCL2 TNFSF13 TNF MPO CSF2 CSF3 VEGFA ),占总基因数的39.3% ,且GO 注释结果多与细胞因子、免疫功能相关,KEGG 分析结果也多涉及细胞因子、炎症的调控领域。

3.2COVID-19及其主要症状涉及的关键靶点

通过PPI 网络分析,从28 个相关靶点中筛选出16 个核心基因,包括GPT CRP IL1B ACE MPO KNG1 ALB CXCL8 CCL2 TNF IL2 CSF2 KNG1 等。上述基因大多已被证实是COVID-19 患者的差异表达基因,参与COVID-19 的发病过程,且与重症死亡相关。研究表明,与轻症患者相比,重症COVID-19 患者外周血中IL-2 7 TNF-α 8 CRP 9 水平显著升高。巨噬细胞中的CCL2 活化也参与COVID-19 的发病 [ 10-11 Shao 等 [ 12 发现血清ALB 上升是重症COVID-19 的独立危险因素,应密切监测。研究表明在疾病早期调控趋化因子CXCL8 的表达有助于抑制病毒感染诱发的炎症反应,增强机体免疫力,降低炎症因子风暴发生率 [ 13 。调节上述核心基因的表达水平可能在疾病早期起到抑制细胞因子活化、干预疾病进程的作用。

上述核心基因还能通过影响细胞因子的释放、血管通透性、氧化应激反应等多靶点、多途径加重肺泡组织损伤。研究发现COVID-19 患者中的外周血清中VEGFA 及其内源性抑制剂sFlt-1 VEGF-A 受体Flt-1 的截短循环形式)显著增加 [ 14 ,而VEGFA 表达的上调能够提高微小血管的渗透性,破坏肺泡- 毛血管膜,最终引起肺水肿 [ 15 ,与COVID-19 严重程度相关。另外,COVID-19 患者体内ACE2 会因SARS-CoV-2 感染而消耗,导致des-Arg 9 - 缓激肽的水平上调,从而加重肺损伤和炎症。Zuo 等 [ 16 发现COVID-19 患者MPO 水平升高,Ueland 等 [ 17 推测COVID-19 患者的ICU 重症死亡率与血浆MPO 水平相关,且MPO 可以通过多途径激活细胞因子并加重组织氧化损伤。

3.3COVID-19及其主要症状涉及的通路

针对COVID-19 及其主要症状的关键基因进行KEGG 信号通路富集分析发现,通路主要与氧化应激、免疫调节、肿瘤和炎症反应等相关。其中有7 个核心基因参与的典型代表IL-17 信号通路,参与了中性粒细胞的浸润及肺部炎症反应,且与SARS-CoV-2 病毒进入人体细胞的机制相关,且通过干预IL-17A 通路能缓解炎症反应从而保护肺泡细胞。ACE2 能够通过下调STAT3 通路限制IL-17 信号通路的传导,从而缓解中性粒细胞浸润和肺部炎症 [ 18 TNF 是炎症反应的关键调节因子,其受体TNFR1 TNFR2 能激活复杂的信号通路致使血管内皮细胞产生一系列的炎症反应,包括白细胞的黏附、血管的渗漏、血栓形成等 [ 19 TNF 信号通路中的一些促炎因子已被证实参与COVID-19 患者的免疫反应过程 [ 20 Toll 信号通路参与人体的免疫调节,可通过信号转导通路诱导许多反应快速的信号通路,通过产生共刺激分子、趋化因子等参与机体防御反应 [ 21 。另外,AGE-RAGE 信号通路同样属于与靶点相关性较高的15 条通路之一,AGE-RAGE 信号传导途径与炎症密切相关,该通路可激活MAPK NF-κB 途径,干预免疫和氧化应激反应 [ 22 。进一步表明COVID-19 的病理机制与炎症反应、免疫调节、氧化应激等关系密切,以上信号通路以及相关的其他靶点可能做为缓解细胞因子风暴、减轻肺泡组织炎症以及抗病毒治疗的潜在治疗靶点,值得进一步研究。

3.4潜在药物筛选

3.4.1化学药筛选本研究针对COVID-19 相关靶点基因进行潜在中西医药物筛选,并统计出交互评分排名靠前的化学药物28 种,包括抗肿瘤药物(15 种)、免疫调节剂(9 种)、抗甲状腺药物(2 种)、抗生素(1 种)、抗疟药(1 种)。其中羟氯喹是一种具有抗炎特性的抗疟药物,具有广谱的抗病毒活性,因其对SARS-CoV-2 表现出较强的体外抗病毒作用而成为首批进入临床研究的药物之一 [ 23 。羟氯喹可抑制巨噬细胞系中TNF 的产生,进而影响IL-1β 水平起到减少免疫因子的释放的作用,还可通过抗炎、抑制自噬缓解急性肺损伤 [ 24 。多项临床研究已证实了羟氯喹对于COVID-19 的疗效,包括缓解临床症状、提高病毒清除率以及减少重症率 [ 25 等。但其有效性与安全性仍存在一定争议,1 项纳入8 721 例受试者的Meta 分析结果表明羟氯喹对于COVID-19 患者死亡率并无影响 [ 26

本研究结果中共有15 种化学药物有已注册的完结或者正在进行的COVID-19 相关研究,可能通过影响细胞因子的产生、活化,调节免疫功能以及抑制病毒复制等途径影响COVID-19 的病理过程。例如沙利度胺能通过下调NF-κB 的活性而抑制炎症细胞释放的细胞因子和趋化因子,达到强效的抗炎、免疫调节作用 [ 27-28 。有临床案例报道,沙利度胺联合低剂量糖皮质激素和抗病毒治疗能有效改善COVID-19 患者的缺氧状态 [ 29 。来氟米特的主要活性成分特立氟胺与nCoV-RdRp 酶在分子对接结果中表现出强抑制性亲和力 [ 30 ,而RdRp 酶在冠状病毒基因组复制和转录中起关键作用 [ 31 nCoV-RdRp 酶的性能和活性的有效抑制将显著阻碍SARS-CoV-2 的复制,且有小样本临床试验结果表明来氟米特可能会提高难治性COVID-19 患者的病毒清除率 [ 32 ,提示来氟米特是一种潜在的抗COVID-19 药物。

3.4.2潜在中药功效及药物筛选分析现有的COVID-19 中医诊疗方案发现,各地区的COVID-19 中医诊疗方案主要围绕COVID-19 “ 寒湿疫毒的病邪特点,遵循由表入里、由浅入深的发病过程进行辨治 [ 33 COVID-19 临床观察期多为表证,当以解表为先;临床治疗期初期以湿邪郁肺为主,枢机不利,治以化湿解毒、宣肺透邪之法。中期多为湿热壅肺,治以宣肺通腑、清热解毒;在恢复期主要为气阴两伤,以补气养阴为主。本研究利用核心基因筛选所得排名前10 的中药功效为清热解毒(14.38% )、活血祛瘀(6.95% )、化痰(6.05% )、利水渗湿(6.05% )、理气药(5.93% )、祛风湿散寒药(4.44% )、辛温解表药(4.22% )、止咳平喘(4.11% )、补气药(3.73% )和辛凉解表(3.65% ),治疗方向切合COVID-19 临床观察期、治疗初期、中期的病机特点。

筛选所得高频中药中,解表类代表药麻黄在中药治疗中COVID-19 已得到广泛应用,使用频次高 [ 34 ,其作为君药的麻黄类方如麻黄汤、麻黄加术汤、麻杏石甘汤、小青龙汤等具有宣肺透邪、散寒除湿之功,直击COVID-19 寒湿核心病机;祛湿类代表药物半夏、藿香、虎杖、玉米须等也在被临床应用证实疗效可靠 [ 35-37 ,藿香与半夏配伍既可行气燥湿又能理肺醒脾,是COVID-19 诊疗方案中常见的核心药对 [ 35 ;补气类代表药物黄芪归脾、肺经,为补气要药,普遍应用于COVID-19 的中医药预防方案中 [ 38 ,可通过扶助正气起到未病先防、既病防变的作用。另有乌梅 [ 39 、砂仁 [ 40 、栀子 [ 41 等也已被应用于COVID-19 临床防治中,而马齿苋、土茯苓、金荞麦等具有清热解毒作用的中药虽尚未有COVID-19 相关的临床报道,但既往研究发现清热解毒类中药在抗病毒、抗炎、调节机体免疫方面具有优势,已被列为中医药治疗COVID-19 的潜在药物 [ 42 。本研究筛选所得其他尚未有COVID-19 相关临床报道的潜在中药也可能通过作用相关靶点及通路影响炎症反应、免疫调节以及氧化应激反应等延缓疾病进程,并缓解相关症状,可能成为治疗COVID-19 的有效药物。

本研究利用文本挖掘技术和生物医学数据库对COVID-19 主要症状相关的分子靶点和病理机制进行了探究,并筛选了多种潜在中西医治疗药物。研究发现IL2 IL1B CCL2 CXCL8 TNF-α VEGFA 等核心基因可能通过介导细胞因子与细胞因子受体的相互作用、类风湿关节炎、IL-17 信号通路、恰加斯病、疟疾、NOD 样受体信号通路、糖尿病并发症中的AGE-RAGE 信号通路、TNF 信号通路、T 细胞受体信号通路和Toll 样受体信号通路等信号通路参与COVID-19 病理过程。经查阅相关文献,本研究部分筛选结果已被COVID-19 相关的临床基础研究证实,在COVID-19 防治方案中得到应用。希望通过本研究为COVID-19 的分子机制研究、临床治疗方案提供新的思路和方向,帮助扩充COVID-19 治疗的分子、靶点、通路和药物选择。但本研究基于文献及数据库资料进行计算和筛选,在一定程度上具有局限性,筛选内容的有效性和正确性有待后续基础研究及临床试验进一步验证。

利益冲突所有作者均声明不存在利益冲突

参考文献(略)

来 源:李彦波,赵鑫,吕文良,武庆娟,曹正民,强睿,张丽丽.基于文本挖掘和生物医学数据库的新型冠状病毒肺炎药物发现 [J]. 药物评价研究, 2022, 45(1): 37-47

最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情