首页 > 科研绘图 > 降维算法只用tSNE?你out啦!
2022
08-29

降维算法只用tSNE?你out啦!

数据,已经渗透到当今各行各业和业务职能领域。但如何处理已获得的复杂数据并从中挖掘出有效的信息成为了大家关注的问题。其中数据可视化是极其重要的一个方面,因为 无论如何对数据进行分析处理,能够简明准确的展示最终结果,才是数据可视化的点睛之笔。

在前几期的介绍中,王老师带领大家一起盘了许多FlowJo®插件,也针对数据分析软件的实际应用进行了分析, 那么本期,王老师将继续从生物学角度,带大家了解数据分析和处理中重要的核心环节之一:可视化降维处理。

1.降维可加速复杂数据直观展现

随着仪器和科学技术手段的自动化和高通量,生物科学领域的数据收集和获取已经不再是难事。而流式细胞仪的多色实验,记录了成百上千万的细胞蛋白表达数据,例如 BD FACSymphony流式分析仪可在单细胞水平上同时检测多达50个不同参数,使数据点之间的关系也更加复杂。

高通量单细胞多组学测序技术,更是产生涵盖在无数单细胞上的成千上万基因信息。每个参数为一个维度,对维空间很难直观地理解高维空间内的数据及其之间的关系。 对于分析者来说,兼顾每个参数的变化,绝非易事,困难和挑战程度都极高。因此对数据进行降维处理,并利用图表等方式将数据直观地可视化呈现是十分必要的。 而降维计算的目的就是在于少失真,低耗时并直观呈现数据。

2.降维方法各具特色

3.FlowJo®和SeqGeq™软件提供多种降维方法,以便应对多种需求

BD 旗下FlowJo®、SeqGeq™分别作为流式专业分析软件和单细胞测序数据分析软件,支持多种降维处理方式。下面我们就给大家详细介绍一下这两款软件中的降维方法:

- PCA

PCA主成分分析是最重要及最常用的降维方方法之一,由卡尔·皮尔逊于1901年发明【1】。 通过PCA处理后的数据,保留了原始数据中方差较大的维度,降维的同时还保留数据的最主要的方面,运算速度快,为后续计算节省空间。但PCA的局限是对于数据内部结构保持较差,例如在处理20000个基因、10000个细胞的单细胞RNA-seq数据时,无法较好地展示不同类的细胞之间的关系,而tSNE等非线性降维在处理这么大量的细胞和基因信息时,运行速度很慢。一般可将基因和细胞的信息先通过PCA预处理,将转变为几十个主成分,再对这几十个主成分进行进一步的tSNE或UMAP等降维。

- LDA

LDA也是一种线性降维,与PCA不同是, LDA属于有监督降维技术。给定训练样例集,设法将样例投影到一条直线上, 使得同类样例的投影点尽可能接近,不同类样例的投影点尽可能远离【2】。

- t-SNE

t-SNE

相比于传统的PCA线性降维,t-SNE是常用的一种非线性降维,是基于随机近邻嵌入(Stochastic Neighbor Embedding, SNE)方法【3】衍生发展来的一种算法。

SNE算法中,以高维数据中每个点作为中心点,中心点与它临近点之间的距离用概率分布来表示。当映射到二维空间时,尽可能地维持概率分布不变,从而达到降维的目的。但SNE的不足是在高维数据中相聚较远的点映射到低维空间后,无足够的空间距离,从而使所有的点统统被挤到一起,产生 “拥挤问题”。 而t-SNE将低维中的坐标当做T分布,使不同簇之间的距离拉大,从而解决了样本映射到低维时分不开的问题【4】。

BD FlowJo® V10.6版本和SeqGeq™ V1.5最初均采用的是Belkina, A.C等人在t-SNE基础上进一步优化开发的opt-SNE, 提高了局部结构分辨率, 并改善了t-SNE在处理大型数据集时无法产生有效嵌入的问题【5】。

不同版本t-SNE算法处理同一个4千万细胞数据结果比较

opt-SNE具有更高的分辨率

- UMAP

UMAP

虽然t-SNE是目前比较好的降维方法,但它也有它的局限性,例如处理非常大的数据集时,计算时间慢,会丢失较多信息【6】。 统一流形逼近与投影(UMAP)是一种新的降维流形学习技术,基于黎曼几何和代数拓扑的理论框架构建的。在可视化质量方面,UMAP算法与t-SNE相比具有竞争力,并且可以证明, 在保持优越的运行性能的同时保留了更多的全局结构【6】。

此外, UMAP对嵌入维数没有计算限制,使其成为一种通用的维数约简技术。尤其在处理大数据集时,UMAP 优势明显,尽可能地保留数据集的局部结构和整体结构,并且运算速度更快,内存占用小。

- TriMAP

TriMAP

TriMAP是由Ehsan Amid & Manfred K. Warmuth【7】开发的基于高维数据三个参数嵌入的降维方法, 着重保留了数据的全局准确性。在大数据集的嵌入以及运行内存占用和时间方面, 具有明显的优势。

(以上图片可点击放大查看)

王老师带你总结——实验者可根据实际需求挑选合适算法

在实际的运算过程中,参数的选择和设定其实也起到了至关重要的作用。而数据降维的方法多种多样,以下面一组T细胞的数据运算结果为例,在进行数据处理时,没有哪一种结果是最完美的。但我们可以根据不同的目的,结合各自的数据,选择最适合的降维算法,并利用多样的算法分析,寻找更多的数据分析角度!

转自:BD生物科学

最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情