09-30 08:19 阅读 151

NMF数据分型的简单理解

简介

NMF又称之为非负矩阵分解，可以理解为又一种降维聚类的方法，常常运用于单细胞分群，癌症RNA-seq数据分群等运用中，下图即是NMF分解的示意图：

其中：V矩阵是一个n×m的矩阵，W为n×k的矩阵，H为m×k的矩阵；而分解出来的 k 可以理解为所分出来的 k 个亚群（当然 W 矩阵的 k 与 H 矩阵的 k 的含义有一定区别，后续会举例子说明）

在R中实现

在R中完成NMF分解有两种方式，第一种利用R包NMF可以完成：

# random data
x <- rmatrix(20,10)

# run default algorithm with rank 3
res <- nmf(x, 3)

其中 rank 可以理解为矩阵分解后的 k ，即你要区分出来的亚群数量

如果是单细胞数据，还有一种方式是通过seurat选择降维方法来完成

# 提取单细胞标准化的data
vm <- data@assays$RNA@scale.data
res = nmf(vm,16)

# 将nmf对象注入到seurat中
data@reductions$nmf <- data@reductions$pca
data@reductions$nmf@cell.embeddings <- t(coef(res))
data@reductions$nmf@feature.loadings <- basis(res)
## 其中coef(res)为 H 矩阵，basis(res) 为 W 矩阵


data_reduction <- RunUMAP(pbmc, reduction = 'nmf', dims = 1:16) %>% 
  FindNeighbors(reduction = 'nmf', dims = 1:16) %>% 
    FindClusters()

举例

之前我们说过NMF的分解图：

在单细胞领域可以理解为，有n个基因，m个cell，并进行NMF分解，W矩阵可理解为：

有n个基因，k个cell clusters；而H矩阵可理解为：

在向量空间中有 m 个细胞，H 矩阵的每一列代表该细胞的 k 维坐标，因此 H 矩阵可以理解为 V 矩阵投影到低维空间的点坐标；即如果我们用NMF降维聚类并在二维平面上可视化时，H 矩阵的 k 维坐标取贡献最大的前两维即可；在seurat代码中有：

# 将nmf对象注入到seurat中
data@reductions$nmf <- data@reductions$pca
data@reductions$nmf@cell.embeddings <- t(coef(res))
data@reductions$nmf@feature.loadings <- basis(res)
## 其中coef(res)为 H 矩阵，basis(res) 为 W 矩阵

那么 cell.embeddings 就是降维后每个细胞的坐标；而 feature.loadings 可以理解为一种权重

作者:小潤澤

原文链接:https://www.jianshu.com/p/3bc148d31b86