09-30 08:21 阅读 85

【文献速递】-基于神经网络的迭代转移学习在单细胞RNA-seq分析中的聚类和细胞类型分类

在单细胞RNA-seq (scRNA-seq)分析中，聚类和细胞类型分类是重要的步骤。随着越来越多的scRNA-seq数据可用，利用外部注释良好的源数据的监督细胞类型分类方法开始比非监督聚类算法流行起来;然而，现有的监管冰毒- ods的性能高度依赖于源数据质量，而且它们在分类源数据中缺失的细胞类型时往往精确度有限。本文章开发了ItClust来克服这些限制，这是一种转移学习算法，它借鉴了超vised细胞类型分类算法的思想，但也利用了目标数据中的信息，以确保对只存在于目标数据中的细胞分类的敏感性。通过使用不同的scRNA-seq协议生成的不同物种和组织的数据进行广泛的评估，本文表明ItClust大大提高了聚类和细胞类型分类的准确性，而不是流行的无监督的聚类和有监督的细胞类型分类算法。

ItClust包括四个步骤:(1)使用一个堆叠的自动编码器对源网络进行参数初始化;(2)源网络的参数优化(即聚类);(3)利用源网络传输的信息对目标网络进行参数初始化;(4)目标网络的参数优化。

Itclust与无监督方法对人胰岛数据集的比较。a, 4个人胰岛数据集和合并的人胰岛数据集ItClust, Louvain2, DESC13和SAVER-X14的ARI聚类箱线图18。箱线图显示了中位数(中心线)、四分位范围(铰链)和1.5倍的四分位范围(胡须)。Louvain、DESC和SAVER-X的分辨率范围为0.2到2.0，步骤为0.2。b，人类胰岛合并数据集的t-SNE图。第一行的三块的坐标是基于ItClust聚类结果和彩色ItClust集群,真正的细胞类型和技术批次,分别而底下一行三个地块的坐标是基于鲁汶聚类结果与分辨率设置为2.0和彩色鲁汶集群,真正的细胞类型和技术批次,分别。最佳分辨率是在0.2到2.0的分辨率范围内拥有最高剪影系数的分辨率。结合人胰岛数据集的ItClust、Louvain、DESC和SAVER-X聚类结果的Sankey plot。Louvain、DESC和SAVER-X的分辨率设置为最佳分辨率。

当源和目标数据来自同一物种时，Itclust与半监督和监督方法对人类胰岛数据集的比较。a, ItClust、Seurat 3.0(参考文献11)、Moana10、scmap7和scVI8对4个人类胰岛数据集的分类准确率15 18，使用Baron等人的人类数据作为源数据19。b, 4个人类胰岛数据集ItClust、Seurat 3.0、scmap和scVI的Sankey图及其组合。我们只展示了前四名表演者的滑稽情节。

当来源和目标数据来自不同物种时，对小鼠和人肾数据集的Itclust与半监督和监督方法的比较。a，比较我们自己生成的人肾数据集与Young和同事生成的另一个人肾数据集的分类精度25，利用Park和同事的小鼠肾数据作为源数据24。b，结合人肾数据集的ItClust和Seurat 3.0的Sankey图。c, true cell type labels、ItClust聚类获得的标签和联合人肾数据集获得的Seurat 3.0聚类得到的标签的细胞巨噬细胞和成纤维细胞标记基因表达的点图。巨噬细胞和成纤维细胞标记基因选自Young和同事25。d，比较Xin等人的胰岛数据集的分类精度，使用Baron等人的小鼠胰岛数据作为源数据19。e，利用Baron等人的小鼠胰岛数据作为源数据，Xin et al.26的人胰岛数据集ItClust和scVI的Sankey图19。

比较Itclust与半监督和监督方法对人类胰岛数据集的影响，以评估来源数据中缺失细胞类型的影响。a, Segerstolpe人胰岛数据的分类精度比较16，在去除小细胞类型，只保留主要细胞类型作为源数据进行分析时，使用Baron等人的人胰岛数据19。b,分类精度的比较人类胰岛data16 Segerstolpe等人,使用男爵等人人类胰岛data19消除主要细胞类型,只有保持导管后,腺泡的,静止的星状,活化的肝星状,内皮细胞、巨噬细胞、肥大,ε,雪旺细胞和T细胞作为分析的源数据。c, Sankey绘制Segerstolpe等人的胰岛数据16，使用相同的还原Baron等人的胰岛数据19作为源数据。d, Segerstolpe等人胰岛数据16在ItClust迭代微调过程中细胞的t-SNE图，使用Baron等人b中减少的相同的人胰岛数据19作为源数据。前五幅图显示了gamma单元格和相应的聚类质心在迭代中的移动，而最终的图显示了算法收敛后所有单元格类型的最终聚类结果。蓝色的点代表真正的伽马细胞，红色的点是簇心，米色的点代表其他类型的细胞。

可信度指数。举例说明在ItClust中计算单元格类型分配的置信度分数。在进行微调之前，ItClust为源数据中的每个细胞类型计算集群质心，然后使用这些已知的细胞类型质心作为初始质心对目标数据中的细胞进行集群。在微调之后，中心体的位置和分配给它们的细胞将被更新。b, Segerstolpe等人的人类胰岛数据a16对每个聚类的置信评分，使用Baron等人的人类胰岛数据作为源数据。c, Segerstolpe等人的人类胰岛数据的每一簇的置信分数16，使用Baron等人剔除四种主要细胞类型作为源数据时的简化后的人类胰岛数据。如果源数据和目标数据中的单元格对应的单元格类型相同，置信度得分应该接近1。b和c中的x轴标签表示分配给同一形心的单元格类型标签从源数据到目标数据的变化。

作者:基因侦探

原文链接:https://www.jianshu.com/p/fd782d003230