阅读 90

R绘制森林图(forestplot)

前面我们讲过了单因素和多因素cox回归分析,那么怎么样将结果以森林图的形式来展示呢?

森林图简介

森林图(forest plot),从定义上讲,它一般是在平面直角坐标系中,以一条垂直于X轴的无效线(通常坐标X=1或0)为中心,用若干条平行于X轴的线段,来表示每个研究的效应量大小及其95%可信区间,并用一个棱形来表示多个研究合并的效应量及可信区间,它是Meta分析中最常用的结果综合表达形式,现在也广泛应用在biomarker此类研究中。

森林图的科研用途

提到森林图,很多人的第一反应就是Meta分析。实际上,除了Meta分析,森林图还有很多用处。森林图可以直观的反映出效应量(例如RR、OR、HR或者WMD)大小及其95% CI,这些效应量指标通常都是通过采用多因素回归分析所得,因此我们同样可以把森林图借鉴过来,用于展示单因素或者多因素回归分析的结果。总结来说,森林图的科研用途主要用于Meta和临床实验。

临床实验普通分析,常规森林图

下图就是常规Cox回归结果的森林图展示,主要体现了变量、病人数量、P值和HR值。比如: ph.ecog变量位于无效线(即中间的那条竖线)右侧,说明ph.ecog有助于死亡。森林图在常规情况下事件结局是"生/死"这种两分类,但有时候事件结局是"有效/无效"、"治疗/未治疗"等等其他二分类情况,评估事件是好事还是坏事。比如生存(生:0;死:1),位于无效线左侧的变量,说明这些变量不利于事件发生,是保护因素;位于无效线右侧的变量,说明这些变量有助于事件发生,是危险因素;当与无效线相交时,说明这些变量与事件发生之间关系不强!在整体数据上,用来评估这些变量因素对事件结局的影响!

小编在下面这篇文章中

看到了如下的森林图,

今天小编就带大家一起来重现这张图,我们还是用单因素和多因素cox回归分析中提到的lung这套数据来举例。小编用三种不同的方法来实现这张图。

第一种,我们用最原始的plot函数,lines函数从底层来实现。后边两种方法,我们用现成的R包来实现。

#加载这两个R包
library("survival")
library("survminer")
​
#加载肺癌这套数据
data("lung")
​
###########################################
#批量单因素cox回归分析
############################################
#假设我们要对如下5个特征做单因素cox回归分析
covariates <- c("age", "sex",  "ph.karno", "ph.ecog", "wt.loss")
#分别对每一个变量,构建生存分析的公式
univ_formulas <- sapply(covariates,
                        function(x) as.formula(paste('Surv(time, status)~', x)))
#对每一个特征做cox回归分析
univ_models <- lapply( univ_formulas, function(x){coxph(x, data = lung)})
​
#提取HR,95%置信区间和p值
univ_results <- lapply(univ_models,
                       function(x){ 
                         x <- summary(x)
                         #获取p值
                         p.value<-signif(x$wald["pvalue"], digits=2)
                         #获取HR
                         HR <-signif(x$coef[2], digits=2);
                         #获取95%置信区间
                         HR.confint.lower <- signif(x$conf.int[,"lower .95"], 2)
                         HR.confint.upper <- signif(x$conf.int[,"upper .95"],2)
                         HR <- paste0(HR, " (", 
                                      HR.confint.lower, "-", HR.confint.upper, ")")
                         res<-c(p.value,HR)
                         names(res)<-c("p.value","HR (95% CI for HR)")
                         return(res)
                       })
#转换成数据框,并转置
res <- t(as.data.frame(univ_results, check.names = FALSE))
res <-as.data.frame(res,stringsAsFactors=F)
​
#############################################################
#对HR (95% CI for HR)做处理,得到HR和low .95和high .95
#当然也可以改计算univ_results这一步的代码,不要将HR和CI贴起来
############################################################
HR=gsub("[\\(\\)]","",res$`HR (95% CI for HR)`)
HR=gsub("-"," ",HR)
HR=as.data.frame(do.call(cbind,strsplit(HR," ")),stringsAsFactors=F)
names(HR)=rownames(res)
​
#################################
#开始绘图,直接保存到pdf文件中
#################################
pdf(file="univariate_forest.pdf",width=7)
#左边和右边边距稍微留多一点来写变量名称,pvalue和HR
par(mar=c(5,6,4,13))
#先用小方块画出HR
plot(as.numeric(HR[1,]),1:dim(HR)[2],
     pch=15,cex=2,col="blue",bty='n',yaxt='n',ylab=NA,xlab="Hazard Ratio",
     xlim=range(as.numeric(unlist(HR)))
)
#添加中线
abline(v=1,col="grey",lwd=2,lty=2)
​
for(i in 1:ncol(HR)){
  x=as.numeric(HR[2:3,i])
  #循环画出CI
  lines(x,c(i,i),col="blue")
  #添加变量名
  text(0.2,i,rownames(res)[i],xpd=T,adj = c(0,0))
  #添加p值
  text(2.1,i,as.numeric(res[i,1]),xpd=T,adj = c(0,0))
  #添加HR和CI
  text(2.7,i,as.character(res[i,2]),xpd=T,adj = c(0,0))
}
#添加标题
text(2.1,ncol(HR)+0.5,"pvalue",xpd=T,adj = c(0,0))
text(2.7,ncol(HR)+0.5,"HR(CI)",xpd=T,adj = c(0,0))
dev.off()

会得到下面这张图,是不是跟文章中的长的很像,这可是小编纯手工打造的。

多因素的森林图,如果你理解了上面单因素的绘图的思路和原理,应该也不难,大家可以自己练练手。

第二种方法,使用survivalAnalysis包来实现

这个包不仅可以画forest图,还可以计算cox回归的结果。

先来看单因素cox分析的结果和forest图

再来看看多因素cox分析的结果和forest图

第三种方法,使用ggforest函数来实现

完整代码参考

R绘制森林图(forestplot),附代码

作者:生信交流平台

原文链接:https://www.jianshu.com/p/a4e7d598adb0

文章分类
后端
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐