阅读 53

R for Data Science(笔记) ---数据整理(Pivot相关函数)

R for Data Science

想了一下还是做一个笔记目录,这样能够方便查询

R for Data Science(笔记) ---数据变换(filter使用)
R for Data Science(笔记) ---数据变换(select基础使用)
R for Data Science(笔记) ---数据变换(select组合其他函数)
R for Data Science(笔记) ---数据变换(创建新的变量)
R for Data Science(笔记) ---数据变换(行排序)
R for Data Science(笔记) ---数据变换(归纳总结)
R for Data Science(笔记) ---数据整理(分列和合并)

tidy流处理数据的运用,我想这与管道符%>% 的使用,数据处理动词化,有着很重要的关系。

用最少的时间,解决最重要的、最常见的问题,我把这称为是高效;剩余的难点,我把其称为提高。

宽数据变长数据

pivot相关的函数就是为了对数据的表现形式进行改变

之前在ggplot2画图之前的准备----数据宽长变换谈及过数据长宽变换,也就是pivot函数的应用。这次使用原书里面的例子。

table4a %>% 
  pivot_longer(c(`1999`, `2000`), names_to = "year", values_to = "cases")
#> # A tibble: 6 x 3
#>   country     year   cases
#>   <chr>       <chr>  <int>
#> 1 Afghanistan 1999     745
#> 2 Afghanistan 2000    2666
#> 3 Brazil      1999   37737
#> 4 Brazil      2000   80488
#> 5 China       1999  212258
#> 6 China       2000  213766

其实,在数据变换的过程中还是对这种数据的一个理解,也就是下面这副图的变换。


长数据变宽数据

上面的例子是宽数据变成长数据,一般不会有问题,而长数据变成宽数据时,偶尔会出现问题,主要原因是tidyverse处理数据会把数据形式变为tibble格式,这个和datafram是有去别的。关于这个问题的处理,我在以前的文章中写过,并且展示过。
ggplot2画图之前的准备----数据宽长变换

为什么要做这些事情

不仅就要问了,为啥搞这么多东西
这是tidyverse处理数据的模式,为什么要这样做,因为写ggplot2 package和tidyverse
作者是一个人,把R的底层搞一遍,顺带做的适合自己画图工具。

Hadley Wickham

以及 Hadley Wickham的个人GitHub

不得不说,有些东西的进步可能还真是就是个别一些人的推动,这又要牵扯到历史观了,据说R的推动是由于Rstudio的推动,而像Hadley Wickham这样的人,则是开创了一种新的方法。当然这样的人,还有像 谢益辉,Rmarkdown的作者,也是改变了一种展现方法。

作者:生信小鹏

原文链接:https://www.jianshu.com/p/48aacfa3a238

文章分类
后端
版权声明:本站是系统测试站点,无实际运营。本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 XXXXXXo@163.com 举报,一经查实,本站将立刻删除。
相关推荐