Capítulo 4 El ecosistema tidyverse
En los capítulos de esta parte se pretende realizar una breve introducción al ecosistema Tidyverse, una colección de paquetes diseñados de forma uniforme (con la misma filosofía y estilo) para trabajar conjuntamente.
La referencia recomendada para usuarios de R que deseen iniciarse en el uso de estos paquetes es:
Wickham, H., y Grolemund, G. (2016). R for data science: import, tidy, transform, visualize, and model data, online-castellano, O’Reilly.
El paquete tidyverse
está diseñado para facilitar la instalación y carga de los paquetes principales de la colección tidyverse con un solo comando.
Al instalar este paquete se instalan paquetes que forman el denominado núcleo de tidyverse (se cargan con library(tidyverse)
):
ggplot2
: visualización de datos.dplyr
: manipulación de datos.tidyr
: reorganización (limpieza) de datos.readr
: importación de datos.tibble
: tablas de datos (extensión dedata.frame
).purrr
: programación funcional.stringr
: manipulación de cadenas de texto.forcats
: manipulación de factores.lubridate
: manipulación de fechas y horas.
y un conjunto de paquetes recomendados (feather
, haven
, modelr
, broom
…), entre los que destacaría:
readxl
: archivos excel.hms
: manipulación de medidas de tiempo.httr
: web APIs.jsonlite
: archivos JSON.rvest
: web scraping.xml2
: archivos XML.
library(tidyverse)
También hay paquetes “asociados”:
Muchos otros paquetes están adaptando este estilo (ver e.g. tidyverts): fable
, sf
…
Resumiendo, está muy de moda y puede terminar convirtiéndose en un dialecto del lenguaje R… para mi ya lo es… todo lo que resulte de utilidad es bien venido… Recomiendo evitar estos paquetes en las primeras etapas de formación en R…
El estilo de programación tiene como origen la gramática de ggplot2
para crear gráficos de forma declarativa, basado a su vez en:
Wilkinson, L. (2005). The Grammar of Graphics. Springer.
Yo empleo este paquete como sustituto de los gráficos lattice
, en algunos informes finales o aplicaciones para empresas, o para gráficos muy especializados.
En condiciones normales prefiero emplear los gráficos estándar de R (mucho más rápidos de generar y programar).
Para iniciarse en este paquete lo recomendado es consultar los capítulos Data Visualización y Graphics for communication de R for Data Science. También puede resultar de interés la chuleta). La referencia que cubre con mayor profundidad este paquete es:
Wickham, H. (2016). ggplot2: Elegant graphics for Data Analysis (3ª edición, en desarrollo junto a Navarro, D. y Pedersen, T.L.). Springer.
Aunque yo recomendaría:
Chang, W. (2023). The R Graphics Cookbook. O’Reilly.
En ggplot2
se emplea el operador +
para añadir componentes de los gráficos (ver , en Tidyverse se emplea un operador de redirección para añadir operaciones.