B.1 El paquete dplyr
library(dplyr)
dplyr
permite sustituir funciones base de R (como split()
, subset()
,
apply()
, sapply()
, lapply()
, tapply()
y aggregate()
)
mediante una “gramática” más sencilla para la manipulación de datos:
select()
seleccionar variables/columnas (tambiénrename()
).mutate()
crear variables/columnas (tambiéntransmute()
).filter()
seleccionar casos/filas (tambiénslice()
).arrange()
ordenar o organizar casos/filas.summarise()
resumir valores.group_by()
permite operaciones por grupo empleando el concepto “dividir-aplicar-combinar” (ungroup()
elimina el agrupamiento).
Puede trabajar con conjuntos de datos en distintos formatos:
data.frame
,tibble
,data.table
…bases de datos relacionales (lenguaje SQL); dbplyr.
bases de datos Hadoop:
sparklyr
.
En lugar de operar sobre vectores como las funciones base,
opera sobre objetos de este tipo (solo nos centraremos en data.frame
).