• Introducción al Análisis de Datos con R
  • Prólogo
  • 1 Introducción
    • 1.1 El lenguaje y entorno estadístico R
      • 1.1.1 Principales características
    • 1.2 Interfaz de comandos
    • 1.3 El entorno de desarrollo RStudio Desktop
    • 1.4 Ayuda
    • 1.5 Una primera sesión
    • 1.6 Funciones y librerías (paquetes)
      • 1.6.1 Funciones internas
      • 1.6.2 Paquetes
    • 1.7 Objetos básicos
      • 1.7.1 Objetos numéricos
      • 1.7.2 Objetos tipo carácter
      • 1.7.3 Objetos lógicos
      • 1.7.4 Operadores lógicos
    • 1.8 Área de trabajo
      • 1.8.1 Guardar y cargar objetos
      • 1.8.2 Carga de datos en paquetes
      • 1.8.3 Directorio de trabajo
  • 2 Estructuras de datos
    • 2.1 Vectores
      • 2.1.1 Generación de secuencias
      • 2.1.2 Generación secuencias aleatorias
      • 2.1.3 Selección de elementos de un vector
      • 2.1.4 Ordenación de vectores
      • 2.1.5 Datos faltantes
      • 2.1.6 Vectores no numéricos
      • 2.1.7 Factores
    • 2.2 Matrices y arrays
      • 2.2.1 Matrices
      • 2.2.2 Nombres en matrices
      • 2.2.3 Acceso a los elementos de una matriz
      • 2.2.4 Ordenación por filas y columnas
      • 2.2.5 Operaciones con Matrices y Arrays
      • 2.2.6 Ejemplos
      • 2.2.7 Inversión de una matriz
    • 2.3 Data frames
    • 2.4 Listas
  • 3 Gráficos
    • 3.1 La función plot
    • 3.2 Funciones gráficas de bajo nivel
    • 3.3 Ejemplos
    • 3.4 Parámetros gráficos
    • 3.5 Múltiples gráficos por ventana
    • 3.6 Exportar gráficos
    • 3.7 Otras librerías gráficas
      • 3.7.1 Ejemplos
  • 4 Manipulación de datos
    • 4.1 Importación y exportación de datos
      • 4.1.1 Lectura de archivos de texto
      • 4.1.2 Importación desde SPSS
      • 4.1.3 Importación desde Excel
      • 4.1.4 Exportación de datos
    • 4.2 Manipulación de datos
      • 4.2.1 Operaciones con variables
      • 4.2.2 Operaciones con casos
      • 4.2.3 Operaciones con tablas de datos
  • 5 Análisis exploratorio de datos
    • 5.1 Medidas resumen
      • 5.1.1 Datos de ejemplo
      • 5.1.2 Tablas de frecuencias
      • 5.1.3 Media y varianza
      • 5.1.4 Mediana y cuantiles
      • 5.1.5 Summary
    • 5.2 Gráficos
      • 5.2.1 Diagrama de barras y gráfico de sectores
      • 5.2.2 Gráfico de puntos
      • 5.2.3 Árbol de tallo y hojas
      • 5.2.4 Histograma
      • 5.2.5 Gráfico de densidad
      • 5.2.6 Diagrama de cajas
      • 5.2.7 Gráfica de dispersión
  • 6 Inferencia estadística
    • 6.1 Normalidad
    • 6.2 Contrastes
      • 6.2.1 Una muestra
      • 6.2.2 Dos muestras
    • 6.3 Regresión y correlación
      • 6.3.1 Regresión lineal simple
      • 6.3.2 Correlación
    • 6.4 Análisis de la varianza
      • 6.4.1 ANOVA con un factor
      • 6.4.2 Test de Kruskal-Wallis
  • 7 Modelado de datos
    • 7.1 Modelos de regresión
      • 7.1.1 Herramientas disponibles en R
    • 7.2 Fórmulas
    • 7.3 Ejemplo: regresión lineal simple
  • 8 Modelos lineales
    • 8.1 Ejemplo
    • 8.2 Ajuste: función lm
      • 8.2.1 Extracción de información
    • 8.3 Predicción
    • 8.4 Selección de variables explicativas
      • 8.4.1 Búsqueda exhaustiva
      • 8.4.2 Selección por pasos
    • 8.5 Regresión con variables categóricas
    • 8.6 Interacciones
    • 8.7 Diagnosis del modelo
      • 8.7.1 Gráficas básicas de diagnóstico
      • 8.7.2 Gráficos parciales de residuos
      • 8.7.3 Estadísticos
      • 8.7.4 Contrastes
    • 8.8 Métodos de regularización
      • 8.8.1 Datos
      • 8.8.2 Ridge Regression
      • 8.8.3 Lasso
    • 8.9 Alternativas
      • 8.9.1 Transformación (modelos linealizables)
      • 8.9.2 Ajuste polinómico
      • 8.9.3 Ajuste polinómico local (robusto)
  • 9 Modelos lineales generalizados
    • 9.1 Ajuste: función glm
    • 9.2 Regresión logística
      • 9.2.1 Ejemplo
      • 9.2.2 Ajuste de un modelo de regresión logística
    • 9.3 Predicción
    • 9.4 Selección de variables explicativas
      • 9.4.1 Selección por pasos
    • 9.5 Diagnosis del modelo
      • 9.5.1 Gráficas básicas de diagnóstico
      • 9.5.2 Gráficos parciales de residuos
      • 9.5.3 Estadísticos
    • 9.6 Alternativas
  • 10 Regresión no paramétrica
    • 10.1 Modelos aditivos
      • 10.1.1 Ajuste: función gam
      • 10.1.2 Ejemplo
      • 10.1.3 Superficie de predicción
      • 10.1.4 Comparación de modelos
      • 10.1.5 Diagnosis del modelo
  • 11 Programación
    • 11.1 Funciones
      • 11.1.1 Ejemplo: progresión geométrica
      • 11.1.2 Argumentos de entrada
      • 11.1.3 Salida
      • 11.1.4 Otros ejemplos
      • 11.1.5 Variables locales y globales
    • 11.2 Ejecución condicional
    • 11.3 Bucles y vectorización
      • 11.3.1 Bucles
      • 11.3.2 Vectorización
      • 11.3.3 Funciones apply
    • 11.4 Aplicación: validación cruzada
      • 11.4.1 Primer ejemplo
      • 11.4.2 Segundo ejemplo
  • 12 Generación de informes
    • 12.1 R Markdown
      • 12.1.1 Introducción
      • 12.1.2 Inclusión de código R
      • 12.1.3 Inclusión de gráficos
      • 12.1.4 Inclusión de tablas
      • 12.1.5 Extracción del código R
    • 12.2 Spin
  • Referencias
    • Enlaces
    • Bibliografía complementaria
  • Apendices
  • A Instalación de R
    • A.1 Instalación de R en Windows
      • A.1.1 Asistente de instalación
      • A.1.2 Instalación de paquetes
      • A.1.3 Instalación de RStudio Desktop
    • A.2 Instalación de R en Ubuntu/Devian
      • A.2.1 Instalación de R desde CRAN
      • A.2.2 Instalación de devtools y demás paquetes
      • A.2.3 Ayuda html
      • A.2.4 Actualizar R
      • A.2.5 Instalacion de RStudio Desktop
    • A.3 Instalación en Mac OS X
  • B Manipulación de datos con dplyr
    • B.1 El paquete dplyr
      • B.1.1 Datos de ejemplo
    • B.2 Operaciones con variables (columnas)
      • B.2.1 Seleccionar variables con select()
      • B.2.2 Generar nuevas variables con mutate()
    • B.3 Operaciones con casos (filas)
      • B.3.1 Seleccionar casos con filter()
      • B.3.2 Organizar casos con arrange()
      • B.3.3 Resumir valores con summarise()
      • B.3.4 Agrupar casos con group_by()
    • B.4 Operador pipe %>% (tubería, redirección)
    • B.5 Operaciones con tablas de datos {# dplyr-join}
    • B.6 Bases de datos con dplyr
      • B.6.1 Ejemplos
  • C Compañías que usan R
    • C.1 Microsoft
    • C.2 RStudio (Posit)
  • ISBN: 978-84-09-41823-7
  • Publicado con bookdown

Introducción al Análisis de Datos con R

Introducción al Análisis de Datos con R

Rubén Fernández Casal (ruben.fcasal@udc.es)

Javier Roca-Pardiñas (roca@uvigo.es)

Julián Costa Bouzas (julian.costa@udc.es)

Manuel Oviedo de la Fuente (manuel.oviedo@udc.es)

Edición: Junio de 2022. Impresión: 2023-02-13. ISBN: 978-84-09-41823-7

Prólogo

Este es un libro introductorio al análisis de datos con R.

En el Apéndice A se detallan los pasos para la instalación de R y el entorno de desarrollo RStudio. En la Sección Enlaces de las Referencias se incluyen recursos adicionales, incluyendo algunos que pueden ser útiles para el aprendizaje de R.

Este libro ha sido escrito en R-Markdown empleando el paquete bookdown y está disponible en el repositorio Github: rubenfcasal/intror. Se puede acceder a la versión en línea a través del siguiente enlace:

https://rubenfcasal.github.io/intror.

donde puede descargarse en formato pdf.

Para ejecutar los ejemplos mostrados en el libro sería necesario tener instalados los siguientes paquetes: lattice, ggplot2, foreign, car, leaps, MASS, RcmdrMisc, lmtest, glmnet, mgcv, rmarkdown, knitr, dplyr, tidyr. Por ejemplo mediante los siguientes comandos:

pkgs <- c("lattice", "ggplot2", "foreign", "car", "leaps", "MASS", "RcmdrMisc", 
          "lmtest", "glmnet", "mgcv", "rmarkdown", "knitr", "dplyr", "tidyr")
install.packages(setdiff(pkgs, installed.packages()[,"Package"]), dependencies = TRUE)

(puede que haya que seleccionar el repositorio de descarga, e.g. Spain (Madrid)).

El código anterior no reinstala los paquetes ya instalados, por lo que podrían aparecer problemas debidos a incompatibilidades entre versiones (aunque no suele ocurrir, salvo que nuestra instalación de R esté muy desactualizada). Si es el caso, en lugar de la última línea se puede ejecutar:

install.packages(pkgs, dependencies = TRUE) # Instala todos...

Para generar el libro (compilar) serán necesarios paquetes adicionales, para lo que se recomendaría consultar el libro de “Escritura de libros con bookdown” en castellano.

Este obra está bajo una licencia de Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0 Internacional (esperamos poder liberarlo bajo una licencia menos restrictiva más adelante…).

Para citar este libro se puede emplear la referencia:

Fernández-Casal R., Roca-Pardiñas J., Costa J. y Oviedo-de la Fuente M. (2022). Introducción al Análisis de Datos con R. ISBN: 978-84-09-41823-7. https://rubenfcasal.github.io/intror.

También puede resultar de utilidad la siguiente entrada BibTeX:

@book{fernandezetal2022,
    title        = {Introducción al Análisis de Datos con R},
    author       = {Fernández-Casal, R.; Roca-Pardiñas, J.; Costa, J.;Oviedo-de la Fuente, M.},
    year         = {2022},
    note         = {ISBN 978-84-09-41823-7},
    url          = {https://rubenfcasal.github.io/intror/}
}