1. Introducción

Los gráficos e infografías son, cada vez más, una parte importante de la mayoría de textos escritos, ya sean estos un informe técnico, un artículo de periódico o un TFG. En el caso de la ciencia de datos, como puede verse abajo en la infografía, el análisis y la exploración de los datos es un proceso iterativo en el que la visualización y la generación de gráficos ocupa un lugar destacado.

R for Data Science (http://r4ds.had.co.nz/)

R for Data Science (http://r4ds.had.co.nz/)

Uno de los instrumentos y tareas fundamentales de un científico de datos es la capacidad de realizar visualizaciones de datos apropiadas y convincentes. El análisis gráfico no solo ayuda en la exploración y comprensión de los datos, sino que es fundamental a la hora de mostrar las posibles relaciones entre variables, descubrir relaciones o patrones ocultos, y descartar o sugerir nuevas preguntas sobre los datos.

El entorno R tiene diversos sistemas para visualizar datos, los dos más utilizados son el sistema gráfico de R-base y el ecosistema asociado al paquete ggplot2. Por diversas razones, en el curso usaremos el entorno ggplot2 para hacer nuestros gráficos; de hecho, en la actualidad ggplot2, dada su rapidez en la iteración entre gráficos, versatilidad y la cuidada estética que tienen sus gráficos, se ha convertido, al menos por el momento, en el sistema estándar para hacer gráficos en R. Por ejemplo, ¿cómo creéis que hace la BBC sus gráficos?, evidentemente con R y ggplot2. Puedes ver uno de sus repositorios aquí y su cookbook aquí.

Con ggplot2 es sencillo hacer gráficos con calidad para ser publicados o mostrados, además de que, dada su sintaxis modular, hace sencillo el reutilizar los gráficos durante el proceso de análisis. El paquete ggplot2 fue inicialmente desarrollado por Hadley Wickham, pero actualmente el ecosistema ggplot es el resultado de toda una comunidad de usuarios que contribuye a enriquecer el sistema gráfico con sus extensiones y paquetes auxiliares.

En palabras de Hadley en su libro sobre ggplot2:

ggplot2 is an R package for producing statistical, or data, graphics, but it is unlike most other graphics packages because it has a deep underlying grammar. This grammar, based on the Grammar of Graphics (Wilkinson 2005), is made up of a set of independent components that can be composed in many different ways. This makes ggplot2 very powerful because you are not limited to a set of pre-specified graphics, but you can create new graphics that are precisely tailored for your problem. This may sound overwhelming, but because there is a simple set of core principles and very few special cases, ggplot2 is also easy to learn (although it may take a little time to forget your preconceptions from other graphics tools).

Sí, con ggplot2 es “fácil” hacer rápidamente gráficos de calidad, PERO dominar todos los detalles del paquete sí que es complicado, pero no nos hace falta conocerlo todo. Además, hay que tener en cuenta que ggplot2 es un paquete/entorno en constante evolución. Actualmente está en la versión 3.2.1. Bueno, en marzo de 2020 apareció la versión 3.3.0.

Para entender esta idea de la constante evolución y el papel que tiene la comunidad de usuarios en el desarrollo de R y sus paquetes puedes leer este tweet y las respuestas a él. En el tweet sólo se anuncia una pequeña mejora en como ggplot2 gestiona los títulos de los gráficos pero genera reacciones en la comunidad de usuarios.

La redes sociales pueden hacerse eco de la evolución de un paquete, pero donde habitualmente se produce la discusión/colaboración entre usuarios es en plataformas como Github. Por ejemplo, puedes ver como se gestó está pequeña mejora aquí. Fue la issue 3252 de ggplot2. Otro ejemplo, justo cuando estaba escribiendo este párrafo, leí este otro tweet anunciando otra mejora en ggplot2.

La página web de ggplot2 puedes encontrarla aquí. En ella puedes encontrar documentos de ayuda y la referencia oficial. Para darte cuenta de todo lo que se puede hacer con el ecosistema ggplot visita esta página donde podrás ver los 79 “paquetes auxiliares” o extensiones a ggplot2.

Para hacer “buenos” gráficos con ggplot2no sólo es necesario entender la sintaxis y los pormenores del paquete, sino que quizás se necesite algo más. Por ejemplo, algo de experiencia y cierta capacidad visual y estética; incluso hay quien dice que hacer buenos gráficos es un arte. Para intentar mejorar vuestros gráficos o evitar ciertos errores, aquí tenéis algunas reglas/consejos, y aquí un curso completo sobre visualización1 con bookdown incluido.

Entenderás muy bien que hacer buenos gráficos exige conocimiento y mucho trabajo al ver el video de este post, donde se ven las versiones previas para que al final saliese esta preciosura de gŕafico:

Otro ejemplo del making-of de un gráfico puedes verlo aquí.

Otros dos libros sobre visualización con el código de los ejemplos hechos con ggplot2, aquí y aquí. Finalmente, algunos consejos de la BBC sobre visualización.

Como también se aprende los errores, aquí tienes un articulo de The Economist donde muestran errores que ellos mismos han cometido haciendo gráficos. Además pueden descargarse los datos.


2. Ideas básicas sobre ggplot2

Ya se dijo que ggplot2 es un paquete R desarrollado por Hadley Wickham, aunque actualmente es el resultado de la colaboración de múltiples desarrolladores. ggplot2 implementa en R The Grammar of Graphics de L. Wilkinson, un sistema coherente para describir y construir gráficos. El énfasis de ggplot2 está en la exploración rápida de datos, especialmente de datos de alta dimensionalidad. Con ggplot2 es sencillo ir transformando el gráfico mientras se van analizando los datos.

Para empezar a entender la “filosofía” de ggplot2, os planteo una pregunta medio retórica: ¿qué vemos en el gráfico de abajo?

Pues sí, es un gráfico de puntos y nos ayuda a ver las relaciones que existen entre 3 variables. Estamos habituados a ello, pero vamos a pensar en el gráfico desde la óptica de “The Grammar of Graphics” implementada en el paquete ggplot2.

En nuestro gráfico se representan por medio de puntos, en el espacio X-Y, y mediante los distintos colores de los puntos, las observaciones de 3 variables. Bien, nada muy novedoso, todos los sistemas gráficos hacen este tipo de gráficos. Los gráficos de ggplot2 se realizan mediante la superposición de elementos/capas. Podemos pensar que el gráfico que hemos visto es una capa. ¿Cómo creamos este gráfico o capa en ggplot2?

Pues, una de las principales ideas para entender ggplot2 es que cada capa de un gráfico tiene 3 componentes o elementos principales:

  • los datos que se van a representar (sencillo, para hacer un gráfico hacen falta datos). Para ello utilizaremos generalmente la función ggplot()

  • un conjunto de propiedades estéticas asociadas a alguna variable del conjunto de datos. Por ejemplo, la variable Sepal.Lenght está asociada al eje X, ala posición en el eje X. Por su parte, el color de los puntos (otra característica visual o estética) está asociado a los valores de la variable Species. Es decir, usando la terminología de ggplot2, las distintas variables están asociadas o mapeadas a determinadas características estéticas. El mapeo de variables con estéticas se hará con la función aes() de aesthetics. (esto ya no es tan estándar, se explica en breve)

  • el elemento geométrico que se va a representar. En nuestro caso el elemento geométrico que se utiliza para representar los valores de las variables son los puntos, pero podrían haber sido las lineas o las barras … Para especificar el elemento geométrico que vamos a usar en nuestro gráfico se utiliza la familia de funciones geom_xx(); por ejemplo geom_point() si queremos puntos, geom_line() si queremos que las relaciones entre las variables se representen/visualicen como lineas.

Así en abstracto puede ser complicado entender del todo que quiere decir todo esto. Vamos a verlo con ejemplos concretos. De momento, para explicar las principales características de ggplot2 utilizaré un conjunto de datos famoso, pero odiado por algunos, por haber sido utilizado en numerosos ejemplos y cursos: el iris dataset.

El conjunto de datos iris contiene datos sobre 150 flores, en concreto sobre 150 lirios. iris tiene 5 variables, 4 de ellas miden la longitud y el ancho del pétalo y sépalo de los 150 lirios. Estas 4 primeras variables son cuantitativas y continuas; mientras que la quinta variable es categórica, indicando la clase o variedad de los lirios, ya que en los datos hay 3 especies distintas de lirios (setosa, versicolor y virginica). Con estos datos, con 3 de sus variables, se ha creado el gráfico que ves más arriba.


PRIMER GRÁFICO: Para comenzar nuestras andanzas con ggplot2 intentaremos replicar con código R el gráfico de arriba; aunque al principio sólo utilizaremos 2 variables: haremos un gráfico de puntos de la longitud del sépalo frente a la longitud del pétalo.

Hacer un gráfico con ggplot2 requiere de varias etapas,

  • la primera de ellas consiste en usar la función ggplot() para inicializar el gráfico.

  • en segundo lugar, tendremos que especificar que conjunto de datos usaremos en el gráfico.

  • en tercer lugar tendremos que especificar que variables irán asociadas a determinados elementos visuales o estéticos del gráfico

  • por último, en cuarto lugar, tendremos que especificar que tipo de gráfico o geometría usaremos para visualizar las observaciones.

Veámoslo más detenidamente.

En ggplot2, para hacer un gráfico se empieza SIEMPRE llamando a la función ggplot(). Si tecleamos ggplot() en la consola o en un script, parece que no ocurre nada, pero tras la llamada a la función ggplot(), R ha creado un objeto, un contenedor para nuestro futuro gráfico. Aún no vemos el gráfico, faltan cosas, pero ya lo hemos inicializado. Si quieres ver el objeto/contenedor que hemos creado con la llamada a ggplot() tienes que asignarle un nombre, así podrás verlo en la pestaña “Environment” de RStudio.

Para verlo tienes que hacer:

my_grafico <- ggplot()

my_grafico, es un objeto R, concretamente una lista con 9 elementos, que tendremos que ir “llenando” para hacer nuestro gráfico.

Generalmente, dentro de la función ggplot() se suele especificar el conjunto de datos que vas a utilizar para hacer el gráfico. A diferencia de los gráficos de R-base, ggplot2 no permite graficar vectores: los datos que se suministran han de ser SIEMPRE data.frames o similares.

ggplot(data = iris)
ggplot(iris)

Ya está, con cualquiera de las 2 instrucciones de arriba, son equivalentes2, ya hemos inicializado el gráfico y le hemos dicho que datos vamos a usar.

Dijimos que para comenzar haríamos un gráfico de puntos de la variable Sepal.Length frente a Petal.Length; así que tenemos que decirle a ggplot2 que variables de iris queremos visualizar y con que propiedades estéticas queremos asociar cada variable. Para ello utilizaremos la función aes() dentro de ggplot(). Lo hacemos con la siguiente expresión:

ggplot(iris, aes(x = Sepal.Length,  y = Petal.Length))

Aún no vemos el gráfico, pero con aes() le hemos dicho a R/ggplot2 que queremos asociar/mapear la variable Sepal.Length al eje x, y la variable Petal.Length al eje y. Fíjate que, en la pestaña de gráficos de RStudio, ya vemos los ejes del gráfico; además, fíjate que ggplot2 ya ha calculado para nosotros el rango de las variables para ajustar los ejes.

Al igual que antes, podemos omitir los nombres de las opciones de la función aes(). Esta función puede tener muchos argumentos (veremos algunos), pero los 2 primeros son siempre x (el eje x) y después y (el eje y o vertical de mi gráfico); es decir podríamos hacer lo siguiente que es más rápido de teclear.

ggplot(iris, aes(Sepal.Length, Petal.Length))

Con esta instrucción le estamos diciendo a ggplot2 que vamos a hacer un gráfico con los datos del data.frame iris y que vamos a asociar/conectar/mapear la variable Sepal.Length con el eje x, y la variable Petal.Length con el eje y del gráfico. Perfecto, pero entonces ¿por qué no vemos el gráfico? La razón estriba en que no le hemos dicho a ggplot2 qué tipo de gráfico queremos (de puntos, de lineas etc…). El tipo de gráfico se explicita con una familia de funciones: geom_xx() o geometrías. Hay muchas geometrías o tipos de gráficos que podemos usar. Ya lo veremos!!! Nosotros queremos hacer un gráfico de puntos, así que, de la familia de geometrías tenemos que usar geom_point(). Veámoslo.

ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point()

Como vemos los puntos del gráfico se visualizan en color negro, con un tamaño, una transparencia y una forma determinadas. Obviamente todo esto se puede cambiar dentro de geom_point() con las opciones adecuadas. Por ejemplo:

ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(color = "red", size = 2, alpha = 0.2)

Ya casi está. No es tan complicado. Ya hemos visto las ideas fundamentales de la visualización con ggplot2:

  1. Los gráficos se inician con la función ggplot(). Generalmente aquí se especifican los datos (data.frame) que queremos utilizar

  2. La función aes() sirve para asociar/mappear variables con atributos/características estéticas del gráfico. De hecho el nombre del función aes() viene de aesthetics. Las aesthetics más importantes de un gráfico suelen ser los ejes x e y, por eso se ponen siempre al principio de aes(); es decir, son los 2 primeros argumentos de aes(). En nuestro ejemplo hemos asociado la variable Sepal.Length con el eje x, y la variable Petal.Length con el eje y. Veremos más aesthetics, como por ejemplo el color o el tamaño (de los puntos … o de las lineas o …)

  3. Con geom_**() elegimos el tipo o geometría de gráfico. Hay muchos tipos de gráficos, así que habrán muchos geoms. Por ejemplo: geom_point(), geom_line(), geom_ …

Estas 3 ideas son las principales para entender ggplot2. Después hay muchas más opciones y elementos que serán muy importantes para conseguir un buen gráfico, pero en cierta forma son secundarias; por ejemplo, los títulos, los ejes, las escalas, el tema etc… lo iremos viendo poco a poco.


Afiancemos las ideas principales de la visualización con ggplot2. ¿Piensa que hará la siguiente linea de código?

ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_line()

La primera parte de la instrucción es igual a la anterior: queremos un gráfico con el data.frame iris y queremos asociar la variable Sepal.Length con el eje x, con la propiedad aesthetic eje x y Petal.Length con el eje y; pero le hemos pedido un gráfico de lineas (geom_line()). En este caso hacer un gráfico de lineas no tiene mucho sentido, pero si se lo pedimos a R, este nos hace caso y nos lo muestra.


Ya dije que una de las características importantes de ggplot2 es que funciona por capas que se van superponiendo; para ir añadiendo capas a nuestro gráfico tenemos que usar el símbolo +. Por ejemplo si quisiéramos ver los puntos y las lineas ¿Cómo lo hacemos?

ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_line()


Tampoco son muy útiles la lineas en este gráfico.

Otra geometría o geom_() que se usa mucho es geom_smooth(). Probémosla:

ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() +  geom_smooth()

Del gráfico puede inferirse que hay una relación, no lineal, pero sí directa o positiva entre la longitud del sépalo y del pétalo; pero también se aprecia que hay al menos dos grupos distintos de lirios. Hay un grupo de observaciones cuyo pétalo parece ser claramente menor que el del resto de lirios. Veamos si esto se debe o esta asociado al tipo de lirio, recuerda que hay 3 tipos de lirios, asociados a la variable iris$Species. Para verlo en nuestro gráfico lo que vamos a hacer es asociar/mapear la variable Species con la aesthetics color:

ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() 

Pues parece que sí, que la especie de lirios “setosa” es más pequeña, al menos en longitud, del sépalo, pero sobre todo del pétalo.

La variable Species podríamos haberla asociado a la estética tamaño (size), o a la estética forma (shape) pero no sería tan útil ni quedaría tan bonito el gráfico. Fíjate que incluso R nos avisa de que asociar la propiedad o aesthetic tamaño con una variable categórica como Species no es muy recomendable.

ggplot(iris, aes(Sepal.Length, Petal.Length, size = Species)) + geom_point() 
#> Warning: Using size for a discrete variable is not advised.

También podemos asociar la variable Species a la estética “forma”(shape). Lo hacemos en la expresión de más abajo. Como veis, ahora las diferencias entre especies de lirios no se aprecian tan bien como cuando usábamos color = Species

ggplot(iris, aes(Sepal.Length, Petal.Length, shape = Species)) + geom_point() 

Os va a costar hacer gráficos, normal!!!, pero espero que la idea principal ya la tengáis. Lo que pasa es que no os he contado todo, en realidad es un poco más complejo y versátil. Lo medio explico en el siguiente apartado.


Más ideas sobre ggplot2

Ya tenéis las ideas principales para hacer gráficos con ggplot2, pero no os lo he contado todo, tampoco lo voy a hacer ahora, pero si contaré las cosas de una forma diferente para que tengáis más flexibilidad/versatilidad a la hora de hacer gráficos. Si queréis saber toda la verdad3 tendréis que ir al libro de Hadley, concretamente aquí.

La forma que os he contado de hacer gráficos ggplot2 es la que veréis habitualmente, yo también hago mis gráficos así, solo que para entender mejor el funcionamiento, la sintaxis de ggplot2, os lo tengo que contar otra vez de una forma un poco diferente o ampliada.

Un gráfico de ggplot2 se inicia llamando a la función ggplot() eso es cierto y también es verdad que generalmente dentro de ggplot() se indica el data.frame que vas a utilizar y con aes() que variables vas a usar y con que elementos visuales o estéticos quieres asociar cada una de la variables que vas a utilizar4. Correcto, pero …. en realidad un gráfico ggplot2 se hace por capas, cada capa se especifica con una función de la familia geom_xx(), así que en realidad los datos y las aes() se “deberían” especificar dentro de la función geom_xx()`.

Parece un poco de lío pero en cuanto lo entiendas es muy fácil y te puede dar más flexibilidad a la hora de hacer tus gráficos. Empecemos: ¿recuerdas que hacen las lineas/expresiones de abajo?

ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() 
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_line()

Podemos pensar que las funciones que hacen la representación gráfica realmente son las geom_xx(); es ahí donde deberíamos especificar los datos y variables/estéticas que queremos usar, pero si no las especificamos en la función geom(), entonces, ggplot2 mirará a ver si existen, si están especificados, dentro de ggplot().

Ahora que ya sabemos el funcionamiento básico de ggplot2, veamos algunos detalles mediante algunos ejemplos. Hasta ahora hemos especificado el data.frame que queremos graficar con ggplot(data = my_df) o con ggplot(my_df) y las variables que queremos ver, y a que propiedad estética queremos asociarla, con la función aes() dentro de ggplot(). Si lo hacemos así, todos los geoms_xx() que utilicemos compartirán el conjunto de datos y las variables/estéticas a mappear y mostrar; pero a veces, en gráficos más complejos podemos querer hacer que cada geom_xx() muestre datos y/o variables distintas.

Entender que cada geom_xx() puede estar asociado a distintos data.frames y/o variables es importante para tener más versatilidad con ggplot2.Por ejemplo, las siguientes tres expresiones hacen el mismo gráfico. Se suele utilizar la primera expresión, pero la segunda y tercera expresiones son “más flexibles”, aunque es verdad que si sólo se utiliza un geom_xx() no ganamos nada por usar la segunda o tercera expresión, pero no será el caso si en nuestro gráfico necesitamos usar varios geom_xx()

ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point()

ggplot(iris) + geom_point(aes(Sepal.Length, Petal.Length))

ggplot() + geom_point(data = iris, aes(Sepal.Length, Petal.Length))

Fíjate, como detalle, pero importante, que si utilizas la tercera expresión; es decir, si especificas los datos dentro de la función geom_xx(), es necesario poner el nombre del argumento ; es decir, debes poner data = iris, no puedes poner solo iris. Yo me olvido siempre de este detalle5.

En este caso (como el gráfico solo tiene una capa, como sólo usamos un geom(_xx)) no ganamos nada por usar la segunda o tercera expresión; PERO, cuando usemos varios geom_xx() esto nos dará muchas posibilidades para nuestro gráfico.

Intenta descubrir las diferencias y funcionamiento de las 3 siguientes instrucciones. Recuerda que puedes correr las instrucciones en R para ver que hacen exactamente.

ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(aes(color = Species)) + geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth(aes(color = Species))

Veámoslas una a una:

  1. Los datos y las 3 variables/estéticas dentro de ggplot()
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth()

En este caso los 2 geoms comparten el conjunto de datos (iris) y las variables/estéticas a graficar


  1. Los datos y 2 variables/estéticas dentro de ggplot(), pero una tercera variable (Species), asociada a la estética color, aparece solamente en geom_point()
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(aes(color = Species)) + geom_smooth()


  1. Los datos y 2 variables/estéticas dentro de ggplot(), pero una tercera variable (Species), asociada a la estética color, aparece solamente en geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth(aes(color = Species))

Espero, seguro!!, que te has dado cuenta de que si especificas el data.frame y las variables/estéticas dentro de ggplot() esto afectará a todos los geoms del gráfico; pero lo que se especifique dentro de un geom_xx() solo afecta a esa geometría.


Otro ejemplo para entenderlo, ¿por qué no funciona la siguiente expresión?

ggplot(iris) + geom_point(aes(Sepal.Length, Petal.Length)) + geom_smooth(aes(color = Species))

Pues porque para poder representar la linea suavizada se utiliza geom_smooth(), y geom_smooth() necesita como mínimo tener variables asociadas a las estéticas x e y. Como veis, dentro de geom_smooth() solo hemos especificado la estética “color” y tampoco hemos especificado en la función ggplot() que variables se asocian con x e y. Por lo tanto, geom_smooth() no puede hacer su trabajo, le faltan los “datos” de x e y para calcular/obtener la linea suavizada.

Vamos con otros ejemplos. La siguientes expresiones tampoco funcionarán6 si intentáis correrlas en vuestro ordenador. ¿Por qué?

ggplot() + geom_point(data = iris, aes(Sepal.Length, Petal.Length)) + geom_line(aes(Sepal.Length, Petal.Length))

ggplot(aes(Sepal.Length, Petal.Length)) + geom_point(data = iris) + geom_line()

ggplot() + geom_point(data = iris, aes(Sepal.Length, Petal.Length)) + geom_line()


Otro ejemplo: hagamos algo más marciano/complicado. Supón que quieres hacer un gráfico diferenciando los puntos por color para las tres especies de lirios, pero quieres que solo se vea la linea suavizada para las dos especies más grandes (virginica y versicolor). Los lirios más pequeños son los de la clase setosa. Igual se puede hacer de otra forma pero la que me viene a la cabeza es hacer lo siguiente:

Primero, crear un dataset que sólo contenga a los lirios grandes, los de las especies virginica y versicolor.

iris2 <- iris %>% filter(Species != "setosa") #- me quedo con los lirios que no son de clase "setosa"

Para después hacer el gráfico con cualquiera de las 2 expresiones siguientes. Prefiero la segunda porque hay que teclear/escribir menos, pero puede que sea más didáctica la primera.

ggplot() + geom_point(data = iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_smooth(data = iris2, aes(Sepal.Length, Petal.Length) ) 

ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(aes(color = Species)) + geom_smooth(data = iris2)


Otro ejemplo más: ¿y si quisiéramos que las 2 especies grandes se representen con el mismo color? Hay varias soluciones, una de las más marcianas es la que propongo abajo. Es una solución rara, pero creo que os ayudará a entender ggplot2

Primero voy a crear un nuevo data.frame sólo con las observaciones de los lirios pequeños, los de la clase setosa.

iris_setosa <- iris %>% filter(Species == "setosa") #- me quedo con los lirios pequeños, los de clase "setosa"
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_point(data = iris_setosa, aes(color = Species)) + geom_smooth(data = iris2,aes(Sepal.Length, Petal.Length) )

Otra solución, quizás más lógica, consiste en primero agrupar las 2 especies de lirios grandes (versicolor y virginica) en una sola clase.

iris_solo_2_clases <- iris %>% mutate(Species_2 = ifelse(Species %in% c("versicolor", "virginica"), "versi_virgi", "setosa"))

Para después hacer el gráfico. Además el gráfico lo podemos hacer al menos de 2 maneras, la segunda mucho mejor, la primera expresión es un poco enrevesada:

ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_point(data = iris_setosa, aes(color = Species)) + geom_smooth(data = iris_solo_2_clases,aes(Sepal.Length, Petal.Length, color = Species_2) )

ggplot(iris_solo_2_clases, aes(Sepal.Length, Petal.Length, color = Species_2)) + geom_point() + geom_smooth()

Como veis, en ggplot2 hay varias maneras de hacer el mismo gráfico. Esto al principio puede abrumar/molestar, pero muestra la flexibilidad de la sintaxis.

Para ir acabando con la “filosofía”/sintaxis/gramática de ggplot2 intenta imaginar que gráficos hacen las 6 expresiones de más abajo.

Si no puedes, recuerda que siempre puedes ejecutar las ordenes en el ordenador. Fíjate sobre todo en la tercera expresión

ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point(color = "purple") + geom_smooth()

ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth(color = "brown")
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth(aes(color = Species))
ggplot(iris) + geom_point(aes(Sepal.Length, Petal.Length, color = Species) ) + geom_smooth(aes(Sepal.Length, Petal.Length, color = Species))


En la tercera expresión se especifica color = Species dentro de aes() en ggplot(), así que, de momento, todos los geoms del gráfico deberían diferenciar por especies de lirios usando el color, PERO, después se vuelve a usar el argumento color dentro de geom_point(), pero fíjate que no va dentro de de aes(), va fuera. Concretamente hacemos lo siguiente: geom_point(color = "purple"); es decir, para la capa de puntos, y solo para la capa de puntos que se crea con geom_point(), estamos asociando la estética color, no a una variable, sino a un color fijo. Sin embargo, para la otra capa del gráfico, la que resulta de usar geom_smooth() sigue siendo valido que la estética color está asociada a la variable Species.

Un detalle: imagina que en un gráfico en el que has fijado 3 estéticas dentro de ggplot(aes()). En principio las 3 estéticas afectarán a todos los geom_xx() que utilices en tu gráfico, pero si quisieras que, por ejemplo, la estética color no afectase a un geom concreto, podrías hacer lo siguiente: geom_xx(aes(color = NULL)).

Como puedes imaginar, aún tenemos que ver más elementos de ggplot2. Como mínimo los títulos y leyendas, los ejes, el tema, coordenadas, etc… vamos a ello!!


3. Elementos de un ggplot

Ya hemos presentado los principales elementos de los gráficos hechos con ggplot2, los que tienen que ver con la representación de las variables. Pero es evidente que un gráfico tiene muchos más elementos, y lógicamente hay que conocerlos un poco para poder ajustar los gráficos a nuestras necesidades y mejorar la calidad de nuestros gráficos.

Ejemplos de otros elementos son: títulos del gráfico y de los ejes, “theme” del gráfico, small multiples o faceting, anotaciones etc…

En está sección iremos más rápido. Se presentarán solamente algunos ejemplos, conceptos y/o aclaraciones. Si necesitas profundizar más en estos elementos, puedes acudir a la referencia oficial de ggplot2 o al bookdown de ggplot2.

Ya dijimos que los gráficos ggplot se componen de capas o layers. Para nosotros, hasta ahora, una capa estaba compuesta de 3 elementos:

  • un conjunto de datos

  • un conjunto de variables mapeadas con aes() a propiedades estéticas

  • una geometría, con geom_xx()

Es evidente que en todos los geoms no se pueden especificar todas las características estéticas. Por ejemplo si usas geom_point no podrás especificar la anchura o el tipo de las lineas, porque no estás usando lineas sino puntos. Para ver que estéticas admite cada geom tendrás que mirar la ayuda de cada geom. Al final de este post tienen un gráfico interactivo con el que se puede ver fácilmente que características estéticas admite cada geom. Por ejemplo geom_bar(), que sirve para hacer gráficos de barras, no admite mappear variables al eje Y, ya que en el eje Y se visualizan/mapean las frecuencias absolutas o relativas de la variable que se representa en el eje X.


Esto es lo básico que hay que saber, pero en realidad, una capa necesita de dos elementos más: una stat (o transformación estadística) y una posición. Estos dos últimos elementos son necesarios pero la verdad es que podríamos seguir haciendo gráficos con ggplot2 sin conocerlos. ¿Por qué? Pues porque si en una capa no los especificamos, lo hace ggplot2 por nosotros. Lo ha estado haciendo hasta ahora en todos los gráficos que llevamos hechos. Pero claro, saber como utilizar estos elementos nos dará más flexibilidad a la hora de hacer ggplots.

Generalmente las capas se van añadiendo con la familia de funciones geom_xx(), PERO también se pueden añadir capas con otra familia de funciones stat_xx().

Aparte de estos cinco elementos (datos, aes(), geom, stat y posición) los gráficos ggplot pueden tener más elementos. Veámoslos uno a uno.


3.1 Títulos del gráfico

Es evidente que un gráfico para ser efectivo y mostrar su mensaje con claridad debe tener un título y/o subtítulo ilustrativo y debe mostrar información relevante sobre que variables se grafican los ejes X e Y. Este tipo de elementos pueden modificarse de varias maneras, pero nos centraremos en la función labs().

Fíjate que con la función labs(), de labels, podemos cambiar los títulos del gráfico, de los ejes y también de las leyendas.

En los títulos (tanto del gráfico, como de los ejes y leyendas) también se pueden cambiar otras características; por ejemplo, cambiar el tamaño, la fuente o el color, pero eso será tarea de otra función de ggplot2: del grupo de funciones theme_(). Pero el tema o theme de los gráficos lo veremos en el siguiente apartado.

Tomemos el siguiente gráfico como referencia y sobre él iremos añadiendo elementos:

p <- ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point()
p

Con la función labs() podemos añadirle un título, subtitulo, pie de gráfico o caption. También podemos cambiar el título de los ejes X e Y, así como también el titulo de la leyenda para color, o para otras estéticas que utilicemos en el gráfico.

Es suficiente con ver un ejemplo:

p + labs(title = "Gráfico 1: Longitud del sépalo frente al pétalo",
       subtitle = "(diferenciando por especie de lirio)",
       caption = "Datos provenientes del Iris dataset",
       x = "Longitud del sépalo",
       y = "Longitud del pétalo",
       color = "Especie de lirio")

Si quisieras eliminar completamente los títulos del eje X podrías hacerlo en el anterior chunk fijando x = NULL dentro de la función labs().

En lugar de usar la función labs(), también podemos utilizar las funciones auxiliares xlab() e ylab()

p + labs(color = NULL, x = NULL)  #- borra el título de la leyenda y del eje X
p + xlab(NULL) + ylab(NULL)       #- elimina títulos de los ejes X e Y

3.2 Themes

Themes control the display of all non-data elements of the plot. You can override all settings with a complete theme like theme_bw(), or choose to tweak individual settings by using theme() and the element_ functions. Use theme_set() to modify the active theme, affecting all future plots.

Para cambiar detalles de la apariencia del gráfico como el tamaño, fuentes y color de los títulos, pero también de los puntos, las lineas, el fondo del gráfico, la apariencia de las grid-lines, el lugar para las leyendas, etc… etc… contamos con las “funciones de tema”; todas ellas comienzan con theme_()

En general con las funciones theme_() podemos cambiar/ajustar cualquier elemento del gráfico, con la excepción de la propia representación de los datos (ya sabemos que esto se hacen con las funciones geom_()). Estos elementos afectan a la apariencia y detalles del gráfico, pero no a la relación entre variables que se muestra realmente en el gráfico.

Para empezar a entender que hacen las funciones relacionadas con el theme, señalar que ggplot2 incorpora un conjunto de “temas” que podemos utilizar para cambiar la apariencia del gráfico a nuestro gusto. Puedes verlos todos aquí. El tema que usa por defecto ggplot2 es theme_gray(). Veamos a los themes en acción:

p + theme_gray()   #- tema por defecto
p + theme_light()
p + theme_dark()
p + theme_classic()
p + theme_minimal()
p + theme_void()

El paquete de R ggthemes incorpora una amplia lista de temas adicionales, algunos de ellos tratan de replicar el estilo de corporaciones famosas como The Economist o Stata. En el tutorial no se ven bien los gráficos porque los he hecho pequeñitos, pero prueba a hacerlos tú mismo y verás que son good-looking. Veamos algunos:

library(ggthemes)
p + theme_economist()   
p + theme_fivethirtyeight()
p + theme_stata()
p + theme_solarized()

También podemos definir un tema propio para que el gráfico se ajuste los más posible a nuestras preferencias.

# define custom theme
my_theme <- theme(axis.text.x = 
                  element_text(colour = "grey20", size = 12, angle = 90, hjust = 0.5, vjust = 0.5) ,                   axis.text.y = element_text(colour = "grey20", size = 12) ,
                  text = element_text(size = 16))
p + my_theme

Se puede fijar el tema/theme de los gráficos con la función theme_set(). Por ejemplo:

theme_set(theme_minimal())  #- un tema concreto
theme_set(theme_minimal() + 
    theme(axis.text.x=element_blank(), axis.ticks.x=element_blank())) #- un tema modificando algunas opciones, que ele eje x no muestre ticks ni escalas

Si quieres volver al theme por defecto:

theme_set(theme_gray())

Ejemplos de algunos elementos cuya apariencia que se pueden cambiar con theme()

p + theme(legend.position = "none")            #- que no aparezca leyenda
p + theme(legend.position = "bottom")          #- leyenda abajo
p + theme(legend.direction = "horizontal")     #- leyenda horizontal!!
p + theme(legend.title = element_text(size = 22))     #- título de la leyenda a 22
p + theme(legend.key.size = unit(2.4, "cm"))          #- tamaño de los cuadros de la leyenda


p + theme(text = element_text(size = 20, face = "bold"))         #- cambiar el tamaño de todos los elementos de texto
p + theme(text = element_text(face = "bold"))                    #- pone en negrita todos los elementos de texto

p + theme(axis.text.x = element_text(colour = "pink", size = 12, angle = 90, hjust = 0.5, vjust = 0.5)) # apariencia de la escala del eje x

p + theme(axis.title.y = element_text(size=25, angle = 45)) #- tamaño y angulo del texto del eje Y

p + theme(plot.subtitle = element_text(hjust = 3))   #- posición horizontal del subtitulo (si lo tuviese)
  
p + theme(plot.caption = element_text(hjust = 3))    #- posición vertical del pie de gráfico (si lo tuviese)

p + theme(panel.background = element_rect(fill = "green", colour = "pink", linetype = "longdash", size = 3.5))
p + theme(panel.background = element_blank())
p + theme(panel.background = NULL)


p + theme(plot.background = element_rect(fill = "pink", colour = "purple", linetype = "dotted", size = 7))

Si quieres ver todos las características que controla y que por tanto puedes modificar con theme(), usa la ayuda de la función theme() o ejecuta en R args(theme). Aunque casi mejor verlas en esta infografía de Henry Wang o en este post de Isabella Benabaye con las opciones que suele cambiar ella.

En general, si quieres cambiar algún elemento de un ggplot, has de hacer theme(elemento = element_text()). Si quieres eliminar por completo algún elemento del gráfico, por ejemplo las grid-lines del gráfico, harías theme(panel.grid = element_blank()).

Evidentemente todo esto es imposible de aprender, sólo tienes que saber que cualquier elemento del gráfico se puede cambiar y tienes que saber buscar e interpretar la ayuda.

Colores

Se poco de colores, pero claro si quieres cambiar la apariencia de los gráficos, has de saber los colores de R, así que:

  • Aquí tienes una guía para elegir color. Si solo quieres ver la lista de nombres de los colores en R ejecuta: aa <- as.data.frame(colours())

  • Si sabes el nombre del color que quieres, aquí, podrás buscarlo y ver su color y su codificación en RGB y Hex.

  • También es interesante el paquete paleteer que agrupa un conjunto amplio de paletas de colores para usar en R.


XKCD theme

Por último, no sé si conocéis el webcomic XKCD. Pues en R también hay un paquete y un theme para hacer gráficos al estilo XKCD. Es el paquete xkcd cuyo autor es Emilio Torres-Manzanera de la Universidad de Oviedo. Aquí podéis ver algunos gráficos hechos con este estilo en R.

Intenté hacer un gráfico con su theme, pero desafortunadamente no me salió; pero justo al día siguiente vi este tweet que hace algo parecido con datos de los Simpsons y su código sí me ha funcionado, además simula/construye el estilo XKCD desde cero.

Además, después vi que Evangelyne Reinolds hizo esta maravilla. Lo haremos en clase?! En este post puedes encontrar el código para reproducir una de las historias o viñetas de XKCD.


3.3 Small multiples o Facetting

El sistema gráfico de ggplot2 incorpora una técnica especial llamada “faceting” que permite dividir un gráfico en múltiples gráficos. Cada uno de esos múltiples gráficos se realiza sólo para las observaciones de una de los valores de una variable categórica (o factor) incluido en el conjunto de datos. Es más fácil hacerlo que explicarlo/escribirlo.

Por ejemplo, en iris tenemos la variable Species, que es categórica. Lo que se hace con el “facetting” es dividir el dataset en grupos y hacer el mismo gráfico para cada uno de los grupos. Los grupos se van a definir en función de los valores de la variable Species. Recuerda que hay tres tipos o especies de lirios.

Para hacer un “facetting graph” podemos usar las funciones facet_wrap() y facet_grid().

Por ejemplo, con la función facet_grid() puedes elegir entre hacer los small multiples por filas o por columnas. Empecemos haciendo un facetting por columnas. Además, con facet_grid() se pueden usar varias sintaxis, pero la que aparece en la cheatsheet actual de ggplot2 y, por tanto, la recomendada es las que ves en la segunda linea:

#p + facet_grid( . ~ Species)                # old sintaxis
p + facet_grid(cols = vars(Species))         # gráficos x columnas, separando por valores de 'Species'

Ahora por filas:

p + facet_grid(rows = vars(Species))         # gráficos x filas

También podemos utilizar la función facet_wrap(). Esta función reparte los small multiples en una rejilla con forma de matriz.

p + facet_wrap(vars(Species), nrow = 2, ncol = 2)        # graf x filas y columnas

Si en el dataset hubiesen dos variables categóricas podríamos hacer que una de ellas sirviese para llenar las filas y la otra las columnas.

Como iris sólo tiene una variable categórica (Species) vamos a discretizar una de las variables continuas. Por ejemplo la anchura del pétalo, crearemos una nueva variable dividiendo las observaciones de Petal.Width en 2 categorías, por encima y por debajo de la media de su media. Además lo vamos a hacer con R-base y con dplyr::ntile(). Seguro que hay mejores formas, por ejemplo

Con dplyr::ntile()

iris <- iris %>% mutate(new_variable = ntile(Petal.Width, 2)) 

Con R-base y la función cut():

iris <- iris
iris$new_variable <- cut(iris$Petal.Width, 
                   breaks = c(-Inf, mean(iris$Petal.Width), Inf), 
                   labels = c("debajo-media", "arriba-media"))

Ahora ya tenemos dos variable discreta y podemos hacer que facet_grid() utilice una variable para llenar filas y otra para columnas. Se puede especificar de dos maneras

ggplot(iris) + geom_point( aes(Sepal.Length, Petal.Length, color = Species)) +
facet_grid(rows = vars(new_variable), cols = vars(Species))        # graf x filas y columnas
ggplot(iris) + geom_point( aes(Sepal.Length, Petal.Length, color = Species)) +
facet_grid(new_variable ~ Species)     

Como vemos, los lirios de la clase setosa siempre tiene el ancho de su pétalo por debajo de la media, y los virginica siempre están por encima de la media.

Ejes de los small multiples

Podemos ajustar las escalas de los ejes para que sean comunes para cada small multiple (la opción por defecto) o dejar que las escalas de cada gráfico varíen en función del rango de los datos representados:

p + facet_grid(rows = vars(Species))    #- escalas comunes
p + facet_grid(rows = vars(Species), scales = "free")   #- las escalas de cada small pueden variar
p + facet_grid(rows = vars(Species), scales = "free_y") #- solo dejamos libre/variar la escala del eje y

Solo muestro el resultado de la segunda expresión:

Un truquito: el argumento margin en ggplot2::facet_grid() añade margenes a los small multiples facilitando la visualización. Además añade un nuevo small con todas las observaciones.

Puedes probarlo tú mismo corriendo lo siguiente:

p + facet_grid(rows = vars(Species),  margins = TRUE)   

Otro truco, esta vez avanzado: Un gist para poner labels a los smalls multiples.


3.4 Anotaciones

Annotations are a special type of layer that don’t inherit global settings from the plot. They are used to add fixed reference data to plots.

Las anotaciones en los gráficos permiten resaltar algún fenómeno u observación de interés, y son importantes a la hora de contar historias (storytelling) con los gráficos y visualizaciones.

En el entorno ggplot podemos hacer anotaciones en nuestro gráficos de varias maneras, por ejemplo con annotate(). Aunque conceptualmente, como señala Hadley, las anotaciones son metadatos, desde el punto de vista práctico se usan los mismas funciones o geoms para manipularlos.

También existen algunas funciones auxiliares en ggplot2 y en paquetes específicos para hacer anotaciones en gráficos ggplot. Por ejemplo, cuando se hacen anotaciones en un gráfico de puntos es fácil que las anotaciones caigan unas encima de otras, el paquete ggrepel permite aliviar este problema.

Utilicemos la función annotate(). Por ejemplo, el siguiente chunk hace algunas anotaciones sin mucho sentido pero fáciles de entender:

Por ejemplo, el siguiente chunk usa annotate() para hacer algunas anotaciones sin mucho sentido, pero fáciles de entender:

p + annotate(geom = "text", x = 6, y = 2, label = "Una anotación", size = 5) +
    annotate("rect", xmin = 6, xmax = 7,ymin = -Inf, ymax = Inf, alpha = 0.2, fill = "pink") + 
    annotate("segment", x = 5, xend = 7, y = 6, yend = 8, colour = "blue") 


Anotaciones de texto en las observaciones

Agregar texto a un gráfico es una de las formas más comunes de anotación. Por ejemplo, para señalizar e identificar observaciones anómalas. Sin embargo, como señala Hadley, añadir texto no es fácil por la forma en la que R maneja las fuentes.

La función principal para el etiquetado de gráficos es geom_text(). Por ejemplo:

p + geom_text(aes(label = Species))

También podíamos haber añadido el valor de la longitud del pétalo.

p + geom_text(aes(label = Petal.Length))

Hemos añadido a cada observación un texto, proveniente de alguna de las variables de iris. Este gráfico no es muy útil, pero la técnica sí. Imagina que queremos marcar los lirios 45 y 1407. Podemos hacer lo siguiente:

#- seleccionamos los lirios más grandes de cada especie 
iris_max <- iris %>% group_by(Species) %>% slice_max(Petal.Length, n = 1)

p + 
 geom_text(data = iris_max, aes(label = Species), color = "black", size = 3)

Podemos ajustar la posición y tamaño del texto, etc.. Por ejemplo, podemos cambiar la alineación de las anotaciones con con hjust(“left”, “center”, “right”, “inward”, “outward”) y vjust (“bottom”, “middle”, “top”, “inward”, “outward”).


Lineas

Podemos añadir lineas:

p + geom_vline(xintercept = 6)
p + geom_hline(yintercept = 5, size = 1.7, colour = "purple", linetype = "dashed")
p + geom_abline(intercept = 0.7, slope = 0.4, size = 1.9, colour = "steelblue")


3.5 Cambiando los límites de los ejes

Si quieres modificar el recorrido de los ejes, los “límites” de los ejes, puedes usar lims(). Para los ejes X e Y hay dos funciones auxiliares: xlim() e ylim().

p + lims(color = c("setosa"), x = c(NA,6), y = c(1,8))

p + xlim(c (4, 6)) + ylim(c(NA, 5)) 

Se puede hasta dar la vuelta a los ejes

p + xlim(c (7, 3)) + ylim(c(NA, 5)) 

Los límites o dominio del gráfico suelen obtenerse automáticamente de los datos, pero, otra vez according to Hadley, hay dos razones por las que podemos estar interesados en cambiar los límites del gráfico:

  1. centrarnos en una región especifica del gráfico

  2. aumentar los límites para que varios gráficos ajusten sus escalas.


Por ejemplo, si después de hacer un gráfico quieres centrarte sólo en una parte; es decir, hacer un zoom sobre una parte del gráfico, tenemos 2 alternativas:

  1. Borrar los puntos que caen fuera de los limites de lo que quieras que se visualice (si en una escala continua solo quieres usar un límite pon NA):
p + xlim(c(4, 5)) + ylim(c(NA, 5)) #- cuidado, se pueden borrar observaciones

Con este enfoque tienes que tener cuidado, ya que si por ejemplo después utilizar alguna transformación estadística como por ejemplo geom_smooth(), las observaciones eliminadas al ajustar los límites no entrarán en el cálculo estadístico.

p + geom_smooth(color = "purple")
p + geom_smooth(color = "purple") + xlim(c(4, 5.7)) + ylim(c(1.5, 5))   # deletes points

  1. Cambiar los límites de los ejes X e Y haciendo un zoom en la región de interés pero sin eliminar puntos. Esto lo conseguimos con coord_cartesian().
p + geom_smooth(color = "purple")
p + geom_smooth(color = "purple") + coord_cartesian(xlim = c(4, 5.7), ylim = c(1.5, 5))


3.6 Escalas

Scales control the details of how data values are translated to visual properties. Override the default scales to tweak details like the axis labels or legend keys, or to use a completely different translation from data to aesthetic. labs() and lims() are convenient helpers for the most common adjustments to the labels and limits.

Las escalas permiten leer/interpretar un gráfico; permiten interpretar los elementos geométricos (por ejemplo en nuestro gráfico, los puntos) en función de los valores originales de las observaciones. Las escalas son un elemento más de los gráficos ggplot y se producen/controlan con la familia de funciones scale_xx()

En ggplot2 las escalas o guías se producen automáticamente, no vemos que hagamos nada, pero under the hood se están fijando con la familia de funciones scale_xx() que son las que controlan como se mapean los valores de las variables con las propiedades estéticas de nuestro gráfico (por ejemplo el eje X) de forma que podamos interpretar la posición de los distintos puntos mirando las escalas. Las escalas también construyen los elementos que permiten leer/interpretar los gráficos: los ejes y las leyendas.

Como ggplot2 hace el mapeo y genera las escalas y leyendas automáticamente, en la práctica podemos hacer gráficos sin saber como funcionan y, por tanto, sin saber manipular este elemento de un gráfico ggplot. Pero si aprendemos a manipular las escalas, esto nos dará más flexibilidad a la hora de utilizar ggplot2.

En muchos tipos de datos es importante pararse a pensar cual es la mejor escala para representar las variables. Quizás sea conveniente cambiar la escala de un eje para distribuir mejor las observaciones en el espacio, o para interpretar mejor las variaciones entre observaciones; por ejemplo la escala logarítmica o en porcentajes son a veces más apropiadas que las escalas originales.

En realidad, para cada par variable/estética representada en un gráfico ggplot es necesaria una escala, y tendría que fijarse con una de las funciones de la familia scale_xx(). Realmente cuando hacemos este gráfico, en el que asociamos 3 variables a 3 propiedades estéticas con aes(), se necesitaría especificar las escalas de las 3 variables:

p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) +  geom_point(aes (color = Species)) 

Bien, pero entonces ¿por qué no lo hacemos?, ¿por qué no especificamos las escalas? Pues porque lo hace ggplot2 por nosotros. En realidad cuando ejecutamos la expresión anterior, realmente se está haciendo lo siguiente:

ggplot(iris, aes(Sepal.Length, Petal.Length)) +   geom_point(aes (color = Species)) +
  scale_x_continuous() + 
  scale_y_continuous() + 
  scale_color_discrete()

Es decir, ggplot2 asigna a cada variable una escala, a las variables continuas les asigna una escala continua y a las categóricas una escala discreta. PERO, si queremos, si lo consideramos apropiado podríamos cambiar la escala. Por ejemplo:

p + scale_y_reverse() + scale_colour_grey()
p + scale_x_sqrt() + scale_y_log10()
p + scale_x_continuous(trans = "log")
p + scale_color_brewer(palette = "Dark2")

Solo represento la primera transformación, en la que se da la vuelta a la escala del eje Y y el color, asociado a la variable Species, pasa a escala de grises:


Labels de los ejes

También se pueden modificar lo que vemos en los escalas. Antes vamos a modificar los títulos de los ejes y leyendas.

p <- p + labs(x = "Eje X", y = "Eje Y", color = "Leyenda\n para el color")

De momento la escala del eje X varia aproximadamente de 3 a 8. Los títulos de la escala del eje X sólo muestra los valores 5, 6, 7 y 8. Vamos a modificar “el texto”, los números que se ven y que sirven de guía para la escala del eje X:

p + scale_x_continuous(breaks = seq(3, 10, 0.5), limits = c(3, 10)) 

En el eje Y se ven los números 2, 4 y 6. Cambiemos los labels de su escala (no del eje Y, sino de la escala del eje Y):

p + scale_y_continuous(breaks = seq(0, 12, 0.25),  label = scales::dollar) 

También se pueden modificar los de la leyenda para el color:

p + scale_color_manual(values = c("purple", "pink", "red2"), name = "Especies\n de lirios")

Si hubiese usado una variable discreta asociada a la estética “shape”, tendríamos que usar scale_shape_discrete(), si la variable asociada a shape fuese continua: scale_shape_continuous()

¿Y si hubiésemos usado una variable continua para la estética “fill”? Pues scale_fill_continuous()


Familia de funciones de escala

• scale_continuous()
• scale
_discrete()
• scale_ordinal()
• scale
_manual()
• scale_{color/fill}brewer()
• scale
{color/fill}distiller()
• scale
{color/fill}_gradient()


3.7 Stats (transformaciones estadísticas)

Puede leerse en la web de ggplot2, concretamente aquí lo siguiente:

A layer combines data, aesthetic mapping, a geom (geometric object), a stat (statistical transformation), and a position adjustment. Typically, you will create layers using a geom_ function

PERO

A handful of layers are more easily specified with a stat_ function, drawing attention to the statistical transformation rather than the visual appearance. The computed variables can be mapped using stat().

Algunos gráficos, como los gráficos de puntos, no requieren del uso de transformaciones estadísticas de las observaciones, pero otros gráficos como rectas o curvas de predicción o como los boxplots o diagramas de caja, sí que las necesitan 8. Podemos usar transformaciones estadísticas en gráficos ggplot con la familia de funciones stat_xx()

Por ejemplo, cuando se hace un diagrama de caja o boxplot, no se representan las observaciones originales, sino que se muestran 5 estadísticos resumen de la distribución de los datos; es decir, se utiliza una transformación estadística. Cuando usábamos geom_smoth() tampoco representábamos con él los datos originales, sino una transformación estadística de estos. Concretamente la transformación estadística que utiliza geom_smoth() es genéricamente un “smoother”, calcula mediante una rolling-windows la media de y, condicionada a x.

Cada función geom_xx() que utilicemos, en realidad necesita de un stat_xx(), entonces ¿por qué nunca lo hemos usado/especificado nosotros? Con ggplot2 la razón es casi siempre la misma: porque under the hood ggplot2 hace muchas cosas por nosotros. En concreto, cada vez que usamos un geom_xx() en realidad ggplot2 está fijando una transformación estadística por defecto por nosotros. Ggplot es un sistema muy completo, pero aún así, una vez lo entiendes, hacer gráficos con el es relativamente fácil y rápido porque muchas de sus opciones opciones no hace falta especificarlas directamente.

Por ejemplo, ¿cual es la transformación estadística que se usa por defecto en geom_point()? Ninguna, bueno, en realidad usa stat = "identity", pero como lo especifica ggplot2 automáticamente, nosotros no nos damos cuenta.

Cuando hacíamos este gráfico:

ggplot(iris, aes(Petal.Length, Sepal.Length)) + geom_point() 

En realidad estábamos haciendo

ggplot(iris, aes(Petal.Length, Sepal.Length)) + geom_point(stat = "identity")

¿Qué transformaciones estadísticas podemos hacer cuando usemos geom_point()? Por ejemplo, geom_point(stat = "unique") sólo representaría las observaciones únicas o NO repetidas. En este caso creo que iris no tiene observaciones repetidas, así si ejecutáis la instrucción de abajo se seguirán visualizando los 150 lirios.

ggplot(iris, aes(Petal.Length, Sepal.Length)) + geom_point(stat = "unique") #- dejaría solo observaciones no repetidas

Podemos consultar las opciones por defecto completas de geom_point() aquí

Cada geom_xx() tiene un default statistic, pero podemos cambiarlo y especificar otra stat para adaptarlo a nuestras necesidades. Por ejemplo, the default statistic for geom_bar() is stat_bin() pero podemos usar otras stat_xx. Otra vez parece un trabalenguas, pero cuando lo entiendes es relativamente sencillo.

Por ejemplo, en nuestro gráfico de puntos, podemos usar otras transformaciones estadísticas, una de las que más sentido tiene es calcular medias móviles con un método de alisado (smoother)

p <- ggplot(iris, aes(Petal.Length, Sepal.Length, color = Species)) 

p + geom_point(stat = "identity")

p + geom_point(stat = "smooth", method = "auto")

Aunque en este caso es bastante más fácil hacerlo con:

p + geom_point() + geom_smooth()
p + geom_point() + stat_smooth()

p + geom_point() + stat_smooth(method = "lm",   se = FALSE,  size = 1)
p + geom_point() + geom_smooth(method = "lm",   se = FALSE,  size = 1)

p + geom_point() + geom_smooth(method = "lm", col = "#C42126",  se = FALSE,  size = 1)


Algunas transformaciones estadísticas útiles y en qué geoms están disponibles:

- stat_bin(): geom_bar(), geom_freqpoly(), geom_histogram()  
- stat_bin2d(): geom_bin2d()  
- stat_bindot(): geom_dotplot()  
- stat_binhex(): geom_hex()   
- stat_boxplot(): geom_boxplot()    
- stat_contour(): geom_contour()  
- stat_quantile(): geom_quantile()   
- stat_smooth(): geom_smooth()  
- stat_sum(): geom_count()   

Es raro que tengamos que usar estas funciones stats_xx() directamente, pero si quieres ver que hacen exactamente conviene consultar la documentación para ver qué hace y cómo se aplica exactamente cada transformación estadística a los datos.

Hay otras funciones stat_xx() que no se pueden utilizar con las funciones geom_xx():

- stat_ecdf(): compute a empirical cumulative distribution plot.  
- stat_function(): compute y values from a function of x values.  
- stat_summary(): summarise y values at distinct x values.  
- stat_summary2d(), stat_summary_hex(): summarise binned values.  
- stat_qq(): perform calculations for a quantile-quantile plot.  
- stat_spoke(): convert angle and radius to position.  
- stat_unique(): remove duplicated rows.  


Algunos ejemplos

Veamos algunos ejemplos útiles:

  1. En un diagrama de caja mostrar la media:

Queremos que la media se represente como un punto, entonces usamos geom_point() pero no queremos representar los valores originales, sino la media, así que dentro de geom usamos la opción stat = summary

ggplot(iris, aes(Species, Sepal.Length)) + 
  geom_boxplot() + 
  geom_point(stat = "summary", fun.y = "mean", colour = "red", size = 4)

Se conseguiría los mismo usando directamente la función stat_summary() con la opción geom = “point”. Sí, en ggplot2 las cosas se pueden hacer de varias maneras!!

ggplot(iris, aes(Species, Sepal.Length)) + 
  geom_boxplot() + 
  stat_summary(geom = "point", fun.y = "mean", colour = "red", size = 4)
  1. Otro ejemplo: el default stat de geom_histogram es stat = “bin”, mostrandonos el número de observaciones en cada bin. Si queremos que nos muestre frecuencias relatívas al grupo o bin más numeroso:
ggplot(iris, aes(Sepal.Length)) + geom_histogram() 

ggplot(iris, aes(Sepal.Length)) + geom_histogram(aes(y = stat(count / max(count))))


Bonus: Con stat_function() podemos dibujar curvas de densidad:

df <- tibble(x = c(-20, 20))
  
ggplot(df, aes(x = x)) +
stat_function(fun = dnorm, args = list(mean = 0, sd = 5), color = "black") +
stat_function(fun = dnorm, args = list(mean = 0, sd = 1), color = "red") +
stat_function(fun = dnorm, args = list(mean = 0, sd = 3), color = "blue")


3.8 Position adjustments

All layers have a position adjustment that resolves overlapping geoms. Override the default by using the position argument to the geom_ or stat_ function.

Los ajustes de posición afectan a la posición de los elementos de una capa. Los gráficos en los que más se utilizan los ajustes de posición son los gráficos de barras. Su posición por defecto es position = “stack”. Se pueden cambiar con el argumento geom_bar(position = “xxxx”), aunque si usas las funcionesposition_xx()` tienes más flexibilidad:

ggplot(iris , aes(Species)) + geom_bar()
ggplot(mtcars, aes(cyl)) +  geom_bar()

Para poder visualizar gráficos de barras con 2 variables,tenemos que usar otro dataset: mtcars

ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar() #- pos
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "fill")
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "dodge")
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = position_dodge2(preserve = "single"))


Por ejemplo, podemos modificar la posición por defecto de nuestro gráfico de puntos con el iris dataset usando dos enfoques:

ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_point(position = "jitter", color = "pink") 
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_jitter( color = "pink") 

geom_jitter(), o alternativamente geom_point(position = "jitter") cambia la posición original de los datos añadiendo un poco de ruido, haciendo que se desplacen un poco. Esta técnica se usa muchos cuando hay muchos datos similares (overplotting).


3.9 Coordenadas

The coordinate system determines how the x and y aesthetics combine to position elements in the plot. The default coordinate system is Cartesian (coord_cartesian()), which can be tweaked with coord_map(), coord_fixed(), coord_flip(), and coord_trans(), or completely replaced with coord_polar()

Por ejemplo: coord_fixed(). En nuestro gráfico, tanto la longitud del pétalo como del sépalo se miden en las mismas unidades, así que su ratio implícito es 1 a 1. Cambiemos el ratio de las coordenadas con coord_fixed()

p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() 

p + coord_fixed(ratio = 1/3)
p + coord_fixed(ratio = 3/1)


4. Combinando gráficos

La técnica del faceting es una fantástica herramienta para dividir un gráfico en varios, en principio en función de una variable categórica, si queremos usar una variable continua primero habría que discretizarla. PERO, a veces lo que interesa es crear una figura compuesta de varios gráficos diferentes. Esto no es un elemento más de ggplot2 es una operación que hacemos sobre un grupo de varios gráficos.

Podemos hacerlo con varios paquetes:

  • con el paquete gridExtra y su función grid.arrange()
library(gridExtra)
p1 <- ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point()
p2 <- ggplot(iris)+ aes(Species, Sepal.Length) + geom_boxplot()

grid.arrange(p1, p2, ncol = 2, widths = c(6.5, 3.5))

Además de los argumentos ncol, nrow y widths, con gridExtra se pueden hacer composiciones más complejas

library(patchwork)
p1 + p2 + plot_layout(ncol = 2)

  • con el paquete cowplot. Este paquete también se puede utilizar para hacer anotaciones o para incorporar imágenes a nuestros gráficos
library(cowplot)
ggdraw(p1) + draw_image(here::here("./imagenes/Captura.JPG"), 
               x = 1, y = 1, hjust = 1, vjust = 1, width = 0.33, height = 0.42)


5. Exportando gráficos

La mayoría de las veces, cuando creamos un gráfico lo vemos inmediatamente, pero también podemos asignarle un nombre y manipularlo más adelante.

p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point()
p + geom_line()

Una vez que tienes el gráfico guardado como un objeto en el R environment puedes hacer varias cosas con él:

  1. verlo en la pantalla con print() o llamándolo con “su nombre”.

  2. guardarlo en un fichero en diferentes formatos. Piensa que estamos guardando el gráfico, la imagen, la representación del gráfico, no el objeto R.

    • Podemos usar la “Export Tab” en el Plot Pane de Rstudio. Lo grabará en baja resolución. También podemos cambiar las dimensiones (anchura y altura) del gráfico. Si vamos a utilizar el gráfico en Word es conveniente guardar el gráfico como Metafile.

    • Como alternativa podemos usar la función ggsave() que, ademas, nos permite cambiar el tamaño y la resolución del gráfico con los argumentos width, height y dpi. Nota: Los parámetros width and height también determinan el tamaño de la fuente del gráfico guardado.

ggsave("./graf_out/my_grafico_chulo.png", p, width = 15, height = 10)
ggsave("filename.png", plot = my_plot, width = 8, height = 6, units = "in", dpi = "retina")

# Tb funciona para figuras compuestas de varios gráficos
grafico_combinado <- grid.arrange(p1, p2, ncol = 2, widths = c(6, 4))
ggsave("fig_output/my_combo_plot.png", grafico_combinado, width = 10, dpi = 300)
  • Finalmente, podemos guardar una copia completa del gráfico, no de su representación visual, sino del objeto R con saveRDS(), para luego leerlo con readRDS(). Aunque, ya que nos ponemos, es mejor guardar el script que genera el objeto. Sólo tendría sentido si fuese muy costoso, por ejemplo en términos de tiempo, reproducir el gráfico.
saveRDS(p, "plot.rds")
my_valioso_grafico <- readRDS("plot.rds")



6. Tipos de gráficos

En está sección presentaremos algunos ejemplos de algunos de los gráficos más utilizados en el análisis de datos. Puedes ver listados más completos en:


6.1 Histogramas

Se utilizan para mostrar la distribución de UNA variable continua, por ejemplo la longitud del sépalo (Sepal.Length).

Para hacer histogramas en ggplot2 se utiliza geom_histogram y, a veces, geom_freqpoly(). Los dos geoms trabajan de la misma manera, dividen la variable x en intervalos y cuentan las observaciones en cada intervalo, para mostrarlas en el eje Y. La diferencia entre ellos es que geom_histogram utiliza barras para mostrar el número de observaciones o frecuencia absoluta, mientras que geom_freqpoly() usa lineas.

ggplot(iris, aes(Sepal.Length)) + geom_histogram() 

Como ves, lo que hace un histograma es dividir el eje X en intervalos o “bins” y mostrar en el eje Y el número de observaciones de x que caen en cada “bin”. Además, ggplot2 nos avisa de que por defecto se divide el eje X en 30 intervalos, pero que podemos cambiarlo con bins = my_n_de_bins.

p <- ggplot(iris, aes(Sepal.Length))
p + geom_histogram(bins = 40) + xlab("40 intervalos")
p + geom_histogram(bins = 4) + xlab("Sólo 4 intervalos")

Otra opción interesante es elegir la anchura del intervalo con la opción binwidth.

p <- ggplot(iris, aes(Sepal.Length))
p + geom_histogram(binwidth = 0.1) + xlab("He elegido la anchura = 0.1")
p + geom_histogram(binwidth = 1.1) + xlab("Esta vez la anchura = 1.1")

Si en el eje Y queremos frecuencias relativas o porcentajes en lugar de counts, podemos hacerlo con:

ggplot(iris, aes(Sepal.Length)) + 
  geom_histogram(aes(y = stat(count) / sum(count)), bins = 10) +
  scale_y_continuous(labels = scales::percent)

Se puede mejorar bastante la apariencia del histograma jugando con los colores y opciones:

ggplot(iris, aes(Sepal.Length)) + geom_histogram(bins = 10, color = "black", fill = "tomato")

Si asociamos/mapeamos la variable Species a alguna estética, por ejemplo a la estética “fill” o relleno de las barras con aes(fill = Species), se visualizará qué parte de cada intervalo pertenece a cada clase de lirio.

ggplot(iris, aes(Sepal.Length)) + geom_histogram(bins = 10, aes(fill = Species), color = "black")

Evidentemente, también podemos visualizar como cambia la distribución de la anchura del sépalo entre los 3 tipos de lirios si hacemos un small multiple:

p <- ggplot(iris, aes(Sepal.Length, fill = Species)) + geom_histogram(bins = 10, color = "black")
p + facet_grid(cols = vars(Species))

Para mejorar la visualización podemos poner en el fondo el histograma para todos los datos. Lo aprendí aquí, aunque ahora mismo hay un paquete para implementar esta técnica, es el paquete gghighlight.

iris_backgroung <- iris %>% select(-Species)
ggplot(iris, aes(x = Sepal.Length)) +
  geom_histogram(data = iris_backgroung, fill = "grey", bins = 15) +
  geom_histogram(aes(fill = Species), bins = 15) +
  facet_grid(cols = vars(Species))


geom_density()

Una alternativa a los histogramas son los gráficos de densidad con geom_density(). Pero, según Hadley:

they are harder to interpret since the underlying computations are more complex. They also make assumptions that are not true for all data, namely that the underlying distribution is continuous, unbounded, and smooth.

Como dice Hadley, geom_density() estima la función de densidad, por lo que la estimación depende de una serie de paramétros como adjust. Hacemos uso de xlim(3, 9) para expandir loslímites del eje X.

ggplot(iris, aes(Sepal.Length)) + 
  geom_density(color = "red",   size = 1.2) +  
  geom_density(color = "blue",  size = 1.2, adjust = 3) +
  geom_density(color = "black", size = 1.2, adjust = 0.5) +  xlim(2, 10)


Podemos asociar la variable Species a la estética fill con aes(fill = Species) para obtener una estimación de la densidad para cada tipo de lirio.

ggplot(iris, aes(Sepal.Length, fill = Species)) + geom_density(position = "stack", alpha = 0.5)


Hay muchas otras posibilidades. Por ejemplo:

ggplot(iris, aes(Sepal.Length, fill = Species)) + geom_density(position = "fill", alpha = 0.5) #- position = "fill"

ggplot(iris, aes(Sepal.Length, stat(count), fill = Species)) + geom_density(position = "stack", alpha = 0.5) #- stat(count)

Muchas veces se suelen hacer los histogramas superponiendo la f. de densidad normal o una estimación de la densidad de x con geom_density() o con geom_line(stat="density"). Para que el gráfico se vea mejor, ajustaremos el eje X con xlim():

#- calculamos media y desviación tipica de Sepal.Length para luego usarlas para construir la curva normal
media <- mean(iris$Sepal.Length, na.rm = TRUE)     #- media de la longitud del sépalo
desviacion <- sd(iris$Sepal.Length, na.rm = TRUE)  #- desviación 

#- hacemos el histograma
p <- ggplot(iris, aes(Sepal.Length)) +
      geom_histogram(aes(y=..density..),  color="black", fill = "steelblue", alpha = 0.2)

#- le añadimos la densiidad estimada y la normal
p + geom_density( color="purple", size = 1) +
    stat_function(fun = dnorm, colour = "red", size = 1, args = list(mean = media, sd = desviacion))  + 
    xlim(c(min(iris$Sepal.Length)-1, 9))

Si necesitas saber más cosas sobre los histogramas puedes acudir aquí o aquí.

Joy Division plots

Hace poco apareció el paquete ggridges y se pusieron de moda estos tipos de gráficos:

library(ggridges)
ggplot(iris, aes(x = Sepal.Length, y = Species)) + geom_density_ridges(aes(fill = Species), alpha = 0.5)

Como se parecen a la mítica portada del primer disco de Joy Division, algunos los conocen como Joy Division plots. Abajo os pongo un ejemplo sacado de la vignette del paquete ggridges.

library(viridis)
ggplot(lincoln_weather, aes(x = `Mean Temperature [F]`, y = `Month`, fill = ..x..)) +
  geom_density_ridges_gradient(scale = 3, rel_min_height = 0.01) +
  scale_fill_viridis(name = "Temp. [F]", option = "C") +
  labs(title = 'Temperatures in Lincoln NE in 2016')


6.2 Scatter plot

Scatter plot, gráfico de puntos o gráfico X-Y. Se utiliza para mostrar la relación entre DOS variables continuas. Lo tenemos más que visto, ya que es el tipo de gráfico que hemos utilizado durante todo el tutorial.

ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + 
     geom_point() +
     labs(title = "Gráfico 1: Longitud del sépalo frente al pétalo",
       subtitle = "(diferenciando por especie de lirio)",
       caption = "Datos provenientes del Iris dataset",
       x = "Longitud del sépalo",
       y = "Longitud del pétalo",
       color = "Especie de lirio")

Overplotting

Los gráficos de puntos se usan habitualmente para mostrar la relación entre dos variables continuas. En conjuntos de datos con muchas observaciones pueden tener un problema de “overplotting”. Esta situación ocurre cuando unos puntos se dibujan encima de otros, de forma que no se aprecia bien la relación entre las variables

Hay varias formas de tratar este problema. Veámoslo con un ejemplo sacado de la web de ggplot2:

set.seed(1234)
df <- data.frame(x = rnorm(2000), y = rnorm(2000))   #- creamos un conjuto de datos con 2000 observaciones y 2 v.

p <- ggplot(df, aes(x, y)) + xlab(NULL) + ylab(NULL)

p + geom_point()
p + geom_point(shape = 1) # Hollow circles
p + geom_point(shape = ".") # Pixel sized

#- For larger datasets with more overplotting, you can use alpha blending (transparency) t
p + geom_point(alpha = 1 / 10)


De forma alternativa, podemos lidiar con el overplotting utilizando otro enfoque que consiste en pensar en el overplotting como un problema de densidad en 2 dimensiones y utilizar un hex-plot. En un hex-plot se representan regiones (generalmente hexagonales) coloreadas en función del número de observaciones que caen en cada región, de forma que es equivalente a un histograma pero en 2d.

p + geom_bin2d()
p + geom_bin2d(bins = 10)
p + geom_hex()
p + geom_hex() + scale_fill_gradient2(low = "#132B43", high = "#56B1F7")  

En este post utilizan hex-plots para mostrar las zonas desde donde tiran a canasta los jugadores NBA. En este otro post utilizan una combinación de geom_point(alpha = .2, pch = 15) + geom_density_2d() para analizar las puntuaciones de videojuegos. Además hace un uso avanzado de las escalas, al menos para mi, para que el gráfico sea fácil de visualizar.

Acaba de aparecer un nuevo geom: geom_pointdensity(). Como dicen en su repo de Github: “A cross between a scatter plot and a 2D density plot”.

#devtools::install_github("LKremer/ggpointdensity")
library(viridis)
library(ggpointdensity)
p +  geom_pointdensity(adjust = 7) +
  scale_color_viridis()

Si quieres saber más cosas sobre cómo hacer scatterplots con ggplot2 puedes hacerlo por ejemplo, aquí o aquí.


6.3 Boxplot (gráficos de caja)

Para visualizar una variable cuantitativa se suelen usar los histogramas, pero si lo que quieres es visualizar como varían los valores de una variable continua en función de los valores de una variable categórica (Species) se suelen usan boxplots o diagramas de caja. Son útiles para comparar diferentes grupos y para identificar outliers.

Para hacer un boxplot o diagrama de caja se utiliza geom_boxplot(). El gráfico muestra 5 estadísticos: la mediana con una linea gruesa, el primer y tercer cuartil de los datos con los limites de la caja y el máximo y el mínimo (los limites de la linea vertical). Adicionalmente, si existen outliers, estos también se representarán.

ggplot(iris, aes(x = Species,  y = Sepal.Length)) + geom_boxplot() 

Se pueden cambiar algunas opciones del gráfico

p <- ggplot(iris, aes(x = Species,  y = Sepal.Length)) 
p + geom_boxplot(aes(fill = Species), outlier.colour = "purple")

A veces, para mejorar la visualización, conviene rotar los ejes. Podemos hacerlo con coord_flip()

p <- ggplot(iris, aes(x = Species,  y = Sepal.Length)) + geom_boxplot(aes(fill = Species)) 
p + coord_flip()

Para mejorar la visualización podemos incluir las observaciones originales con geom_point(), pero habría mucho overplotting, así que mejor con geom_jitter()

p + geom_jitter(width = 0.15, alpha = 1/4, color = "tomato")

Podemos añadir con stats() algún estadístico más con stats_xx(), por ejemplo la media con stats_summary:

p + stat_summary(fun.y = "mean", geom = "point", color = "purple", size = 2.5)

Los boxplots resumen la distribución de una variable cuantitativa con sólo cinco números, proporcionando un resumen útil de los datos, pero ocultan la forma de la distribución; por ejemplo, si la distribución fuese bimodal, no lo apreciaríamos. Además, aunque usemos geom_jitter() para superponer los valores originales, a veces es difícil a simple vista inferir la distribución de estos. Por ello hay varias técnicas/geoms útiles que ayudan a resolver el problema, por ejemplo geom_violin(). Una alternativa al boxplot son los gráficos de violín donde se estima y muestra la forma de la distribución de las observaciones:

p <- ggplot(iris, aes(x = Species,  y = Sepal.Length)) 
p + geom_violin(aes(fill = Species), alpha = 0.6)
p + geom_violin(aes(fill = Species), alpha = 0.6) + geom_jitter(width = 0.15, alpha = 1/4)


En el ejemplo que hemos usado hemos tenido suerte y los tres grupos estaban ordenados, pero otras veces no tendremos tanta suerte, por ejemplo si en lugar de graficar la longitud de sépalo queremos visualizar la anchura (Sepal.Width):

ggplot(iris, aes(x = Species,  y = Sepal.Width)) + geom_boxplot()

¿Cómo ordenamos los grupos? Por ejemplo podemos ordenarlos de menor a mayor en función de su anchura media del sépalo. Para ello usamos stats::reorder()

ggplot(iris, aes(x = reorder(Species, Sepal.Width, mean),  y = Sepal.Width)) + geom_boxplot() +
  xlab("De menor a mayor anchura del sépalo")

6.4 Gráficos de barras

Los gráficos de barras se utilizan para representar una variable categórica, como por ejemplo Species, o variables cuantitativas discretas. Se representan barras verticales proporcionales a los valores de la variable en cada categoría o valor. Para crear gráficos de barras con ggplot2 se usa geom_bar().

Para hacer nuestro primer gráfico de barras no vamos a utilizar iris porque en la única variable categórica (Species) resulta que hay 50 lirios en cada tipo de especie. Usaremos el data.frame mpg del paquete ggplot2 que contiene 234 observaciones sobre distintos modelos de coches y sus características. Algunos de los ejemplos están sacados de la web de ggplot2.

p <- ggplot(mpg, aes(class))
p + geom_bar()
p + geom_bar(fill = "steelblue") + coord_flip()

Como vemos, la variable class es categórica, concretamente tiene 7 grupos o categorías de coches. Las barras verticales son proporcionales al número de vehículos en cada categoría. Con coord_flip() las categorías pasan a representarse en el eje Y, haciendo que, generalmente, se visualicen mejor los nombres de las categorías.


Si en lugar de tener una tabla de datos, tenemos ya una tabla de frecuencias, tendremos que especificar en aes() que la variable con las frecuencias se mapee/asocie al eje Y: aes(x = variable, y = frecuencias). Además tendrás que usar geom_bar(stat = "identity") o directamente usar geom_col() que ya usa por defecto stat_identity(). Veámoslo con un ejemplo:

df <- mpg %>% group_by(class) %>% count
p <- ggplot(df, aes(x = class, y = n))
p + geom_bar(stat = "identity",  fill = "steelblue") 
# p + geom_col(fill = "steelblue")                          #- hace exactamente el mismo plot


Distintas posiciones para las barras

Para esta subsección utilizaremos el data.frame mtcars

ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar() #- pos
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "fill")
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "dodge")
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = position_dodge2(preserve = "single"))


Reordenando las categorías

A veces es importante reordenar las barras para mejorar la visualización. Para ello tendremos que usar factores. Por ejemplo, volviendo al mpg dataset:

df <- mpg
df <- df %>% mutate(class = forcats::as_factor(class)) #- convertimos la v. class a factor con la f. as_factor()
df <- df %>% mutate(class = forcats::fct_infreq(class)) #- fct_infreq() los niveles del factor según su frecuencia de mayor a menor
p <- ggplot(df, aes(fct_rev(class))) #- fct_rev() ordena los levels de menor a mayor
p + geom_bar(fill = "steelblue") + coord_flip()


Si queremos que en las barras se visualice el número de observaciones o frecuencia absoluta de cada categoría:

p + geom_bar(fill = "steelblue") + coord_flip() +
    geom_text(stat='count', aes(label = ..count.. ), hjust = -0.15, size = 3.25) 


Porcentajes en lugar de counts

Si queremos que las barras representen porcentajes en lugar de numero de casos en cada categoría:

p <- ggplot(df, aes(fct_rev(class))) #- fct_rev() ordena los levels de menor a mayor
p + geom_bar(aes( y = (..count..)/sum(..count..)), fill = "steelblue")  + coord_flip()

En realidad esto mismo se pude hacer de varias formas. En este post nos muestran 5 formas de hacerlo.


Si quieres saber más sobre como hacer gráficos de barras con ggplot2, puedes hacerlo aquí o aquí.


6.5 Gráficos de lineas

Los gráficos de lineas se usan principalmente para mostrar la evolución de variables en el tiempo. Generalmente la variable que se muestra en el eje X es el tiempo. En Economía estos gráficos puede que sean los más usados y habitualmente nos referimos a ellos como gráficos temporales.

Podemos simular gráficos de tiempo con geom_line() y geom_path(). Estos 2 geoms grafican lineas entre dos observaciones de una variable. Por ejemplo:

ggplot(economics, aes(date, uempmed)) + geom_line()

Empecemos usando el conjunto de datos gapminder para mostrar las observaciones de la variable lifeExp para España:

library(gapminder)
gapminder %>% filter(country == "Spain") %>% 
ggplot(aes(x = year, y = lifeExp)) + geom_line() + geom_point()

Visualicemos ahora 4 series de tiempo, la esperanza de vida en cuatro países europeos. Para poder distinguir las lineas de cada país podemos asociar la variable country a la característica estética color: aes(color = country)

gapminder %>% filter(country %in% c("Spain", "France", "Norway", "Belgium")) %>% 
ggplot(aes(x = year, y = lifeExp, color = country)) + geom_line() + geom_point()

Una tontería pero que puede ser de utilidad para saber cuanta diferencia hay al final del plot. Lo aprendí aquí

df <- gapminder %>% filter(country %in% c("Spain", "France", "Norway", "Belgium")) 
lifeExp_ends <- df %>% group_by(country) %>% top_n(1, year) %>% pull(lifeExp) #- vector con los valores últimos de lifeExp
ggplot(df, aes(x = year, y = lifeExp, color = country)) + geom_line() + 
     scale_y_continuous(sec.axis = sec_axis(~ ., breaks = lifeExp_ends)) +   #- sec_axis() especifica un eje secundario
     scale_x_continuous(expand = c(0, 0))


El siguiente ejemplo está sacado de este libro aún en construcción. Utiliza el paquete tidyquant para descargar las cotizaciones de las 4 principales empresas tecnológicas, las GAFA. tidyquant tiene muchas funciones interesantes, puedes verlas corriendo tq_transmute_fun_options().

library(tidyquant)
stocks <- c("GOOGL","AMZN","FB","AAPL") #- seleccionamos a las GAFAs
df <- tq_get(stocks, from = as.Date("2013-01-01"), to = as.Date("2013-12-31"))

ggplot(df, aes(date, y = close, color = fct_reorder2(symbol, date, close))) +
  geom_line() + xlab("") + ylab("") +
  theme(legend.title = element_blank())

Reescalamos para que las series comiencen todas en 100

df <- df %>% group_by(symbol) %>% mutate(rescaled_close = 100*close / close[1])

ggplot(df, aes(date, y = rescaled_close, color = fct_reorder2(symbol, date, rescaled_close))) +
  geom_line() + xlab("") + ylab("") +
  theme(legend.title = element_blank())


Otro paquete muy útil para analizar y descargar datos financieros es quantmod. El ejemplo siguiente lo he sacado de este fantastico libro.

library(quantmod)
today <- Sys.Date()
three_months_ago <- seq(today, length = 2, by = "-3 months")[2]
getSymbols("AAPL", from = three_months_ago, to = today)
#> [1] "AAPL"
candleChart(AAPL, theme = 'white', type = 'candles')


Si quieres saber más sobre gráficos de lineas puedes ir aquí.

Un poco sobre datos temporales

Para trabajar con datos temporales, R tiene distintos paquetes y estructuras, pero para manipular fechas y datos temporales en el tidyverse tenemos el paquete lubridate. Para una introducción a fechas y tiempo en R aquí.

En general, para realizar análisis estadísticos en R con series de tiempo se necesita que los datos estén en matrices, pero nosotros en el curso estamos trabajando con el tidyverse, y la la estructura de datos usada son los dataframes o tibbles, esto era un problema, pero recientemente, el paquete tsibble ha extendido el tidyverse y las tibbles a los datos temporales, creando una nueva estructura de datos: las “tsibbles”.

Apoyándose en esta nueva estructura de datos, las “tsibbles”, el paquete feast proporciona las herramientas y funciones necesarias para trabajar con series temporales en un entorno tidy. feast es un acrónimo de Feature Extraction And Statistics for Time Series. Para una introducción a feast puedes ir aquí o aquí.

Asimismo, el paquete fable también utiliza “tsibbles” y proporciona herramientas para la predicción de series temporales, incluyendo modelos ARIMA en el entorno tidyverse. Para una introducción a fable puedes ir aquí.

Aquí puedes ver una conferencia en la que se explica las principales ideas de esta nueva forma de trabajar con series temporales en el tidyverse


7. Más detalles/cosas

7.1 geom_smooth()

Ya hemos usado geom_smooth(). Un argumento importante de geom_smooth() es method con el que se selecciona el método con el que se obtiene la smooth curve. El método por defecto es method = "loess". Puedes controlar el nivel de smoothing con el parametro “span”, que va de 0 to 1 (mayor suavizado).

Otras opciones para geom_smooth():

  • method = “lm” fits a linear model, giving the line of best fit.

  • method = “rlm” works like lm(), but uses a robust fitting algorithm so that outliers don’t affect the fit as much. It’s part of the MASS package, so remember to load that first.

  • stat_smooth(se = FALSE) , indica si se representan intervalos de confianza para la linea suavizada.

Además de los métodos implementados, podemos elegir nuestro propio método, ya sea usando el argumento “formula” o definiendo nuestro propio método de alisado como nos cuentan aquí

p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + 
     geom_point() 
p + geom_smooth(method = "lm", formula = y ~ poly(x,4))

Podemos, obviamente, comparar dos métodos de alisado. Para poner nombre a los diferentes métodos se puede hacer lo siguiente:

library(tidyverse)
p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + 
     geom_point()
p + geom_smooth(aes(color = "loess") , method = "loess", se = FALSE) + 
    geom_smooth(aes(color = "lm")    , method = "lm"   , se = FALSE)


7.2 Áreas bajo la curva

Para un profesor de estadística/econometría es importante saber hacer gráficos como estos:

library(tidyverse) ggplot(xx, aes(x)) + geom_function(fun = function(x) {x**3} , colour = “red”)

ggplot(xx, aes(x)) + geom_function(fun = ~ .x**3 , colour = “red”)

xx <- data.frame(x = c(-2, 2))

ggplot(xx, aes(x)) + geom_function(fun = function(x) {x**3} ,  colour = "red")

ggplot(xx, aes(x)) + geom_function(fun = ~ .x**3 ,  colour = "red")

ggplot(xx, aes(x)) + stat_function(fun = function(x) { x**3 }, geom = "line")

ggplot(xx, aes(x)) + geom_function(fun = dnorm)  

ggplot(xx, aes(x = x))+
  geom_function(fun = dnorm, xlim = c(-4, 0)) +
  stat_function(fun = dnorm, geom = "area", fill = "steelblue", xlim = c(0, 4)) +
  xlim(-5, 5)

Lo aprendí aquí.

Inspirado por Fran Morillas, otro ejemplo:

nn <- 300 ; esperanza <- 10; sd <- 6
datos <- data.frame(normal = rnorm(nn, esperanza, sd))

ggplot(datos, aes(normal)) +
    geom_histogram(aes(y = after_stat(density)), bins = 30) +
    geom_density(color = "blue") +
    geom_function(fun = dnorm, args = list(esperanza, sd), colour = "red")

Aunque, la verdad, hoy en dia hay paquetes en R para todo. Por ejemplo el paquete nhstplot

library(nhstplot)
plotttest(t = 1.96, df = 1000 , tails = "one")


7.3 Labelling las observaciones con ggrepel

El gráfico de abajo se basa en este post de Julia Silge. Utiliza el paquete `ggrepel para poder ver a quien pertenece la observación en un gráfico de puntos.

library(ggrepel)
df <- gapminder::gapminder %>% filter(year == "2007")  %>% filter(continent == "Europe")
ggplot(df, aes(gdpPercap, lifeExp, label = country)) + geom_point() +
     labs(title = "Gráfico 1: Esperanza de vida frente a PIB per cápita" ,
       caption = "Datos provenientes de gapminder",
       y = "lifeExp",
       x = "gdpPercap") + geom_smooth() +
        geom_label_repel() 


7.4 GGally package

Hay muchos paquetes que proporcionan formas rápidas de hacer gráficos como por ejemplo este del paquete GGally:

library(GGally)
ggpairs(iris)
ggpairs(iris %>% select(1:4) %>% na.omit(), progress = FALSE, lower = list(combo = wrap("facethist", bins=6)))


7.5 Un poco más de anotaciones

Para que un gráfico sea efectivo y nos haga ver algún hecho o característica de los datos, muchas veces es preciso hacer anotaciones en el gráfico para señalar o resaltar ciertos aspectos de este. En esta subsección presento algún ejemplo de uso de las anotaciones en gráficos ggplot.

  • En primer lugar un ejemplo de Hadley. Hadley nos dice que no hay nada novedoso excepto el uso de -Inf and Inf como posiciones para referirse a los límites del gráfico, the top and bottom (or left and right) limits of the plot.
presidential <- subset(presidential, start > economics$date[1])

p <- ggplot(economics) +  geom_line(aes(date, unemploy)) + 
  scale_fill_manual(values = c("blue", "red")) +
  xlab("date") + 
  ylab("unemployment")

#- comienzan las anotaciones  
p + geom_rect(aes(xmin = start, xmax = end, fill = party), 
              ymin = -Inf, ymax = Inf, alpha = 0.2, data = presidential) + 
    geom_vline(aes(xintercept = as.numeric(start)), 
               data = presidential, colour = "grey50", alpha = 0.5) + 
    geom_text(aes(x = start, y = 2500, label = name), 
               data = presidential, size = 3, vjust = 0, hjust = 0, nudge_x = 50) 

Una forma común de anotación consiste en marcar o subrayar un conjunto de puntos. Por ejemplo marcar los coches de la marca Subaru en el siguiente gráfico. Se puede hacer de la siguiente manera:

p <- ggplot(mpg, aes(displ, hwy)) +
  geom_point(data = filter(mpg, manufacturer == "subaru"), colour = "orange", size = 3) +
  geom_point() 
p

Como ves, lo que se ha hecho es superponer una capa con solo las observaciones de Subaru y graficarlas con un punto más grande de lo habitual y con un color llamativo. El problema es que se ve que sean las observaciones de Subaru. Esto se puede resolver de varias maneras usando annotate():

p + annotate(geom = "point", x = 5.5, y = 40, colour = "orange", size = 3) + 
    annotate(geom = "point", x = 5.5, y = 40) + 
    annotate(geom = "text", x = 5.6, y = 40, label = "subaru", hjust = "left")

O de esta otra forma:

p + annotate(geom = "curve", x = 4, y = 35, xend = 2.65, yend = 27, 
              curvature = .3, arrow = arrow(length = unit(2, "mm"))) +
   annotate(geom = "text", x = 4.1, y = 35, label = "subaru", hjust = "left")

El paquete ggforce es una extensión a ggplot2 que puede servir para muchas cosas, entre ellas hacer anotaciones o marcas en gráficos ggplot. Por ejemplo:

ggplot(iris, aes(Sepal.Length, Petal.Length)) +
  geom_point(aes(color = Species)) + 
  ggforce::geom_mark_ellipse(aes(label = Species, group = Species))

Con ggforce podemos hasta simular un zoom:

ggplot(iris, aes(Petal.Length, Petal.Width, colour = Species)) +
  geom_point() +
  ggforce::facet_zoom(x = Species == "versicolor")


El paquete/extensión ggforce es pretty awesome. En este post puede verlo en acción haciendo mapas.


Otro enfoque para hacer anotaciones, bueno, en realidad centrase en un grupo de observaciones es utilizar el paquete gghighlight:

df <- gapminder::gapminder %>% filter(continent == "Europe")
ggplot(df, aes(year, lifeExp, group = country)) + 
  geom_line() + 
  geom_point() + 
  gghighlight::gghighlight(country %in% c("Spain", "Portugal"))

ggplot(iris, aes(Sepal.Length, Petal.Length, color = as.factor(Species))) +
  geom_point() + 
  gghighlight::gghighlight() + 
  facet_wrap(vars(Species))


8. Asistentes para ggplot2

Ahora mismo existen 2 asistentes para crear gráficos ggplot a través de interfaces gráficas: ggThemeAssist y esquisse

  • El paquete ggThemeAssist facilita mediante un adding de RStudio la edición de los detalles de un gráfico; es decir, puedes comenzar haciendo un gráfico básico en RStudio, para después abrir la interfaz de ggThemeAssist para modificar con el asistente visual todos los elementos estéticos de gráfico como títulos, leyendas, colores etc… etc…

    Para ello, primero has de instalar el paquete con install.packages("ggThemeAssist"), después cargarlo con library(ggThemeAssist). Una vez has cargado el paquete en memoria has de seleccionar con el cursor el código que genera el ggplot que quieres modificar/tunear. Una vez tienes marcado con el ratón el código del gráfico, has de seguir, en RStudio, esta ruta de menús: Tools > Addings > Browse Addings ..., para seleccionar finalmente el adding llamado “ggplot Theme Asistant”.

    Se abrirá un interfaz donde podrás modificar la mayoría de elementos del gráfico. Cuando hayas dejado el gráfico a tu gusto pinchas en DONE y te devolverá el código que reproduce el gráfico tal y como lo elegiste en el interfaz.

    Podéis ver un ejemplo en https://github.com/calligross/ggthemeassist


  • El paquete esquisse permite crear gráficos ggplot desde cero con una interfaz gráfica.

    Para usarlo tienes que instalarlo con install.packages("esquisse") para luego abrirlo siguiendo esta ruta de menús en RStudio: Tools > Addings > Browse Addings ... para elegir el adding con nombre: “esquisse - ggplot builder”.


9. Gráficos interactivos

Los gráficos interactivos, como su nombre indica, permite al usuario interactuar con el gráfico, abriéndose posibilidades como centrarse en parte del gráfico (zooming), highlighting, o mostrar información adicional al pinchar en algún elemento del gráfico, etc …

En general, JavaScript (JS) es el lenguaje utilizado para hacer gráficos interactivos con librerías como D3, Chart, Plotly, Vis Highcharts, …

Recientemente, el paquete de R htmlwidgets ha facilitado el uso de las librerías de JS en R. Actualmente, paquetes de R, como leaflet, DT, dygraphs, networkD3 y muchos otros, utilizan el framework propuesto por htmlwidgets para hacer disponibles los gráficos interactivos de JS en R.

Para daros cuenta de lo fácil que es hacer un gráfico interactivo con R usaremos el paquete plotly que hace posible usar la librería plotly.js en R. Con plotly se pueden hacer muchos tipos de gráficos, pero por ejemplo, permite con una sola linea convertir un gráfico ggplot en interactivo:

library(plotly)
p <- ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) +  geom_point() + geom_smooth()
ggplotly(p)

Aquí puedes encontraar un bookdown sobre plotly.

p1 <- p + facet_grid(cols = vars(Species)) 
ggplotly(p1)
p <- ggplot(mpg, aes(class)) +  geom_bar(fill = "steelblue") + coord_flip()
ggplotly(p)

Aquí puedes ver un galería de ejemplos de gráficos interactivos hechos con R. Aquí un post, ya de 2015, para iniciarse un poco en estos temas.

Hay muchos paquetes que permiten hacer gráficos interactivos en R, por ejemplo leaflet, que permite hacer mapas interactivos muy fácilmente.

library(leaflet)
m <- leaflet()
m <- addTiles(m)
m <- addMarkers(m, lng = 174.768, lat =-36.852, popup = "The birthplace of R")
m

Todos estos paquetes9 que permiten hacer gráficos interactivos a través de htmlwidgets se pueden consultar en: http://gallery.htmlwidgets.org/. Dos paquetes que no están en la gallery: Apexcharts y TSplotly.

En Interactive web-based data visualization with R, plotly, and shiny explican más detalladamente como hacer gráficos interactivos en R. Tendré que releer su sección Saving and embedding HTML para mostrar en el tutorial alguno de los gráficos dinámicos que he hecho, pero ahora tengo prisa, la próxima clase es pronto y empezamos sí o sí ggplot2.

Hadley también está escribiendo un bookdown sobre Shiny: Mastering Shiny. En palabras de Hadley: Shiny is a framework for creating web applications using R code. Para ver que significa esto puedes ver la siguiente galería con ejemplos de aplicaciones shiny.

gganimate

gganimate es un paquete que no hace gráficos dinámicos, pero permite animar gráficos mediante la creación creación de secuencias de gráficos. Mejor que explicarlo visita su sección de ejemplos en su wiki: https://github.com/thomasp85/gganimate/wiki. Por ejemplo este ejemplo o este ejemplo de jurgol. En este post explican como usarlo.

Un ejemplo con los datos de gapminder

library(tidyverse)
library(gapminder)
library(gganimate)
gapmider_europe <- gapminder %>% filter(continent == "Europe")
ggplot(gapmider_europe, aes(gdpPercap, lifeExp, size = pop, colour = country)) +
  geom_point(alpha = 0.7, show.legend = FALSE) +
  scale_colour_manual(values = country_colors) +
  scale_size(range = c(2, 12)) +
  scale_x_log10() +
  facet_wrap(~continent) +
  # Here comes the gganimate specific bits
  labs(title = 'Year: {frame_time}', x = 'GDP per capita', y = 'life expectancy') +
  transition_time(year) +
  ease_aes('linear') 

Aquí tienes un ejemplo para hacerlo para los cinco continentes.


Biblio/ejemplos/recursos

Son recursos que he visto o utilizado mientras escribía esta notas, y no quiero olvidarlos:

Por último 3 repos de Github asociados al proyecto Tidytuesday. Absolutamente impresionantes!!!

Mas biblio



  1. El repo donde se aloja el código para recrear el libro está aquí↩︎

  2. Tienes que entender porque son equivalentes. Busca la ayuda de la función y verás que el primer argumento de la función es data, así que si, como ocurre en la segunda expresión, no ponemos el nombre del argumento de la función, R tomará iris como el valor del primer argumento. Parece un trabalenguas pero es importante↩︎

  3. Si alguno de vosotros me pregunta por la verdad adoptaré semblante hierático y sólo diré lo siguiente: geom_point() is a short-hand for layer(geom = “point”, stat = “identity”, position = “identity”) ó apelaré a la canción de Albert Pla, según me de.↩︎

  4. En aes() no sólo puedes poner variables, sino transformaciones de ellas, por ejemplo aes(x = v1 ^ 2, y = v1 / v2). También se pueden mappear variables con constantes aes(x = 1, colour = “loquesea”)↩︎

  5. En este caso sí quiero que me preguntéis por este detalle. Es algo que ya deberías saber/intuir pero …↩︎

  6. En realidad la tercera expresión sí correrá, pero sólo mostrará los puntos, no las lineas.↩︎

  7. O marcar/anotar los lirios 2 lirios más grandes o el lirio mediano. ¿Lo hacéis?↩︎

  8. Por ejemplo, piensa que lo que se visualiza con geom_smoth() no son los datos originales sino, por ejemplo, la linea de regresión si usamos geom_smoth(method = "lm")↩︎

  9. En el momento de escribir estas notas eran 107 paquetes↩︎

---
title: "Visualización: gráficos con ggplot2"
author: "Pedro J. Pérez (pedro.j.perez@uv.es). Universitat de València <br> <br> Web del curso: <https://perezp44.github.io/intro-ds-22-23-web/>"
date: "Octubre de 2019 (actualizado el `r format(Sys.time(), '%d-%m-%Y')`)"
output:
  html_document:
    css: !expr here::here("assets", "styles_pjp.css")
    theme: paper
    highlight: textmate
    toc: true
    toc_depth: 3
    toc_float:
      collapsed: true
      smooth_scroll: true
    self_contained: true
    number_sections: false
    includes:
      after_body: !expr here::here("assets", "footer.html") 
      in_header: 
        - !expr here::here("assets", "google-analytics.html") 
        - !expr here::here("assets", "favicon-sol.html")
    df_print: kable
    code_download: true
editor_options:
  chunk_output_type: console
---

```{r, include = FALSE}
library(tidyverse)
```

```{r chunk-setup, include = FALSE}
knitr::opts_chunk$set(echo = TRUE, eval = TRUE, message = FALSE, warning = FALSE,
                      #results = "hold",
                      cache = FALSE, cache.path = "/caches/", comment = "#>",
                      #fig.width = 7, #fig.height= 7,
                      #out.width = 7, out.height = 7,
                      collapse = TRUE,  fig.show = "hold",
                      fig.asp = 7/9, out.width = "60%", fig.align = "center")

#- para mejorar los gráficos, bueno en realidad para que se vean igual en distintos SO
#- https://www.jumpingrivers.com/blog/r-knitr-markdown-png-pdf-graphics/
knitr::opts_chunk$set(dev = "png", dev.args = list(type = "cairo-png"))
```

```{r options-setup, include = FALSE}
options(scipen = 999) #- para quitar la notación científica
options("yaml.eval.expr" = TRUE) #- https://github.com/viking/r-yaml/issues/47  (lo puse x el pb con el warning) En realidad creo que mejor sería ponerlo en RProfile
```


```{r klippy, echo = FALSE}
klippy::klippy(position = c("top", "right")) #- remotes::install_github("rlesur/klippy")
```


```{r, include = FALSE}
library(knitr)
library(here)
library(tidyverse)
#devtools::install_github("thomasp85/patchwork")
library(patchwork)
```

-------------

<br>

## 1. Introducción

Los gráficos e infografías son, cada vez más, una parte importante de la mayoría de textos escritos, ya sean estos  un informe técnico, un artículo de periódico o un TFG. En el caso de la ciencia de datos, como puede verse abajo en la infografía, el análisis y la exploración de los datos es un proceso iterativo en el que la visualización y la generación de gráficos ocupa un lugar destacado.

```{r, echo = FALSE, out.width = "75%", fig.align = "center", fig.cap = "R for Data Science (http://r4ds.had.co.nz/)"}
knitr::include_graphics(here::here("imagenes", "tt_06_img_01_explore-visualice.png") ) 
```



Uno de los instrumentos y tareas fundamentales de un científico de datos es la capacidad de realizar visualizaciones de datos apropiadas y convincentes. El análisis gráfico no solo ayuda en la exploración y comprensión de los datos, sino que es fundamental a la hora de mostrar las posibles relaciones entre variables, descubrir relaciones o patrones ocultos, y descartar o sugerir nuevas preguntas sobre los datos. 



El entorno R tiene diversos sistemas para visualizar datos, los dos más utilizados son el sistema gráfico de R-base y el ecosistema asociado al paquete `ggplot2`. Por diversas razones, en el curso usaremos el entorno `ggplot2` para hacer nuestros gráficos; de hecho, en la actualidad `ggplot2`, dada su rapidez en la iteración entre gráficos, versatilidad y la cuidada estética que tienen sus gráficos, se ha convertido, al menos por el momento, en el sistema estándar para hacer gráficos en R. Por ejemplo, [¿cómo creéis que hace la BBC sus gráficos?](https://medium.com/bbc-visual-and-data-journalism/how-the-bbc-visual-and-data-journalism-team-works-with-graphics-in-r-ed0b35693535){target="_blank"}, evidentemente con R y `ggplot2`. Puedes ver uno de sus repositorios [aquí](https://github.com/bbc/bbplot){target="_blank"} y su cookbook [aquí](http://bit.ly/bbcggplot2){target="_blank"}. 


Con `ggplot2` es sencillo hacer gráficos con calidad para ser publicados o mostrados, además de que, dada su sintaxis modular, hace sencillo el reutilizar los gráficos durante el proceso de análisis. El paquete `ggplot2` fue inicialmente desarrollado por [Hadley Wickham](http://hadley.nz/){target="_blank"}, pero actualmente el ecosistema ggplot es el resultado de toda una comunidad de usuarios que contribuye a enriquecer el sistema gráfico con sus extensiones y paquetes auxiliares.


En palabras de Hadley en su [libro sobre ggplot2](https://ggplot2-book.org/){target="_blank"}:

> ggplot2 is an R package for producing statistical, or data, graphics, but it is unlike most other graphics packages because it has a deep underlying grammar. This grammar, based on the Grammar of Graphics (Wilkinson 2005), is made up of a set of independent components that can be composed in many different ways. This makes ggplot2 very powerful because you are not limited to a set of pre-specified graphics, but you can create new graphics that are precisely tailored for your problem. This may sound overwhelming, but **because there is a simple set of core principles and very few special cases, ggplot2 is also easy to learn** (although it may take a little time to forget your preconceptions from other graphics tools).


Sí, con `ggplot2` es "fácil" hacer rápidamente gráficos de calidad, PERO dominar todos los detalles del paquete sí que es complicado, pero no nos hace falta conocerlo todo. Además, hay que tener en cuenta que `ggplot2` es un paquete/entorno en constante evolución. Actualmente está en la versión 3.2.1. Bueno, en marzo de 2020 apareció la versión 3.3.0. 


Para entender esta idea de la constante evolución y el papel que tiene la comunidad de usuarios en el desarrollo de R y sus paquetes puedes leer [este tweet](https://twitter.com/ClausWilke/status/1166356210783870976){target="_blank"} y las respuestas a él. En el tweet sólo se anuncia una pequeña mejora en como `ggplot2` gestiona los títulos de los gráficos pero genera reacciones en la comunidad de usuarios. 

La redes sociales pueden hacerse eco de la evolución de un paquete, pero donde habitualmente se produce la discusión/colaboración entre usuarios es en plataformas como [Github](https://github.com/){target="_blank"}. Por ejemplo, puedes ver como se gestó está pequeña  mejora [aquí](https://github.com/tidyverse/ggplot2/issues/3252){target="_blank"}. Fue la issue 3252 de `ggplot2`. Otro ejemplo, justo cuando estaba escribiendo este párrafo, leí [este otro tweet](https://twitter.com/thomasp85/status/1166609529771102208){target="_blank"} anunciando otra mejora en `ggplot2`.


La página web de `ggplot2` puedes encontrarla [aquí](https://ggplot2.tidyverse.org/){target="_blank"}. En ella puedes encontrar documentos de ayuda y la [referencia oficial](https://ggplot2.tidyverse.org/reference/index.html){target="_blank"}. Para darte cuenta de todo lo que se puede hacer con el ecosistema ggplot  visita [esta página](https://exts.ggplot2.tidyverse.org/gallery/){target="_blank"} donde podrás ver los 79 "paquetes auxiliares" o extensiones a `ggplot2`.


Para hacer "buenos" gráficos con `ggplot2 `no sólo es necesario entender la sintaxis y los pormenores del paquete, sino que quizás se necesite algo más. Por ejemplo, algo de experiencia y cierta capacidad visual y estética; incluso hay quien dice que hacer buenos gráficos es un arte. Para intentar mejorar vuestros gráficos o evitar ciertos errores, [aquí](https://robjhyndman.com/hyndsight/graphics/){target="_blank"} tenéis algunas reglas/consejos, y [aquí](https://www.r-bloggers.com/teaching-and-learning-materials-for-data-visualization/){target="_blank"} un curso completo sobre visualización^[El repo donde se aloja el código para recrear el libro está [aquí](https://github.com/clauswilke/dataviz)] con [bookdown incluido](https://serialmentor.com/dataviz/){target="_blank"}.

Entenderás muy bien que hacer buenos gráficos exige conocimiento y mucho trabajo al ver el video de [este post](https://karaman.is/blog/2020/07/making-of/), donde se ven las versiones previas para que al final saliese esta preciosura de gŕafico:


```{r, echo = FALSE, fig.asp = 7/9}
tweetrmd::tweet_embed("https://twitter.com/geokaramanis/status/1247586395876741120", theme = "light", align = "center", maxwidth = 400)
```

Otro ejemplo del making-of de un gráfico puedes verlo [aquí](https://twitter.com/MaiaPelletier/status/1287922855926214657).


Otros dos libros sobre visualización con el código de los ejemplos hechos con `ggplot2`, [aquí](https://socviz.co/index.html#preface) y [aquí](https://socviz.co/lookatdata.html#lookatdata){target="_blank"}. Finalmente, algunos consejos de la [BBC](https://bbc.github.io/rcookbook/){target="_blank"} sobre visualización.

Como también se aprende los errores, [aquí](https://medium.economist.com/mistakes-weve-drawn-a-few-8cdd8a42d368){target="_blank"} tienes un articulo de The Economist donde muestran errores que ellos mismos han cometido haciendo gráficos. Además pueden descargarse los datos.

<br>

## 2. Ideas básicas sobre ggplot2

Ya se dijo que `ggplot2` es un paquete R desarrollado por Hadley Wickham, aunque actualmente es el resultado de la colaboración de múltiples desarrolladores. `ggplot2` implementa en R [The Grammar of Graphics](https://www.springer.com/gp/book/9780387245447) de L. Wilkinson, un sistema coherente para describir y construir gráficos. El énfasis de ggplot2 está en la exploración rápida de datos, especialmente de datos de alta dimensionalidad. Con `ggplot2` es sencillo ir transformando el gráfico mientras se van analizando los datos. 



Para empezar a entender la "filosofía" de `ggplot2`, os planteo una pregunta medio retórica: ¿qué vemos en el gráfico de abajo?


```{r, echo = FALSE, out.width = "60%"}
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point()
```


Pues sí, es un gráfico de puntos y nos ayuda a ver las relaciones que existen entre 3 variables. Estamos habituados a ello, pero vamos a pensar en el gráfico desde la óptica de "The Grammar of Graphics" implementada en el paquete `ggplot2`. 

En nuestro gráfico se representan por medio de puntos, en el espacio X-Y, y mediante los distintos colores de los puntos, las observaciones de 3 variables. Bien, nada muy novedoso, todos los sistemas gráficos hacen este tipo de gráficos. Los gráficos de `ggplot2` se realizan mediante la superposición de elementos/capas. Podemos pensar que el gráfico que hemos visto es una capa. ¿Cómo creamos este gráfico o capa en `ggplot2`?

Pues, una de las principales ideas para entender `ggplot2` es que cada capa de un gráfico tiene 3 componentes o elementos principales:


  - **los datos** que se van a representar  (sencillo, para hacer un gráfico hacen falta datos). Para ello utilizaremos generalmente la función `ggplot()`
  
  - **un conjunto de propiedades estéticas asociadas a alguna variable del conjunto de datos**. Por ejemplo, la variable Sepal.Lenght está asociada al eje X, ala posición en el eje X. Por su parte, el color de los puntos (otra característica visual o estética) está asociado a los valores de la variable Species. Es decir, usando la terminología de `ggplot2`, las distintas variables están asociadas o mapeadas a determinadas características estéticas. El mapeo de variables con estéticas se hará con la función `aes()`  de **aes**thetics. (esto ya no es tan estándar, se explica en breve)
  
  - **el elemento geométrico que se va a representar**. En nuestro caso el elemento geométrico que se utiliza para representar los valores de las variables son los puntos, pero podrían haber sido las lineas o las barras ... Para especificar el elemento geométrico que vamos a usar en nuestro gráfico se utiliza la familia de funciones `geom_xx()`; por ejemplo `geom_point()` si queremos puntos, `geom_line()` si queremos que las relaciones entre las variables se representen/visualicen como lineas.
  
Así en abstracto puede ser complicado entender del todo que quiere decir todo esto. Vamos a verlo con ejemplos concretos. De momento, para explicar las principales características de `ggplot2` utilizaré un conjunto de datos famoso, pero  odiado por algunos, por haber sido utilizado en numerosos ejemplos y cursos: el [iris dataset](https://es.wikipedia.org/wiki/Conjunto_de_datos_flor_iris).

El conjunto de datos `iris` contiene datos sobre 150 flores, en concreto sobre 150 lirios. `iris` tiene 5 variables, 4 de ellas miden la longitud y el ancho del pétalo y sépalo de los 150 lirios. Estas 4 primeras variables son cuantitativas y continuas; mientras que la quinta variable es categórica, indicando la clase o variedad de los lirios, ya que en los datos hay 3 especies distintas de lirios (setosa, versicolor y virginica). Con estos datos, con 3 de sus variables, se ha creado el gráfico que ves más arriba.

<br>

**PRIMER GRÁFICO**: Para comenzar nuestras andanzas con `ggplot2` intentaremos replicar con código R el gráfico de arriba; aunque al principio sólo utilizaremos 2 variables: haremos un gráfico de puntos de la longitud del sépalo frente a la longitud del pétalo.

Hacer un gráfico con `ggplot2` requiere de varias etapas, 

  - la primera de ellas consiste en usar la función `ggplot()` para inicializar el gráfico. 
  
  - en segundo lugar, tendremos que especificar que conjunto de datos usaremos en el gráfico. 
  
  - en tercer lugar tendremos que especificar que variables irán asociadas a determinados elementos visuales o estéticos del gráfico 
  
  - por último, en cuarto lugar, tendremos que especificar que tipo de gráfico o geometría usaremos para visualizar las observaciones.
  
  
Veámoslo más detenidamente.

En `ggplot2`, para hacer un gráfico **se empieza SIEMPRE llamando a la función `ggplot()`**. Si tecleamos `ggplot()` en la consola o en un script, parece que no ocurre nada, pero tras la llamada a la función `ggplot()`, R ha creado un objeto, un contenedor para nuestro futuro gráfico. Aún no vemos el gráfico, faltan cosas, pero ya lo hemos inicializado. Si quieres ver el objeto/contenedor que hemos creado con la llamada a `ggplot()` tienes que asignarle un nombre, así podrás verlo en la pestaña "Environment" de RStudio. 


Para verlo tienes que hacer:

```{r, eval = FALSE}
my_grafico <- ggplot()
```

`my_grafico`, es un objeto R, concretamente una lista con 9 elementos, que tendremos que ir "llenando" para hacer nuestro gráfico. 


Generalmente, dentro de la función `ggplot()` se suele especificar el conjunto de datos que vas a utilizar para hacer el gráfico. A diferencia de los gráficos de R-base, `ggplot2` no permite graficar vectores: **los datos que se suministran han de ser SIEMPRE data.frames** o similares.


```{r, eval = FALSE}
ggplot(data = iris)
ggplot(iris)
```



Ya está, con cualquiera de las 2 instrucciones de arriba, son equivalentes^[Tienes que entender porque son equivalentes. Busca la ayuda de la función y verás que el primer argumento de la función es data, así que si, como ocurre en la segunda expresión, no ponemos el nombre del argumento de la función, R tomará iris como el valor del primer argumento. Parece un trabalenguas pero es importante], ya hemos inicializado el gráfico y le hemos dicho que datos vamos a usar. 

Dijimos que para comenzar haríamos un gráfico de puntos de la variable `Sepal.Length` frente a `Petal.Length`; así que **tenemos que decirle a `ggplot2` que variables de `iris` queremos visualizar y con que propiedades estéticas queremos asociar cada variable**. Para ello utilizaremos la función `aes()` dentro de `ggplot()`. Lo hacemos con la siguiente expresión:


```{r, eval = FALSE}
ggplot(iris, aes(x = Sepal.Length,  y = Petal.Length))
```

Aún no vemos el gráfico, pero con `aes()` le hemos dicho a R/ggplot2 que queremos asociar/mapear la variable Sepal.Length al eje x, y la variable Petal.Length al eje y. Fíjate que, en la pestaña de gráficos de RStudio, ya vemos los ejes del gráfico; además, fíjate que `ggplot2` ya ha calculado para nosotros el rango de las variables para ajustar los ejes.


Al igual que antes, podemos omitir los nombres de las opciones de la función `aes()`. Esta función puede tener muchos argumentos (veremos algunos), pero los 2 primeros son siempre x (el eje x) y después y (el eje y o vertical de mi gráfico); es decir podríamos hacer lo siguiente que es más rápido de teclear.


```{r, eval = FALSE}
ggplot(iris, aes(Sepal.Length, Petal.Length))
```

Con esta instrucción le estamos diciendo a `ggplot2` que vamos a hacer un gráfico con los datos del data.frame `iris` y que vamos a asociar/conectar/mapear la variable `Sepal.Length` con el eje x, y la variable `Petal.Length` con el eje y del gráfico. Perfecto, pero entonces ¿por qué no vemos el gráfico? La razón estriba en que no le hemos dicho a `ggplot2` qué tipo de gráfico queremos (de puntos, de lineas etc...). El tipo de gráfico se explicita con una familia de funciones: `geom_xx()` o **geom**etrías. Hay muchas geometrías o tipos de gráficos que podemos usar. Ya lo veremos!!! Nosotros queremos hacer un gráfico de puntos, así que, de la familia de **geom**etrías tenemos que  usar `geom_point()`. Veámoslo.


```{r, out.width = "50%"}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point()
```

Como vemos los puntos del gráfico se visualizan en color negro, con un tamaño, una transparencia y una forma determinadas. Obviamente todo esto se puede cambiar dentro de `geom_point()` con las opciones adecuadas. Por ejemplo:


```{r, out.width = "50%"}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(color = "red", size = 2, alpha = 0.2)
```



Ya casi está. No es tan complicado. Ya hemos visto las ideas fundamentales de la visualización con `ggplot2`:

1. Los gráficos se inician con la función `ggplot()`. Generalmente aquí se especifican los datos (data.frame) que queremos utilizar  

2. La función `aes()` sirve para asociar/mappear variables con atributos/características estéticas del gráfico. De hecho el nombre del función `aes()` viene de **aes**thetics. Las **aes**thetics más importantes de un gráfico suelen ser los ejes x e y, por eso se ponen siempre al principio de `aes()`; es decir, son los 2 primeros argumentos de `aes()`. En nuestro ejemplo hemos asociado la variable `Sepal.Length` con el eje x, y la variable `Petal.Length` con el eje y. Veremos más **aes**thetics, como por ejemplo el color o el tamaño (de los puntos ... o de las lineas o ...)

3. Con `geom_**()` elegimos el tipo o **geom**etría de gráfico. Hay muchos tipos de gráficos, así que habrán muchos **geoms**. Por ejemplo: geom_point(), geom_line(), geom_ ...


Estas 3 ideas son las principales para entender ggplot2. Después hay muchas más opciones y elementos que serán muy importantes para conseguir un buen gráfico, pero en cierta forma son secundarias; por ejemplo, los títulos, los ejes, las escalas, el tema etc... lo iremos viendo poco a poco.

<br>

Afiancemos las ideas principales de la visualización con `ggplot2`. ¿Piensa que hará la siguiente linea de código?


```{r, eval = FALSE}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_line()
```

La primera parte de la instrucción es igual a la anterior: queremos un gráfico con el data.frame iris y queremos asociar la variable Sepal.Length con el eje x, con la propiedad **aes**thetic eje x y Petal.Length con el eje y; pero le hemos pedido un gráfico de lineas (geom_line()). En este caso hacer un gráfico de lineas no tiene mucho sentido, pero si se lo pedimos a R, este nos hace caso y nos lo muestra.


```{r, echo = FALSE, out.width = "49%"}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_line()
```

<br>

Ya dije que una de las características importantes de `ggplot2`  es que funciona por capas que se van superponiendo; para ir añadiendo capas a nuestro gráfico tenemos que usar el símbolo **`+`**. Por ejemplo si quisiéramos ver los puntos y las lineas ¿Cómo lo hacemos?


```{r, out.width = "49%"}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_line()
```

<br>

Tampoco son muy útiles la lineas en este gráfico.



Otra geometría o **geom_()** que se usa mucho es `geom_smooth()`. Probémosla:


```{r}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() +  geom_smooth()
```

Del gráfico puede inferirse que hay una relación, no lineal, pero sí directa o positiva entre la longitud del sépalo y del pétalo; pero también se aprecia que hay al menos dos grupos distintos de lirios. Hay un grupo de observaciones cuyo pétalo parece ser claramente menor que el del resto de lirios. Veamos si esto se debe o esta asociado al tipo de lirio, recuerda que hay 3 tipos de lirios, asociados a la variable `iris$Species`. Para verlo en nuestro gráfico lo que vamos a hacer es asociar/mapear la variable `Species` con la **aes**thetics color:



```{r}
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() 
```

Pues parece que sí, que la especie de lirios "setosa" es más pequeña, al menos en longitud, del sépalo, pero sobre todo del pétalo.

La variable `Species` podríamos haberla asociado a la estética tamaño (size), o a la estética forma (shape) pero no sería tan útil ni quedaría tan bonito el gráfico. Fíjate que incluso R nos avisa de que asociar la propiedad o **aes**thetic tamaño con una variable categórica como Species no es muy recomendable.


```{r, warning = TRUE}
ggplot(iris, aes(Sepal.Length, Petal.Length, size = Species)) + geom_point() 
```

También podemos asociar la variable `Species` a la estética "forma"(shape). Lo hacemos en la expresión de más abajo. Como veis, ahora las diferencias entre especies de lirios no se aprecian tan bien como cuando usábamos `color = Species`


```{r}
ggplot(iris, aes(Sepal.Length, Petal.Length, shape = Species)) + geom_point() 
```


Os va a costar hacer gráficos, normal!!!, pero espero que la idea principal ya la tengáis. Lo que pasa es que no os he contado todo, en realidad es un poco más complejo y versátil. Lo medio explico en el siguiente apartado.


<br>

###  Más ideas sobre ggplot2

Ya tenéis las ideas principales para hacer gráficos con `ggplot2`, pero no os lo he contado todo, tampoco lo voy a hacer ahora, pero si contaré las cosas de una forma diferente para que tengáis más flexibilidad/versatilidad a la hora de hacer gráficos. Si queréis saber toda la verdad^[Si alguno de vosotros me pregunta por la verdad adoptaré semblante hierático y sólo diré lo siguiente: geom_point() is a short-hand for layer(geom = "point", stat = "identity", position = "identity") ó apelaré a la canción de Albert Pla, según me de.] tendréis que ir al libro de Hadley, concretamente [aquí](https://ggplot2-book.org/layers.html).

La forma que os he contado  de hacer gráficos `ggplot2` es la que veréis habitualmente, yo también hago mis gráficos así, solo que para entender mejor el funcionamiento, la sintaxis de `ggplot2`, os lo tengo que contar otra vez de una forma un poco diferente o ampliada. 

Un gráfico de ggplot2 se inicia llamando a la función `ggplot()` eso es cierto y también es verdad que generalmente dentro de `ggplot()` se indica el data.frame que vas a utilizar y con `aes()` que variables vas a usar y con que elementos visuales o estéticos quieres asociar cada una de la variables que vas a utilizar^[En `aes()` no sólo puedes poner variables, sino transformaciones de ellas, por ejemplo aes(x = v1 ^ 2, y = v1 / v2). También se pueden mappear variables con constantes aes(x = 1, colour = "loquesea")]. Correcto, pero .... en realidad un gráfico ggplot2 se hace por capas, cada capa se especifica con una función de la familia `geom_xx()`, así que en realidad los datos y las `aes()` se "deberían" especificar dentro de la función geom_xx()`. 

Parece un poco de lío pero en cuanto lo entiendas es muy fácil y te puede dar más flexibilidad a la hora de hacer tus gráficos. Empecemos: ¿recuerdas que hacen las lineas/expresiones de abajo?


```{r, eval = FALSE}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() 
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_line()
```

Podemos pensar que las funciones que hacen la representación gráfica realmente son las `geom_xx()`; es ahí donde deberíamos especificar los datos y variables/estéticas que queremos usar, pero si no las especificamos en la función `geom()`, entonces, ggplot2 mirará a ver si existen, si están especificados, dentro de `ggplot()`.


Ahora que ya sabemos el funcionamiento básico de `ggplot2`, veamos algunos detalles mediante algunos ejemplos. Hasta ahora hemos especificado el data.frame que queremos graficar con `ggplot(data = my_df)` o con `ggplot(my_df)` y las variables que queremos ver, y a que propiedad estética queremos asociarla, con la función `aes()` **dentro de `ggplot()`**. Si lo hacemos así, todos los `geoms_xx()` que utilicemos compartirán el conjunto de datos y las variables/estéticas a mappear y mostrar; pero a veces, en gráficos más complejos podemos querer hacer que cada `geom_xx()` muestre datos y/o variables distintas. 

Entender que cada `geom_xx()` puede estar asociado a distintos data.frames y/o variables es importante para tener más versatilidad con `ggplot2`.Por ejemplo, las siguientes tres expresiones hacen el mismo gráfico. Se suele utilizar la primera expresión, pero la segunda y tercera expresiones son "más flexibles", aunque es verdad que si sólo se utiliza un `geom_xx()` no ganamos nada por usar la segunda o tercera expresión, pero no será el caso si en nuestro gráfico necesitamos usar varios `geom_xx()`



```{r, eval = FALSE}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point()

ggplot(iris) + geom_point(aes(Sepal.Length, Petal.Length))

ggplot() + geom_point(data = iris, aes(Sepal.Length, Petal.Length))
```

Fíjate, como detalle, pero importante, que si utilizas la tercera expresión; es decir, si especificas los datos dentro de la función `geom_xx()`, es necesario poner el nombre del argumento ; es decir, debes poner `data = iris`, no puedes poner solo `iris`. Yo me olvido siempre de este detalle^[En este caso sí quiero que me preguntéis por este detalle. Es algo que ya deberías saber/intuir pero ...].

```{r, echo = FALSE}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point()
```



En este caso (como el gráfico solo tiene una capa, como sólo usamos un `geom(_xx)`) no ganamos nada por usar la segunda o tercera expresión; PERO, cuando usemos varios `geom_xx()` esto nos dará muchas posibilidades para nuestro gráfico. 

Intenta descubrir las diferencias y funcionamiento de las 3 siguientes instrucciones. Recuerda que puedes correr las instrucciones en R para ver que hacen exactamente.

```{r, eval = FALSE}
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(aes(color = Species)) + geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth(aes(color = Species))
```


Veámoslas una a una:

1. Los datos y las 3 variables/estéticas dentro de ggplot()

```{r}
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth()
```

En este caso los 2 geoms comparten el conjunto de datos (iris) y las variables/estéticas a graficar

<br>

2. Los datos y 2 variables/estéticas dentro de ggplot(), pero una tercera variable (Species), asociada a la estética color, aparece solamente en `geom_point()`


```{r}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(aes(color = Species)) + geom_smooth()
```

<br>

3. Los datos y 2 variables/estéticas dentro de ggplot(), pero una tercera variable (Species), asociada a la estética color, aparece solamente en `geom_smooth()`



```{r}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth(aes(color = Species))
```

Espero, seguro!!, que te has dado cuenta de que si especificas el data.frame y las variables/estéticas dentro de `ggplot()` esto afectará a todos los geoms del gráfico; pero lo que se especifique dentro de un `geom_xx()` solo afecta a esa geometría.

<br>

**Otro ejemplo** para entenderlo, ¿por qué no funciona la siguiente expresión?

```{r, eval = FALSE, message = TRUE}
ggplot(iris) + geom_point(aes(Sepal.Length, Petal.Length)) + geom_smooth(aes(color = Species))
```

Pues porque para poder representar la linea suavizada se utiliza `geom_smooth()`, y `geom_smooth()` necesita como mínimo tener variables asociadas a las estéticas x e y. Como veis, dentro de `geom_smooth()` solo hemos especificado la estética "color" y tampoco hemos especificado en la función `ggplot()` que variables se asocian con x e y. Por lo tanto, `geom_smooth()` no puede hacer su trabajo, le faltan los "datos" de x e y para calcular/obtener la linea suavizada. 

Vamos con **otros ejemplos**. La siguientes expresiones tampoco funcionarán^[En realidad la tercera expresión sí correrá, pero sólo mostrará los puntos, no las lineas.] si intentáis correrlas en vuestro ordenador. ¿Por qué?



```{r, eval = FALSE, message = TRUE}
ggplot() + geom_point(data = iris, aes(Sepal.Length, Petal.Length)) + geom_line(aes(Sepal.Length, Petal.Length))

ggplot(aes(Sepal.Length, Petal.Length)) + geom_point(data = iris) + geom_line()

ggplot() + geom_point(data = iris, aes(Sepal.Length, Petal.Length)) + geom_line()
```

<br>

**Otro ejemplo:** hagamos algo más marciano/complicado. Supón que quieres hacer un gráfico diferenciando los puntos por color para las tres especies de lirios, pero quieres que solo se vea la linea suavizada para las dos especies más grandes (virginica y versicolor). Los lirios más pequeños son los de la clase setosa. Igual se puede hacer de otra forma pero la que me viene a la cabeza es hacer lo siguiente:


Primero, crear un dataset que sólo contenga a los lirios grandes, los de las especies virginica y versicolor.

```{r}
iris2 <- iris %>% filter(Species != "setosa") #- me quedo con los lirios que no son de clase "setosa"
```

Para después hacer el gráfico con cualquiera de las 2 expresiones siguientes. Prefiero la segunda porque hay que teclear/escribir menos, pero puede que sea más didáctica la primera.

```{r, eval = FALSE}
ggplot() + geom_point(data = iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_smooth(data = iris2, aes(Sepal.Length, Petal.Length) ) 

ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(aes(color = Species)) + geom_smooth(data = iris2)
```

<br>

**Otro ejemplo** más: ¿y si quisiéramos que las 2 especies grandes se representen con el mismo color? Hay varias soluciones, una de las más marcianas es la que propongo abajo. Es una solución rara, pero creo que os ayudará a entender `ggplot2`

Primero voy a crear un nuevo data.frame sólo con las observaciones de los lirios pequeños, los de la clase setosa.

```{r}
iris_setosa <- iris %>% filter(Species == "setosa") #- me quedo con los lirios pequeños, los de clase "setosa"
```


```{r}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_point(data = iris_setosa, aes(color = Species)) + geom_smooth(data = iris2,aes(Sepal.Length, Petal.Length) )
```

Otra solución, quizás más lógica, consiste en primero agrupar las 2 especies de lirios grandes (versicolor y virginica) en una sola clase.


```{r}
iris_solo_2_clases <- iris %>% mutate(Species_2 = ifelse(Species %in% c("versicolor", "virginica"), "versi_virgi", "setosa"))
```

Para después hacer el gráfico. Además el gráfico lo podemos hacer al menos de 2 maneras, la segunda mucho mejor, la primera expresión es un poco enrevesada:

```{r, eval = FALSE}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_point(data = iris_setosa, aes(color = Species)) + geom_smooth(data = iris_solo_2_clases,aes(Sepal.Length, Petal.Length, color = Species_2) )

ggplot(iris_solo_2_clases, aes(Sepal.Length, Petal.Length, color = Species_2)) + geom_point() + geom_smooth()
```


```{r, echo = FALSE}
ggplot(iris_solo_2_clases, aes(Sepal.Length, Petal.Length, color = Species_2)) + geom_point() + geom_smooth()
```


Como veis, en `ggplot2` hay varias maneras de hacer el mismo gráfico. Esto al principio puede abrumar/molestar, pero muestra la flexibilidad de la sintaxis.


Para ir acabando con la "filosofía"/sintaxis/gramática de `ggplot2` intenta imaginar que gráficos hacen las 6 expresiones de más abajo.

Si no puedes, recuerda que siempre puedes ejecutar las ordenes en el ordenador. Fíjate sobre todo en la tercera expresión

```{r, eval = FALSE}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point(color = "purple") + geom_smooth()

ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth(color = "brown")
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth(aes(color = Species))
ggplot(iris) + geom_point(aes(Sepal.Length, Petal.Length, color = Species) ) + geom_smooth(aes(Sepal.Length, Petal.Length, color = Species))
```

<br>

```{r, echo = FALSE, out.width = "100%"}
p1 <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth()
p2 <- ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth()
p3 <- ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point(color = "purple") + geom_smooth()
p4 <- ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth(color = "brown")
p5 <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth(aes(color = Species))
p6 <- ggplot(iris) + geom_point(aes(Sepal.Length, Petal.Length, color = Species) ) + geom_smooth(aes(Sepal.Length, Petal.Length, color = Species))

p1 + p2 + p3 + p4 + p5 + p6 + plot_layout(ncol = 2)
```



En la tercera expresión se especifica `color = Species` dentro de `aes()` en `ggplot()`, así que, de momento, todos los geoms del gráfico deberían diferenciar por especies de lirios usando el color, PERO, después se vuelve a usar el argumento `color` dentro de `geom_point()`, pero fíjate que no va dentro de de `aes()`, va fuera. Concretamente hacemos lo siguiente: `geom_point(color = "purple")`; es decir, para la capa de puntos, y solo para la capa de puntos que se crea con `geom_point()`, estamos asociando la estética color, no a una variable, sino a un color fijo. Sin embargo, para la otra capa del gráfico, la que resulta de usar `geom_smooth()` sigue siendo valido que la estética color está asociada a la variable Species. 


Un detalle: imagina que en un gráfico en el que has fijado 3 estéticas dentro de `ggplot(aes())`. En principio las 3 estéticas afectarán a todos los `geom_xx()` que utilices en tu gráfico, pero si quisieras que, por ejemplo, la estética color no afectase a un geom concreto, podrías hacer lo siguiente: `geom_xx(aes(color = NULL))`.   


Como puedes imaginar, aún tenemos que ver más elementos de `ggplot2`. Como mínimo los títulos y leyendas, los ejes, el tema, coordenadas, etc... vamos a ello!!

<br>


## 3. Elementos de un ggplot


Ya hemos presentado los principales elementos de los gráficos hechos con `ggplot2`, los que tienen que ver con la representación de las variables. Pero es evidente que un gráfico tiene muchos más elementos, y lógicamente hay que conocerlos un poco  para poder ajustar los gráficos a nuestras necesidades y mejorar la calidad de nuestros gráficos. 

Ejemplos de otros elementos son: títulos del gráfico y de los ejes, "theme" del gráfico, small multiples o faceting, anotaciones etc...

En está sección iremos más rápido. Se presentarán solamente algunos ejemplos, conceptos y/o aclaraciones. Si necesitas profundizar más en estos elementos, puedes acudir a la [referencia oficial](https://ggplot2.tidyverse.org/reference/index.html#section-layer-geoms) de `ggplot2` o al [bookdown de ggplot2](https://ggplot2-book.org/).


Ya dijimos que los gráficos ggplot se componen de capas o layers. Para nosotros, hasta ahora, una capa estaba compuesta de 3 elementos:

  - un conjunto de datos  
  
  - un conjunto de variables mapeadas con `aes()` a propiedades estéticas  
  
  - una geometría, con `geom_xx()` 
  
Es evidente que en todos los geoms no se pueden especificar todas las características estéticas. Por ejemplo si usas `geom_point` no podrás especificar la anchura o el tipo de las lineas, porque no estás usando lineas sino puntos. Para ver que estéticas admite cada geom tendrás que mirar la ayuda de cada geom. Al final de [este post](https://www.yihanwu.ca/post/geoms-and-aesthetic-parameters/) tienen un gráfico interactivo con el que se puede  ver fácilmente que características estéticas admite cada geom. Por ejemplo `geom_bar()`, que sirve para hacer gráficos de barras, no admite mappear variables al eje Y, ya que en el eje Y se visualizan/mapean las frecuencias absolutas o relativas de la variable que se representa en el eje X.

<br>

Esto es lo básico que hay que saber, pero en realidad, una capa necesita de dos elementos más: una **stat** (o transformación estadística) y una **posición**.  Estos dos últimos elementos son necesarios pero la verdad es que podríamos seguir haciendo gráficos con `ggplot2` sin conocerlos. ¿Por qué? Pues porque si en una capa no los especificamos, lo hace `ggplot2` por nosotros. Lo ha estado haciendo hasta ahora en todos los gráficos que llevamos hechos. Pero claro, saber como utilizar estos elementos nos dará más flexibilidad a la hora de hacer ggplots.


Generalmente las capas se van añadiendo con la familia de funciones `geom_xx()`, **PERO** también se pueden añadir capas con otra familia de funciones `stat_xx()`. 


Aparte de estos cinco elementos (datos, aes(), geom, stat y posición) los gráficos ggplot pueden tener más elementos. Veámoslos uno a uno.

<br>

### 3.1 Títulos del gráfico

Es evidente que un gráfico para ser efectivo y mostrar su mensaje con claridad debe tener un título y/o subtítulo ilustrativo y debe mostrar información relevante sobre que variables se grafican los ejes X e Y. Este tipo de elementos pueden modificarse de varias maneras, pero nos centraremos en la función `labs()`. 

Fíjate que con la función `labs()`, de labels, podemos cambiar los títulos del gráfico, de los ejes y también de las leyendas. 

En los títulos (tanto del gráfico, como de los ejes y leyendas) también se pueden cambiar otras características; por ejemplo, cambiar el tamaño, la fuente o el color, pero eso será tarea de otra función de `ggplot2`: del grupo de funciones `theme_()`. Pero el tema o theme de los gráficos lo veremos en el siguiente apartado.


Tomemos el siguiente gráfico como referencia y sobre él iremos añadiendo elementos:

```{r}
p <- ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point()
p
```

Con la función `labs()` podemos añadirle un título, subtitulo, pie de gráfico o *caption*. También podemos cambiar el título de los ejes X e Y, así como también el titulo de la leyenda para `color`, o para otras estéticas que utilicemos en el gráfico.

Es suficiente con ver un ejemplo:


```{r}
p + labs(title = "Gráfico 1: Longitud del sépalo frente al pétalo",
       subtitle = "(diferenciando por especie de lirio)",
       caption = "Datos provenientes del Iris dataset",
       x = "Longitud del sépalo",
       y = "Longitud del pétalo",
       color = "Especie de lirio")
```


Si quisieras eliminar completamente los **títulos**  del eje X podrías hacerlo en el anterior chunk fijando `x = NULL` dentro de la función `labs()`.


En lugar de usar la función `labs()`, también podemos utilizar las funciones auxiliares `xlab()` e `ylab()`


```{r, eval = FALSE}
p + labs(color = NULL, x = NULL)  #- borra el título de la leyenda y del eje X
p + xlab(NULL) + ylab(NULL)       #- elimina títulos de los ejes X e Y
```


```{r, echo = FALSE, out.width = "90%",  fig.asp = 3/9}
p1 <- p + labs(color = NULL, x = NULL)  #- borra el título de la leyenda y del eje X
p2 <- p + xlab(NULL) + ylab(NULL)       #- elimina títulos de los ejes X e Y

p1 + p2 + plot_layout(ncol = 2)
```




### 3.2 Themes

> Themes control the display of all non-data elements of the plot. You can override all settings with a complete theme like theme_bw(), or choose to tweak individual settings by using theme() and the element_ functions. Use theme_set() to modify the active theme, affecting all future plots.

Para cambiar detalles de la apariencia del gráfico como el tamaño, fuentes y color de los títulos, pero también de los puntos, las lineas, el fondo del gráfico, la apariencia de las grid-lines, el lugar para las leyendas, etc... etc... contamos con las "funciones de tema"; todas ellas comienzan con `theme_()`

En general con las funciones `theme_()` podemos cambiar/ajustar cualquier elemento del gráfico, con la excepción de la propia representación de los datos (ya sabemos que esto se hacen con las funciones `geom_()`). Estos elementos afectan a la apariencia y detalles del gráfico, pero no a la relación entre variables que se muestra realmente en el gráfico.


Para empezar a entender que hacen las funciones relacionadas con el theme, señalar que `ggplot2` incorpora un conjunto de "temas" que podemos utilizar para cambiar la apariencia del gráfico a nuestro gusto. Puedes verlos todos [aquí](https://ggplot2.tidyverse.org/reference/ggtheme.html). El tema que usa por defecto `ggplot2` es `theme_gray()`. Veamos a los themes en acción:



```{r, eval = FALSE}
p + theme_gray()   #- tema por defecto
p + theme_light()
p + theme_dark()
p + theme_classic()
p + theme_minimal()
p + theme_void()
```


```{r, echo = FALSE, out.width = "90%",  fig.asp = 5/9}
p1 <- p + theme_gray()   #- tema por defecto
p2 <- p + theme_light()
p3 <- p + theme_dark()
p4 <- p + theme_classic()
p5 <- p + theme_minimal()
p6 <- p + theme_void()

p1 + p2 + p3 + p4 + p5 + p6 + plot_layout(ncol = 2)
```



El paquete de R [ggthemes](https://jrnold.github.io/ggthemes/reference/index.html) incorpora una amplia lista de temas adicionales, algunos de ellos tratan de replicar el estilo de corporaciones famosas como The Economist o Stata. En el tutorial no se ven bien los gráficos porque los he hecho pequeñitos, pero prueba a hacerlos tú mismo y verás que son good-looking. Veamos algunos:



```{r, eval = FALSE}
library(ggthemes)
p + theme_economist()   
p + theme_fivethirtyeight()
p + theme_stata()
p + theme_solarized()
```



```{r, echo = FALSE, out.width = "85%",  fig.asp = 5/9}
library(ggthemes)
p1 <- p + theme_economist() 
p2 <- p + theme_fivethirtyeight()
p3 <- p + theme_stata()  
p4 <- p + theme_solarized()

p1 +  p2 + plot_layout(ncol = 2)
p3 +  p4 + plot_layout(ncol = 2)


```




También podemos definir un tema propio para que el gráfico se ajuste los más posible a nuestras preferencias.


```{r, out.width = "50%",  fig.asp = 4/9}
# define custom theme
my_theme <- theme(axis.text.x = 
                  element_text(colour = "grey20", size = 12, angle = 90, hjust = 0.5, vjust = 0.5) ,                   axis.text.y = element_text(colour = "grey20", size = 12) ,
                  text = element_text(size = 16))
p + my_theme
```


Se puede fijar el tema/theme de los gráficos con la función `theme_set()`. Por ejemplo:

```{r, eval = FALSE}
theme_set(theme_minimal())  #- un tema concreto
theme_set(theme_minimal() + 
    theme(axis.text.x=element_blank(), axis.ticks.x=element_blank())) #- un tema modificando algunas opciones, que ele eje x no muestre ticks ni escalas
```

Si quieres volver al theme por defecto:


```{r, eval = FALSE}
theme_set(theme_gray())
```


Ejemplos de algunos elementos cuya apariencia que se pueden cambiar con `theme()`

```{r, eval = FALSE}
p + theme(legend.position = "none")            #- que no aparezca leyenda
p + theme(legend.position = "bottom")          #- leyenda abajo
p + theme(legend.direction = "horizontal")     #- leyenda horizontal!!
p + theme(legend.title = element_text(size = 22))     #- título de la leyenda a 22
p + theme(legend.key.size = unit(2.4, "cm"))          #- tamaño de los cuadros de la leyenda


p + theme(text = element_text(size = 20, face = "bold"))         #- cambiar el tamaño de todos los elementos de texto
p + theme(text = element_text(face = "bold"))                    #- pone en negrita todos los elementos de texto

p + theme(axis.text.x = element_text(colour = "pink", size = 12, angle = 90, hjust = 0.5, vjust = 0.5)) # apariencia de la escala del eje x

p + theme(axis.title.y = element_text(size=25, angle = 45)) #- tamaño y angulo del texto del eje Y

p + theme(plot.subtitle = element_text(hjust = 3))   #- posición horizontal del subtitulo (si lo tuviese)
  
p + theme(plot.caption = element_text(hjust = 3))    #- posición vertical del pie de gráfico (si lo tuviese)

p + theme(panel.background = element_rect(fill = "green", colour = "pink", linetype = "longdash", size = 3.5))
p + theme(panel.background = element_blank())
p + theme(panel.background = NULL)


p + theme(plot.background = element_rect(fill = "pink", colour = "purple", linetype = "dotted", size = 7))
```


Si quieres ver todos las características que controla y que por tanto puedes modificar con `theme()`, usa la ayuda de la función `theme()` o ejecuta en R `args(theme)`. Aunque casi mejor verlas en [esta infografía](https://henrywang.nl/ggplot2-theme-elements-demonstration/) de Henry Wang o en [este post](https://isabella-b.com/blog/ggplot2-theme-elements-reference/) de Isabella Benabaye con las opciones que suele cambiar ella.



En general, si quieres cambiar algún elemento de un ggplot, has de hacer `theme(elemento = element_text())`. Si quieres eliminar por completo algún elemento del gráfico, por ejemplo las grid-lines del gráfico, harías `theme(panel.grid = element_blank())`.


Evidentemente todo esto es imposible de aprender, sólo tienes que saber que cualquier elemento del gráfico se puede cambiar y tienes que saber buscar e interpretar la ayuda.

#### Colores


Se poco de colores, pero claro si quieres cambiar la apariencia de los gráficos, has de saber los colores de R, así que:

- [Aquí](http://sape.inf.usi.ch/quick-reference/ggplot2/colour) tienes una guía para elegir color. Si solo quieres ver la lista de nombres de los colores en R ejecuta: `aa <- as.data.frame(colours())`

- Si sabes el nombre del color que quieres, [aquí](https://pkg.garrickadenbuie.com/r-colors-css/),  podrás buscarlo y ver su color y su codificación en RGB y Hex.


- También es interesante el paquete [paleteer](https://github.com/EmilHvitfeldt/paletteer) que agrupa un conjunto amplio de paletas de colores para usar en R. 

<br>

#### XKCD theme

Por último, no sé si conocéis el [webcomic XKCD](https://xkcd.com/). Pues en R también hay un paquete y un theme para hacer gráficos al estilo XKCD. Es el [paquete xkcd](https://cran.r-project.org/web/packages/xkcd/index.html) cuyo autor es Emilio Torres-Manzanera de la Universidad de Oviedo. [Aquí](http://xkcd.r-forge.r-project.org/) podéis ver algunos gráficos hechos con este estilo en R. 

Intenté hacer un gráfico con su theme, pero desafortunadamente no me salió; pero justo al día siguiente vi [este tweet](https://twitter.com/_Gil_Henriques/status/1166440262773567488?s=09) que hace algo parecido con datos de los Simpsons y [su código](https://github.com/GilHenriques/TidyTuesdays/blob/master/2019-08-27%20Simpsons%20guest%20stars/simpsons.R) sí me ha funcionado, además simula/construye el estilo XKCD desde cero. 



```{r, echo = FALSE, fig.asp = 7/9}
tweetrmd::tweet_embed("https://twitter.com/_Gil_Henriques/status/1166373844040335360", theme = "light", align = "center", maxwidth = 400)
```



Además, después vi que Evangelyne Reinolds hizo [esta maravilla](https://evamaerey.github.io/tidytuesday_walk_through/simpsons.html#1). Lo haremos en clase?! En [este post](https://blog.revolutionanalytics.com/2018/09/curve-fitting.html) puedes encontrar el código para reproducir una de las historias o viñetas de XKCD.
 

<br>


### 3.3 Small multiples o Facetting


El sistema gráfico de `ggplot2` incorpora una técnica especial llamada "faceting" que permite dividir un gráfico en múltiples gráficos. Cada uno de esos múltiples gráficos se realiza sólo para las observaciones de una de los valores de una variable categórica (o factor) incluido en el conjunto de datos. Es más fácil hacerlo que explicarlo/escribirlo.

Por ejemplo, en `iris` tenemos la variable `Species`, que es categórica. Lo que se hace con el "facetting" es dividir el dataset en grupos y hacer el mismo gráfico para cada uno de los grupos. Los grupos se van a definir en función de los valores de la variable Species. Recuerda que hay tres tipos o especies de lirios.

Para hacer un "facetting graph" podemos usar las funciones `facet_wrap()` y `facet_grid()`. 

Por ejemplo, con la función `facet_grid()` puedes elegir entre hacer los small multiples por filas o por columnas. Empecemos haciendo un facetting **por columnas**. Además, con `facet_grid()` se pueden usar varias sintaxis, pero la que aparece en la [cheatsheet actual de ggplot2](https://www.rstudio.com/resources/cheatsheets/) y, por tanto, la recomendada es las que ves en la segunda linea: 


```{r, out.width = "100%", fig.asp = 4/9}
#p + facet_grid( . ~ Species)                # old sintaxis
p + facet_grid(cols = vars(Species))         # gráficos x columnas, separando por valores de 'Species'
```


Ahora por filas:


```{r, out.width = "50%", fig.asp = 9/9}
p + facet_grid(rows = vars(Species))         # gráficos x filas
```


También podemos utilizar la función **`facet_wrap()`**. Esta función reparte los small multiples en una rejilla con forma de matriz. 

```{r, out.width = "90%", fig.asp = 4/9}
p + facet_wrap(vars(Species), nrow = 2, ncol = 2)        # graf x filas y columnas
```


Si en el dataset hubiesen dos variables categóricas podríamos hacer que una de ellas sirviese para llenar las filas y la otra las columnas. 


Como `iris` sólo tiene una variable categórica (Species) vamos a discretizar una de las variables continuas. Por ejemplo la anchura del pétalo, crearemos una nueva variable dividiendo las observaciones de `Petal.Width` en 2 categorías, por encima y por debajo de la media de su media. Además lo vamos  a hacer con R-base y con `dplyr::ntile()`. Seguro que hay mejores formas, [por ejemplo](https://www.rdocumentation.org/packages/arules/versions/1.6-3/topics/discretize)


Con `dplyr::ntile()`

```{r}
iris <- iris %>% mutate(new_variable = ntile(Petal.Width, 2)) 
```

Con R-base y la función `cut()`:

```{r}
iris <- iris
iris$new_variable <- cut(iris$Petal.Width, 
                   breaks = c(-Inf, mean(iris$Petal.Width), Inf), 
                   labels = c("debajo-media", "arriba-media"))
```



Ahora ya tenemos dos variable discreta y podemos hacer que `facet_grid()` utilice una variable para llenar filas y otra para columnas. Se puede especificar de dos maneras


```{r, out.width = "90%", fig.asp = 4/9, eval = FALSE}
ggplot(iris) + geom_point( aes(Sepal.Length, Petal.Length, color = Species)) +
facet_grid(rows = vars(new_variable), cols = vars(Species))        # graf x filas y columnas
```


```{r, out.width = "90%", fig.asp = 4/9}
ggplot(iris) + geom_point( aes(Sepal.Length, Petal.Length, color = Species)) +
facet_grid(new_variable ~ Species)     
```


Como vemos, los lirios de la clase setosa siempre tiene el ancho de su pétalo por debajo de la media, y los virginica siempre están por encima de la media.


#### Ejes de los small multiples


Podemos ajustar las escalas de los ejes para que sean comunes para cada small multiple (la opción por defecto) o dejar que las escalas de cada gráfico varíen en función del rango de los datos representados:

```{r, eval = FALSE}
p + facet_grid(rows = vars(Species))    #- escalas comunes
p + facet_grid(rows = vars(Species), scales = "free")   #- las escalas de cada small pueden variar
p + facet_grid(rows = vars(Species), scales = "free_y") #- solo dejamos libre/variar la escala del eje y
```


Solo muestro el resultado de la segunda expresión:


```{r, out.width = "90%", fig.asp = 4/9, echo = FALSE}
p + facet_grid(rows = vars(Species), scales = "free")   #- las escalas de cada small pueden variar
```


**Un truquito:** el argumento `margin` en `ggplot2::facet_grid()` añade margenes a los small multiples facilitando la visualización. Además añade un nuevo small con todas las observaciones.



```{r, echo = FALSE, fig.asp = 7/9}
tweetrmd::tweet_embed("https://twitter.com/WeAreRLadies/status/1123109094422921216", theme = "light", align = "center", maxwidth = 400)
```



Puedes probarlo tú mismo corriendo lo siguiente:

```{r, out.width = "90%", fig.asp = 4/9}
p + facet_grid(rows = vars(Species),  margins = TRUE)   
```


Otro truco, esta vez avanzado: Un [gist](https://gist.github.com/padpadpadpad/dc1f4520e4f9530b2c70fed0e4a425e9) para poner labels a los smalls multiples.

<br>


### 3.4 Anotaciones

> Annotations are a special type of layer that don’t inherit global settings from the plot. They are used to add fixed reference data to plots.

Las anotaciones en los gráficos permiten resaltar algún fenómeno u observación  de interés, y son importantes a la hora de contar historias (storytelling) con los gráficos y visualizaciones. 

En el entorno `ggplot` podemos hacer anotaciones en nuestro gráficos de varias maneras, por ejemplo con `annotate()`. Aunque conceptualmente, como señala Hadley, las anotaciones son metadatos, desde el punto de vista práctico se usan los mismas funciones o geoms para manipularlos.  


También existen algunas funciones auxiliares en ggplot2 y en paquetes específicos para hacer anotaciones en gráficos ggplot. Por ejemplo, cuando se hacen anotaciones en un gráfico de puntos es fácil que las anotaciones caigan unas encima de otras, el paquete [ggrepel](https://buff.ly/2HXErxL) permite aliviar este problema.

Utilicemos la función `annotate()`. Por ejemplo, el siguiente chunk hace algunas anotaciones sin mucho sentido pero fáciles de entender:


```{r, echo = FALSE}
p <- ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point()
```

Por ejemplo, el siguiente chunk usa `annotate()` para hacer algunas anotaciones sin mucho sentido, pero fáciles de entender:

```{r}
p + annotate(geom = "text", x = 6, y = 2, label = "Una anotación", size = 5) +
    annotate("rect", xmin = 6, xmax = 7,ymin = -Inf, ymax = Inf, alpha = 0.2, fill = "pink") + 
    annotate("segment", x = 5, xend = 7, y = 6, yend = 8, colour = "blue") 
```

<br>

#### Anotaciones de texto en las observaciones

Agregar texto a un gráfico es una de las formas más comunes de anotación. Por ejemplo, para señalizar e identificar observaciones anómalas. Sin embargo, como señala Hadley, añadir texto no es fácil por la forma en la que R maneja las fuentes.

La función principal para el etiquetado de gráficos es `geom_text()`. Por ejemplo:


```{r, eval = TRUE, out.width = "60%"}
p + geom_text(aes(label = Species))
```

También podíamos haber añadido el valor de la longitud del pétalo. 


```{r, eval = TRUE, out.width = "60%"}
p + geom_text(aes(label = Petal.Length))
```



Hemos añadido a cada observación un texto, proveniente de alguna de las variables de `iris`. Este gráfico no es muy útil, pero la técnica sí. Imagina que queremos marcar los lirios 45 y 140^[O marcar/anotar los lirios 2 lirios más grandes o el lirio mediano. ¿Lo hacéis?]. Podemos hacer lo siguiente:


```{r, eval = TRUE, out.width = "60%"}
#- seleccionamos los lirios más grandes de cada especie 
iris_max <- iris %>% group_by(Species) %>% slice_max(Petal.Length, n = 1)

p + 
 geom_text(data = iris_max, aes(label = Species), color = "black", size = 3)
```

Podemos ajustar la posición y tamaño del texto, etc.. Por ejemplo, podemos cambiar la alineación de las anotaciones con con `hjust(“left”, “center”, “right”, “inward”, “outward”)` y `vjust (“bottom”, “middle”, “top”, “inward”, “outward”)`.

<br>


#### Lineas

Podemos añadir lineas: 

```{r, eval = FALSE}
p + geom_vline(xintercept = 6)
p + geom_hline(yintercept = 5, size = 1.7, colour = "purple", linetype = "dashed")
p + geom_abline(intercept = 0.7, slope = 0.4, size = 1.9, colour = "steelblue")
```

<br>


### 3.5 Cambiando los límites de los ejes

  Si quieres modificar el recorrido de los ejes, los "límites" de los ejes, puedes usar `lims()`. Para los ejes X e Y hay dos funciones auxiliares: `xlim()` e `ylim()`. 


```{r, out.width = "60%"}
p + lims(color = c("setosa"), x = c(NA,6), y = c(1,8))
```



```{r, out.width = "60%"}
p + xlim(c (4, 6)) + ylim(c(NA, 5)) 
```

Se puede hasta dar la vuelta a los ejes


```{r, out.width = "60%"}
p + xlim(c (7, 3)) + ylim(c(NA, 5)) 
```


Los límites o dominio del gráfico suelen obtenerse automáticamente de los datos, pero, otra vez according to Hadley, hay dos razones por las que podemos estar interesados en cambiar los límites del gráfico: 

  1) centrarnos en una región especifica del gráfico 
  
  2) aumentar los límites para que varios gráficos ajusten sus escalas.   

<br>

Por ejemplo, si después de hacer un gráfico quieres centrarte sólo en una parte; es decir, hacer un zoom sobre una parte del gráfico, tenemos 2 alternativas:

1. Borrar los puntos que caen fuera de los limites de lo que quieras que se visualice (si en una escala continua solo quieres usar un límite pon NA):


```{r, eval = FALSE}
p + xlim(c(4, 5)) + ylim(c(NA, 5)) #- cuidado, se pueden borrar observaciones
```

Con este enfoque tienes que tener cuidado, ya que  si por ejemplo después utilizar alguna transformación estadística como por ejemplo `geom_smooth()`, las observaciones eliminadas al ajustar los límites no entrarán en el cálculo estadístico. 



```{r, eval = FALSE}
p + geom_smooth(color = "purple")
p + geom_smooth(color = "purple") + xlim(c(4, 5.7)) + ylim(c(1.5, 5))   # deletes points
```


```{r, echo = FALSE, fig.asp = 5/9, out.width = "90%"}
p1 <- p + geom_smooth(color = "purple")
p2 <- p + geom_smooth(color = "purple") + xlim(c(4, 5.7)) + ylim(c(1.5, 5))   # deletes points


p1 + p2 + plot_layout(ncol = 2)
```


2. Cambiar los límites de los ejes X e Y haciendo un zoom en la región de interés pero sin eliminar puntos. Esto lo conseguimos con `coord_cartesian()`.

```{r, eval = FALSE}
p + geom_smooth(color = "purple")
p + geom_smooth(color = "purple") + coord_cartesian(xlim = c(4, 5.7), ylim = c(1.5, 5))
```




```{r, echo = FALSE, fig.asp = 5/9, out.width = "90%"}
p1 <- p + geom_smooth(color = "purple")
p2 <- p + geom_smooth(color = "purple") + coord_cartesian(xlim = c(4, 5.7), ylim = c(1.5, 5))


p1 + p2 + plot_layout(ncol = 2)
```


<br>


### 3.6 Escalas

> Scales control the details of how data values are translated to visual properties. Override the default scales to tweak details like the axis labels or legend keys, or to use a completely different translation from data to aesthetic. labs() and lims() are convenient helpers for the most common adjustments to the labels and limits.

Las escalas permiten leer/interpretar un gráfico; permiten interpretar los elementos geométricos (por ejemplo en nuestro gráfico, los puntos) en función de los valores originales de las observaciones. Las escalas son un elemento más de los gráficos ggplot y se producen/controlan con la familia de funciones `scale_xx()`

En `ggplot2` las escalas o guías se producen automáticamente, no vemos que hagamos nada, pero under the hood se están fijando con la familia de funciones `scale_xx()` que son las que controlan como se mapean los valores de las variables con las propiedades estéticas de nuestro gráfico (por ejemplo el eje X) de forma que podamos interpretar la posición de los distintos puntos mirando las escalas. Las escalas también construyen los elementos que permiten leer/interpretar los gráficos: los ejes y las leyendas.

Como `ggplot2` hace el mapeo y genera las escalas y leyendas automáticamente, en la práctica podemos hacer gráficos sin saber como funcionan y, por tanto, sin saber manipular este elemento de un gráfico ggplot. Pero si aprendemos a manipular las escalas, esto nos dará más flexibilidad a la hora de utilizar `ggplot2`.

En muchos tipos de datos es importante pararse a pensar cual es la mejor escala para representar las variables. Quizás sea conveniente cambiar la escala de un eje para distribuir mejor las observaciones en el espacio, o para interpretar mejor las variaciones entre observaciones; por ejemplo la escala logarítmica o en porcentajes son a veces más apropiadas que las escalas originales.


En realidad, para cada par variable/estética representada en un gráfico ggplot es necesaria una escala, y tendría que fijarse con una de las funciones de la familia `scale_xx()`. Realmente cuando hacemos este gráfico, en el que asociamos 3 variables a 3 propiedades estéticas con `aes()`, se necesitaría especificar las escalas de las 3 variables:


```{r}
p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) +  geom_point(aes (color = Species)) 
```

Bien, pero entonces ¿por qué no lo hacemos?, ¿por qué no especificamos las escalas? Pues porque lo hace `ggplot2` por nosotros. En realidad cuando ejecutamos la expresión anterior, realmente se está haciendo lo siguiente:


```{r, eval = FALSE}
ggplot(iris, aes(Sepal.Length, Petal.Length)) +   geom_point(aes (color = Species)) +
  scale_x_continuous() + 
  scale_y_continuous() + 
  scale_color_discrete()
```

Es decir, `ggplot2` asigna a cada variable una escala, a las variables continuas les asigna una escala continua y a las categóricas una escala discreta. PERO, si queremos, si lo consideramos apropiado podríamos cambiar la escala. Por ejemplo:


```{r, eval = FALSE}
p + scale_y_reverse() + scale_colour_grey()
p + scale_x_sqrt() + scale_y_log10()
p + scale_x_continuous(trans = "log")
p + scale_color_brewer(palette = "Dark2")
```

Solo represento la primera transformación, en la que se da la vuelta a la escala del eje Y y el color, asociado a la variable Species, pasa a escala de grises:

```{r, echo = FALSE, fig.asp = 5/9, out.width = "60%"}
p + scale_y_reverse() + scale_colour_grey()
```

<br>

#### Labels de los ejes

También se pueden modificar lo que vemos en los escalas. Antes vamos a modificar los títulos de los ejes y leyendas.


```{r, eval = TRUE}
p <- p + labs(x = "Eje X", y = "Eje Y", color = "Leyenda\n para el color")
```


De momento la escala del eje X varia aproximadamente de 3 a 8. Los títulos de la escala del eje X sólo muestra los valores 5, 6, 7 y 8. Vamos a modificar "el texto", los números que se ven y que sirven de guía para la escala del eje X:

```{r, eval = TRUE, out.width = "45%"}
p + scale_x_continuous(breaks = seq(3, 10, 0.5), limits = c(3, 10)) 
```


En el eje Y se ven los números 2, 4 y 6. Cambiemos los labels de su escala (no del eje Y, sino de la escala del eje Y):


```{r, eval = TRUE, out.width = "45%"}
p + scale_y_continuous(breaks = seq(0, 12, 0.25),  label = scales::dollar) 
```



También se pueden modificar los de la leyenda para el color:


```{r, eval = TRUE, out.width = "45%"}
p + scale_color_manual(values = c("purple", "pink", "red2"), name = "Especies\n de lirios")
```

Si hubiese usado una variable discreta asociada  a la estética "shape", tendríamos que usar `scale_shape_discrete()`, si la variable asociada a shape fuese continua: `scale_shape_continuous()`

¿Y si hubiésemos usado una variable continua para la estética "fill"? Pues `scale_fill_continuous()`

<br>

#### Familia de funciones de escala

  • scale_*_continuous()  
  • scale_*_discrete()  
  • scale_*_ordinal()  
  • scale_*_manual()  
  • scale_{color/fill}_brewer()  
  • scale_{color/fill}_distiller()  
  • scale_{color/fill}_gradient()  


<br>

### 3.7 Stats (transformaciones estadísticas)


Puede leerse en la web de `ggplot2`, concretamente [aquí](https://ggplot2.tidyverse.org/reference/) lo siguiente:

> A layer combines data, aesthetic mapping, a geom (geometric object), a stat (statistical transformation), and a position adjustment. Typically, you will create layers using a geom_ function 

PERO

> A handful of layers are more easily specified with a stat_ function, drawing attention to the statistical transformation rather than the visual appearance. The computed variables can be mapped using stat().

Algunos gráficos, como los gráficos de puntos, no requieren del uso de transformaciones estadísticas de las observaciones, pero otros gráficos como rectas o curvas de predicción o como los boxplots o diagramas de caja, sí que las necesitan ^[Por ejemplo, piensa que lo que se visualiza con `geom_smoth()` no son los datos originales sino, por ejemplo, la linea de regresión si usamos `geom_smoth(method = "lm")`]. Podemos usar transformaciones estadísticas en gráficos ggplot con la familia de funciones **`stat_xx()`**

Por ejemplo, cuando se hace un diagrama de caja o boxplot, no se representan las observaciones originales, sino que se muestran 5 estadísticos resumen de la distribución de los datos; es decir, se utiliza una transformación estadística. Cuando usábamos `geom_smoth()` tampoco representábamos con él los datos originales, sino una transformación estadística de estos. Concretamente la transformación estadística que utiliza `geom_smoth()` es genéricamente un "smoother", calcula mediante una rolling-windows la media de y, condicionada a x.  

Cada función `geom_xx()` que utilicemos, en realidad necesita de un stat_xx(), entonces ¿por qué nunca lo hemos usado/especificado nosotros? Con `ggplot2` la razón es casi siempre la misma: porque under the hood `ggplot2` hace muchas cosas por nosotros. En concreto, cada vez que usamos un `geom_xx()` en realidad `ggplot2` está fijando una transformación estadística por defecto por nosotros. Ggplot es un sistema muy completo, pero aún así, una vez lo entiendes, hacer gráficos con el es relativamente fácil y rápido porque muchas de sus opciones opciones no hace falta especificarlas directamente.


Por ejemplo, ¿cual es la transformación estadística que se usa por defecto en geom_point()? Ninguna, bueno, en realidad usa  `stat = "identity"`, pero como lo especifica ggplot2 automáticamente, nosotros no nos damos cuenta.

Cuando hacíamos este gráfico:

```{r, eval = FALSE}
ggplot(iris, aes(Petal.Length, Sepal.Length)) + geom_point() 
```

En realidad estábamos haciendo


```{r, eval = FALSE}
ggplot(iris, aes(Petal.Length, Sepal.Length)) + geom_point(stat = "identity")
```

¿Qué transformaciones estadísticas podemos hacer cuando usemos `geom_point()`? Por ejemplo, `geom_point(stat = "unique")` sólo representaría las observaciones únicas o NO repetidas. En este caso creo que iris no tiene observaciones repetidas, así si ejecutáis la instrucción de abajo se seguirán visualizando los 150 lirios.

```{r, eval = FALSE}
ggplot(iris, aes(Petal.Length, Sepal.Length)) + geom_point(stat = "unique") #- dejaría solo observaciones no repetidas
```


Podemos consultar las opciones por defecto completas de `geom_point()` [aquí](https://ggplot2.tidyverse.org/reference/geom_point.html)



Cada `geom_xx()` tiene un default statistic, pero podemos cambiarlo y especificar otra stat para adaptarlo a nuestras necesidades. Por ejemplo, the default statistic for `geom_bar()` is `stat_bin()` pero podemos usar otras stat_xx. Otra vez parece un trabalenguas, pero cuando lo entiendes es relativamente sencillo. 

Por ejemplo, en nuestro gráfico de puntos, podemos usar otras transformaciones estadísticas, una de las que más sentido tiene es calcular medias móviles con un método de alisado (smoother)



```{r, eval = FALSE}
p <- ggplot(iris, aes(Petal.Length, Sepal.Length, color = Species)) 

p + geom_point(stat = "identity")

p + geom_point(stat = "smooth", method = "auto")
```


Aunque en este caso es bastante más fácil hacerlo con:


```{r, eval = FALSE}
p + geom_point() + geom_smooth()
p + geom_point() + stat_smooth()

p + geom_point() + stat_smooth(method = "lm",   se = FALSE,  size = 1)
p + geom_point() + geom_smooth(method = "lm",   se = FALSE,  size = 1)

p + geom_point() + geom_smooth(method = "lm", col = "#C42126",  se = FALSE,  size = 1)
```

<br>

Algunas transformaciones estadísticas útiles y en qué geoms están disponibles:

    - stat_bin(): geom_bar(), geom_freqpoly(), geom_histogram()  
    - stat_bin2d(): geom_bin2d()  
    - stat_bindot(): geom_dotplot()  
    - stat_binhex(): geom_hex()   
    - stat_boxplot(): geom_boxplot()    
    - stat_contour(): geom_contour()  
    - stat_quantile(): geom_quantile()   
    - stat_smooth(): geom_smooth()  
    - stat_sum(): geom_count()   

Es raro que tengamos que usar estas funciones `stats_xx()` directamente, pero si quieres ver que hacen exactamente conviene consultar la documentación para ver qué hace y cómo se aplica exactamente cada transformación estadística a los datos.

Hay otras funciones `stat_xx()` que no se pueden utilizar con las funciones `geom_xx()`:

    - stat_ecdf(): compute a empirical cumulative distribution plot.  
    - stat_function(): compute y values from a function of x values.  
    - stat_summary(): summarise y values at distinct x values.  
    - stat_summary2d(), stat_summary_hex(): summarise binned values.  
    - stat_qq(): perform calculations for a quantile-quantile plot.  
    - stat_spoke(): convert angle and radius to position.  
    - stat_unique(): remove duplicated rows.  

<br>

#### Algunos ejemplos

Veamos algunos ejemplos útiles:

1. En un diagrama de caja mostrar la media:
 
Queremos que la media se represente como un punto, entonces usamos `geom_point()` pero no queremos representar los valores originales, sino la media, así que dentro de geom usamos la opción `stat = summary`
 
```{r}
ggplot(iris, aes(Species, Sepal.Length)) + 
  geom_boxplot() + 
  geom_point(stat = "summary", fun.y = "mean", colour = "red", size = 4)
```

Se conseguiría los mismo usando directamente la  función `stat_summary()` con la opción geom = "point". Sí, en `ggplot2` las cosas se pueden hacer de varias maneras!!


```{r, eval = FALSE}
ggplot(iris, aes(Species, Sepal.Length)) + 
  geom_boxplot() + 
  stat_summary(geom = "point", fun.y = "mean", colour = "red", size = 4)
```

2. **Otro ejemplo:** el default stat de geom_histogram es stat = "bin", mostrandonos el número de observaciones en cada bin. Si queremos que nos muestre frecuencias relatívas al grupo o bin más numeroso: 

```{r, eval = FALSE}
ggplot(iris, aes(Sepal.Length)) + geom_histogram() 

ggplot(iris, aes(Sepal.Length)) + geom_histogram(aes(y = stat(count / max(count))))
```

```{r, echo = FALSE, out.width = "90%",  fig.asp = 5/9}
p1 <- ggplot(iris, aes(Sepal.Length)) + geom_histogram() 
p2 <- ggplot(iris, aes(Sepal.Length)) + geom_histogram(aes(y = stat(count / max(count))))
p1 + p2  + plot_layout(ncol = 2)
```



<br>

**Bonus:** Con `stat_function()` podemos dibujar curvas de densidad:

```{r, eval = FALSE}
df <- tibble(x = c(-20, 20))
  
ggplot(df, aes(x = x)) +
stat_function(fun = dnorm, args = list(mean = 0, sd = 5), color = "black") +
stat_function(fun = dnorm, args = list(mean = 0, sd = 1), color = "red") +
stat_function(fun = dnorm, args = list(mean = 0, sd = 3), color = "blue")
```


<br>

### 3.8 Position adjustments


> All layers have a position adjustment that resolves overlapping geoms. Override the default by using the position argument to the geom_ or stat_ function.


Los ajustes de posición afectan a la posición de los elementos de una capa. Los gráficos en los que más se utilizan los ajustes de posición son los gráficos de barras. Su posición por defecto es position = "stack". Se pueden cambiar con el argumento geom_bar(position = "xxxx")` , aunque si usas las funciones `position_xx()` tienes más flexibilidad:

```{r, eval = FALSE}
ggplot(iris , aes(Species)) + geom_bar()
ggplot(mtcars, aes(cyl)) +  geom_bar()
```


```{r, echo = FALSE, out.width = "90%",  fig.asp = 5/9}
p1 <- ggplot(iris , aes(Species)) + geom_bar()  #- tema por defecto
p2 <- ggplot(mtcars, aes(cyl)) +  geom_bar()

p1 + p2  + plot_layout(ncol = 2)
```

Para poder visualizar gráficos de barras con 2 variables,tenemos que usar otro dataset: `mtcars`

```{r, eval = FALSE}
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar() #- pos
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "fill")
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "dodge")
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = position_dodge2(preserve = "single"))
```


```{r, echo = FALSE, out.width = "100%",  fig.asp = 5/9}
p1 <- ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar() #- pos
p2 <- ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "fill")
p3 <- ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "dodge")
p4 <- ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = position_dodge(preserve = "single"))

p1 + p2 + p3 + p4 + plot_layout(ncol = 2)
```

<br>

Por ejemplo, podemos modificar la posición por defecto de nuestro gráfico de puntos con el iris dataset usando dos enfoques:

```{r, eval = FALSE}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_point(position = "jitter", color = "pink") 
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_jitter( color = "pink") 
```



```{r, echo = FALSE}
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_point(position = "jitter", color = "pink") 
```

`geom_jitter()`, o alternativamente `geom_point(position = "jitter")` cambia la posición original de los datos añadiendo un poco de ruido, haciendo que se desplacen un poco. Esta técnica se usa muchos cuando hay muchos datos similares (overplotting).


<br>

### 3.9 Coordenadas

> The coordinate system determines how the x and y aesthetics combine to position elements in the plot. The default coordinate system is Cartesian (coord_cartesian()), which can be tweaked with coord_map(), coord_fixed(), coord_flip(), and coord_trans(), or completely replaced with coord_polar()


Por ejemplo: `coord_fixed()`. En nuestro gráfico, tanto la longitud del pétalo como del sépalo se miden en las mismas unidades, así que su ratio implícito es 1 a 1. Cambiemos el ratio de las coordenadas con `coord_fixed()`

```{r, eval = FALSE}
p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() 

p + coord_fixed(ratio = 1/3)
p + coord_fixed(ratio = 3/1)
```



```{r, echo = FALSE, out.width = "100%",  fig.asp = 5/9}
p1 <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() 
p2 <- p1 + coord_fixed(ratio = 1/3)
p3 <- p1 + coord_fixed(ratio = 3/1)

p2 + p3 + plot_layout(nrow = 1)
#https://www.statworx.com/de/blog/coordinate-systems-in-ggplot2-easily-overlooked-and-rather-underrated/
```




<br>


## 4. Combinando gráficos


La técnica del faceting es una fantástica herramienta para dividir un gráfico en varios, en principio en función de una variable categórica, si queremos usar una variable continua primero habría que discretizarla. **PERO**, a veces lo que interesa es crear una figura compuesta de varios gráficos diferentes. Esto no es un elemento más de ggplot2 es una operación que hacemos sobre un grupo de varios gráficos.


Podemos hacerlo con varios paquetes:

- con el paquete `gridExtra` y su función `grid.arrange()`

```{r, eval = TRUE, out.width = "80%"}
library(gridExtra)
p1 <- ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point()
p2 <- ggplot(iris)+ aes(Species, Sepal.Length) + geom_boxplot()

grid.arrange(p1, p2, ncol = 2, widths = c(6.5, 3.5))
```

Además de los argumentos ncol, nrow y widths, con  `gridExtra` se pueden hacer composiciones [más complejas](https://cran.r-project.org/web/packages/gridExtra/vignettes/arrangeGrob.html)


- con el paquete [`patchwork`](https://github.com/thomasp85/patchwork) 



```{r, eval = TRUE, out.width = "80%"}
library(patchwork)
p1 + p2 + plot_layout(ncol = 2)
```

- con el paquete [`cowplot`](https://cran.r-project.org/web/packages/cowplot/vignettes/introduction.html). Este paquete también se puede utilizar para hacer anotaciones o para incorporar imágenes a nuestros gráficos


```{r}
library(cowplot)
ggdraw(p1) + draw_image(here::here("./imagenes/Captura.JPG"), 
               x = 1, y = 1, hjust = 1, vjust = 1, width = 0.33, height = 0.42)
```


<br>


## 5. Exportando gráficos

La mayoría de las veces, cuando creamos un gráfico lo vemos inmediatamente, pero también podemos asignarle un nombre y manipularlo más adelante. 

```{r, eval = FALSE}
p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point()
p + geom_line()
```


Una vez que tienes el gráfico guardado como un objeto en el R environment puedes hacer varias cosas con él:

1. verlo en la pantalla con `print()` o llamándolo con "su nombre".

2. guardarlo en un fichero en diferentes formatos. Piensa que estamos guardando el gráfico, la imagen, la representación del gráfico, no el objeto R.

    - Podemos usar la "Export Tab" en el Plot Pane de Rstudio. Lo grabará en baja resolución.  También podemos cambiar las dimensiones (anchura y altura) del gráfico. Si vamos a utilizar el gráfico en Word es conveniente guardar el gráfico como Metafile.
    
    - Como alternativa podemos usar la función `ggsave()` que, ademas, nos permite cambiar el tamaño y la resolución del gráfico con los argumentos width, height y dpi. Nota: Los parámetros width and height también determinan el tamaño de la fuente del gráfico guardado.

    

```{r, eval = FALSE}
ggsave("./graf_out/my_grafico_chulo.png", p, width = 15, height = 10)
ggsave("filename.png", plot = my_plot, width = 8, height = 6, units = "in", dpi = "retina")

# Tb funciona para figuras compuestas de varios gráficos
grafico_combinado <- grid.arrange(p1, p2, ncol = 2, widths = c(6, 4))
ggsave("fig_output/my_combo_plot.png", grafico_combinado, width = 10, dpi = 300)
```


- Finalmente, podemos guardar una copia completa del gráfico, no de su representación visual, sino del objeto R con `saveRDS()`, para luego leerlo con `readRDS()`. Aunque, ya que nos ponemos, es mejor guardar el script que genera el objeto. Sólo tendría sentido si  fuese muy costoso, por ejemplo en términos de tiempo, reproducir el gráfico.

```{r, eval = FALSE}
saveRDS(p, "plot.rds")
my_valioso_grafico <- readRDS("plot.rds")
```


<br>

--------------------------------------------------------

## 6. Tipos de gráficos

En está sección presentaremos algunos ejemplos de algunos de los gráficos más utilizados en el análisis de datos. Puedes ver listados más completos en:

  - [R-graph gallery](https://www.r-graph-gallery.com/): Impresionante!!


  - [Top 50 ggplot2 Visualizations (With Full R Code), de r-statistics.co](http://r-statistics.co/Top50-Ggplot2-Visualizations-MasterList-R-Code.html): más básico pero muy didáctico.

  
  - [Extensiones ggplot2](https://exts.ggplot2.tidyverse.org/): Impresionante!!

  - [R-graph gallery - ggplot2 package](http://r-graph-gallery.com/ggplot2-package.html): otra vez, impresionante!!


<br>

### 6.1 Histogramas

Se utilizan para mostrar la **distribución de UNA variable continua**, por ejemplo la longitud del sépalo (Sepal.Length).

Para hacer histogramas en ggplot2 se utiliza `geom_histogram` y, a veces, `geom_freqpoly()`. Los dos geoms trabajan de la misma manera, dividen la variable x en intervalos y cuentan las observaciones en cada intervalo, para mostrarlas en el eje Y. La diferencia entre ellos es que `geom_histogram` utiliza barras para mostrar el número de observaciones o frecuencia absoluta, mientras que  `geom_freqpoly()` usa lineas. 

```{r}
ggplot(iris, aes(Sepal.Length)) + geom_histogram() 
```

Como ves, lo que hace un histograma es dividir el eje X en intervalos o "bins" y mostrar en el eje Y el número de observaciones de x que caen en cada "bin". Además, ggplot2 nos avisa de que por defecto se divide el eje X en 30 intervalos, pero que podemos cambiarlo con `bins = my_n_de_bins`. 


```{r, eval = FALSE}
p <- ggplot(iris, aes(Sepal.Length))
p + geom_histogram(bins = 40) + xlab("40 intervalos")
p + geom_histogram(bins = 4) + xlab("Sólo 4 intervalos")
```


```{r, echo = FALSE, out.width = "95%"}
p <- ggplot(iris, aes(Sepal.Length))
p1 <- p + geom_histogram(bins = 40) + xlab("40 intervalos")
p2 <- p + geom_histogram(bins = 4) + xlab("Sólo 4 intervalos")
p1 + p2 + plot_layout(ncol = 2)
```


Otra opción interesante es elegir la anchura del intervalo con la opción `binwidth`.

```{r, eval = FALSE}
p <- ggplot(iris, aes(Sepal.Length))
p + geom_histogram(binwidth = 0.1) + xlab("He elegido la anchura = 0.1")
p + geom_histogram(binwidth = 1.1) + xlab("Esta vez la anchura = 1.1")
```


```{r, echo = FALSE, out.width = "95%"}
p <- ggplot(iris, aes(Sepal.Length))
p1 <- p + geom_histogram(binwidth = 0.1) + xlab("He elegido la anchura = 0.1")
p2 <- p + geom_histogram(binwidth = 1.1) + xlab("Esta vez la anchura = 1.1")
p1 + p2 + plot_layout(ncol = 2)
```


Si en el eje Y queremos frecuencias relativas o porcentajes en lugar de counts, podemos hacerlo con:

```{r}
ggplot(iris, aes(Sepal.Length)) + 
  geom_histogram(aes(y = stat(count) / sum(count)), bins = 10) +
  scale_y_continuous(labels = scales::percent)
```


Se puede mejorar bastante la apariencia del histograma jugando con los colores y opciones:

```{r}
ggplot(iris, aes(Sepal.Length)) + geom_histogram(bins = 10, color = "black", fill = "tomato")
```



Si asociamos/mapeamos la variable Species a alguna estética, por ejemplo a la estética "fill" o relleno de las barras con `aes(fill = Species)`, se visualizará qué parte de cada intervalo pertenece a cada clase de lirio.



```{r}
ggplot(iris, aes(Sepal.Length)) + geom_histogram(bins = 10, aes(fill = Species), color = "black")
```


Evidentemente, también podemos visualizar como cambia la distribución de la anchura del sépalo entre los 3 tipos de lirios si hacemos un small multiple:


```{r}
p <- ggplot(iris, aes(Sepal.Length, fill = Species)) + geom_histogram(bins = 10, color = "black")
p + facet_grid(cols = vars(Species))
```

Para mejorar la visualización podemos poner en el fondo el histograma para todos los datos. Lo aprendí [aquí](https://drsimonj.svbtle.com/plotting-background-data-for-groups-with-ggplot2), aunque ahora mismo hay un paquete para implementar esta técnica, es el paquete [`gghighlight`](https://yutannihilation.github.io/gghighlight/index.html).


```{r}
iris_backgroung <- iris %>% select(-Species)
ggplot(iris, aes(x = Sepal.Length)) +
  geom_histogram(data = iris_backgroung, fill = "grey", bins = 15) +
  geom_histogram(aes(fill = Species), bins = 15) +
  facet_grid(cols = vars(Species))
```

<br>

#### geom_density()

Una alternativa a los histogramas son los gráficos de densidad con `geom_density()`. Pero, según Hadley: 

>they are harder to interpret since the underlying computations are more complex. They also make assumptions that are not true for all data, namely that the underlying distribution is continuous, unbounded, and smooth.

Como dice Hadley, `geom_density()` estima la función de densidad, por lo que la estimación depende de una serie de paramétros como `adjust`. Hacemos uso de `xlim(3, 9)` para expandir loslímites del eje X.


```{r, out.width = "85%"}
ggplot(iris, aes(Sepal.Length)) + 
  geom_density(color = "red",   size = 1.2) +  
  geom_density(color = "blue",  size = 1.2, adjust = 3) +
  geom_density(color = "black", size = 1.2, adjust = 0.5) +  xlim(2, 10)
```

<br>

Podemos asociar la variable Species a la estética fill con `aes(fill = Species)` para obtener una estimación de la densidad para cada tipo de lirio.


```{r}
ggplot(iris, aes(Sepal.Length, fill = Species)) + geom_density(position = "stack", alpha = 0.5)
```

<br>

Hay muchas otras posibilidades. Por ejemplo:

```{r, eval = FALSE}
ggplot(iris, aes(Sepal.Length, fill = Species)) + geom_density(position = "fill", alpha = 0.5) #- position = "fill"

ggplot(iris, aes(Sepal.Length, stat(count), fill = Species)) + geom_density(position = "stack", alpha = 0.5) #- stat(count)
```


Muchas veces se suelen hacer los histogramas superponiendo la f. de densidad normal o una estimación de la densidad de x con `geom_density()` o con `geom_line(stat="density")`. Para que el gráfico se vea mejor, ajustaremos el eje X con ` xlim()`:


```{r}
#- calculamos media y desviación tipica de Sepal.Length para luego usarlas para construir la curva normal
media <- mean(iris$Sepal.Length, na.rm = TRUE)     #- media de la longitud del sépalo
desviacion <- sd(iris$Sepal.Length, na.rm = TRUE)  #- desviación 

#- hacemos el histograma
p <- ggplot(iris, aes(Sepal.Length)) +
      geom_histogram(aes(y=..density..),  color="black", fill = "steelblue", alpha = 0.2)

#- le añadimos la densiidad estimada y la normal
p + geom_density( color="purple", size = 1) +
    stat_function(fun = dnorm, colour = "red", size = 1, args = list(mean = media, sd = desviacion))  + 
    xlim(c(min(iris$Sepal.Length)-1, 9))

```


Si necesitas saber más cosas sobre los histogramas puedes acudir [aquí](https://edav.info/histo.html) o [aquí](http://t-redactyl.io/blog/2016/02/creating-plots-in-r-using-ggplot2-part-7-histograms.html).



#### Joy Division plots

Hace poco apareció el paquete [ggridges](https://cran.r-project.org/web/packages/ggridges/vignettes/introduction.html) y se pusieron de moda estos tipos de gráficos:



```{r}
library(ggridges)
ggplot(iris, aes(x = Sepal.Length, y = Species)) + geom_density_ridges(aes(fill = Species), alpha = 0.5)
```

Como se parecen a la [mítica portada](https://codigoespagueti.com/noticias/ciencia/historia-secreta-unknown-pleasures/) del primer disco de Joy Division, algunos los conocen como Joy Division plots. Abajo os pongo un ejemplo sacado de la [vignette del paquete ggridges](https://cran.r-project.org/web/packages/ggridges/vignettes/introduction.html).


```{r}
library(viridis)
ggplot(lincoln_weather, aes(x = `Mean Temperature [F]`, y = `Month`, fill = ..x..)) +
  geom_density_ridges_gradient(scale = 3, rel_min_height = 0.01) +
  scale_fill_viridis(name = "Temp. [F]", option = "C") +
  labs(title = 'Temperatures in Lincoln NE in 2016')
```


<br>

### 6.2 Scatter plot

Scatter plot, gráfico de puntos o gráfico X-Y. Se utiliza para mostrar la **relación entre DOS variables continuas**. Lo tenemos más que visto, ya que es el tipo de gráfico que hemos utilizado durante todo el tutorial. 

```{r}
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + 
     geom_point() +
     labs(title = "Gráfico 1: Longitud del sépalo frente al pétalo",
       subtitle = "(diferenciando por especie de lirio)",
       caption = "Datos provenientes del Iris dataset",
       x = "Longitud del sépalo",
       y = "Longitud del pétalo",
       color = "Especie de lirio")
```



#### Overplotting

Los gráficos de puntos se usan habitualmente para mostrar la relación entre dos variables continuas. En conjuntos de datos con muchas observaciones pueden tener un problema de "overplotting". Esta situación ocurre cuando unos puntos se  dibujan encima de otros, de forma que no se aprecia bien la relación entre las variables

Hay varias formas de tratar este problema. Veámoslo con un ejemplo sacado de la web de ggplot2:

```{r, eval = FALSE}
set.seed(1234)
df <- data.frame(x = rnorm(2000), y = rnorm(2000))   #- creamos un conjuto de datos con 2000 observaciones y 2 v.

p <- ggplot(df, aes(x, y)) + xlab(NULL) + ylab(NULL)

p + geom_point()
p + geom_point(shape = 1) # Hollow circles
p + geom_point(shape = ".") # Pixel sized

#- For larger datasets with more overplotting, you can use alpha blending (transparency) t
p + geom_point(alpha = 1 / 10)
```


```{r, echo = FALSE, out.width = "85%"}
set.seed(1234)
df <- data.frame(x = rnorm(2000), y = rnorm(2000))   #- creamos un conjuto de datos con 2000 observaciones y 2 v.

p <- ggplot(df, aes(x, y)) + xlab(NULL) + ylab(NULL)

p1 <- p + geom_point()
p2 <- p + geom_point(shape = 1) # Hollow circles
p3 <- p + geom_point(shape = ".") # Pixel sized

#- For larger datasets with more overplotting, you can use alpha blending (transparency) t
p4 <- p + geom_point(alpha = 1 / 10)

p1 + p2 + p3 + p4 + plot_layout(ncol = 2)
```


<br>


De forma alternativa, podemos lidiar con el overplotting utilizando otro enfoque que consiste en pensar en el overplotting como un problema de densidad en 2 dimensiones y utilizar un hex-plot. En un hex-plot se representan regiones (generalmente hexagonales) coloreadas en función del número de observaciones que caen en cada región, de forma que es equivalente a un histograma pero en 2d.

```{r, eval = FALSE}
p + geom_bin2d()
p + geom_bin2d(bins = 10)
p + geom_hex()
p + geom_hex() + scale_fill_gradient2(low = "#132B43", high = "#56B1F7")  
```


```{r, echo = FALSE, out.width = "95%"}
p1 <- p + geom_bin2d()
p2 <- p + geom_bin2d(bins = 10)
p3 <- p + geom_hex()
p4 <- p + geom_hex() + scale_fill_gradient2(low = "#132B43", high = "#56B1F7")  
p1 + p2 + p3 + p4 + plot_layout(ncol = 2)
```



 

En [este post](https://cur.at/nuhYkL0?m=email&sid=9IprTCt) utilizan hex-plots para mostrar las zonas desde donde tiran a canasta los jugadores NBA. En [este otro post](https://rcrastinate.rbind.io/post/there-is-a-game-i-play-analyzing-metacritic-scores-for-video-games/) utilizan una combinación de `geom_point(alpha = .2, pch = 15) + geom_density_2d()` para analizar las puntuaciones de videojuegos. Además hace un uso avanzado de las escalas, al menos para mi, para que el gráfico sea fácil de visualizar.

Acaba de aparecer un nuevo geom: [`geom_pointdensity()`](https://github.com/LKremer/ggpointdensity). Como dicen en su repo de Github: "A cross between a scatter plot and a 2D density plot".


```{r}
#devtools::install_github("LKremer/ggpointdensity")
library(viridis)
library(ggpointdensity)
p +  geom_pointdensity(adjust = 7) +
  scale_color_viridis()

```


Si quieres saber más cosas sobre cómo hacer scatterplots con `ggplot2` puedes hacerlo por ejemplo, [aquí](http://www.cookbook-r.com/Graphs/Scatterplots_(ggplot2)/) o [aquí](https://michaeltoth.me/a-detailed-guide-to-the-ggplot-scatter-plot-in-r.html).

<br>

### 6.3 Boxplot (gráficos de caja)

Para visualizar una variable cuantitativa se suelen usar los histogramas, pero si lo que quieres es visualizar como varían los valores de una variable continua en función de los valores de una variable categórica (Species) se suelen usan boxplots o diagramas de caja. Son útiles para comparar diferentes grupos y para identificar outliers.


Para hacer un boxplot o diagrama de caja se utiliza `geom_boxplot()`. El gráfico muestra 5 estadísticos: la mediana con una linea gruesa, el primer y tercer cuartil de los datos con los limites de la caja y el máximo y el mínimo (los limites de la linea vertical). Adicionalmente, si existen outliers, estos también se representarán.


```{r}
ggplot(iris, aes(x = Species,  y = Sepal.Length)) + geom_boxplot() 
```

Se pueden cambiar algunas opciones del gráfico

```{r}
p <- ggplot(iris, aes(x = Species,  y = Sepal.Length)) 
p + geom_boxplot(aes(fill = Species), outlier.colour = "purple")
```


A veces, para mejorar la visualización, conviene rotar los ejes. Podemos hacerlo con `coord_flip()`

```{r}
p <- ggplot(iris, aes(x = Species,  y = Sepal.Length)) + geom_boxplot(aes(fill = Species)) 
p + coord_flip()
```


Para mejorar la visualización podemos incluir las observaciones originales con `geom_point()`, pero habría mucho overplotting, así que mejor con `geom_jitter()`


```{r}
p + geom_jitter(width = 0.15, alpha = 1/4, color = "tomato")
```

Podemos añadir con `stats()` algún estadístico más con `stats_xx()`, por ejemplo la media con `stats_summary`:


```{r}
p + stat_summary(fun.y = "mean", geom = "point", color = "purple", size = 2.5)
```

Los boxplots resumen la distribución de una variable cuantitativa con sólo cinco números, proporcionando un resumen útil de los datos, pero ocultan la forma de la distribución; por ejemplo, si la distribución fuese bimodal, no lo apreciaríamos. Además, aunque usemos `geom_jitter()` para superponer los valores originales, a veces  es difícil a simple vista inferir la distribución de estos. Por ello hay varias técnicas/geoms útiles que ayudan a resolver el problema, por ejemplo `geom_violin()`. Una alternativa al boxplot son los gráficos de violín donde se estima y muestra la forma de la distribución de las observaciones:

```{r, eval = FALSE}
p <- ggplot(iris, aes(x = Species,  y = Sepal.Length)) 
p + geom_violin(aes(fill = Species), alpha = 0.6)
p + geom_violin(aes(fill = Species), alpha = 0.6) + geom_jitter(width = 0.15, alpha = 1/4)
```


```{r, echo = FALSE, out.width = "80%"}
p <- ggplot(iris, aes(x = Species,  y = Sepal.Length)) 
p1 <- p + geom_violin(aes(fill = Species), alpha = 0.6)
p2 <- p + geom_violin(aes(fill = Species), alpha = 0.6) + geom_jitter(width = 0.15, alpha = 1/4)
p1 + p2 + plot_layout(ncol = 2)
```

<br>

En el ejemplo que hemos usado hemos tenido suerte y los tres grupos estaban ordenados, pero otras veces no tendremos tanta suerte, por ejemplo si en lugar de graficar la longitud de sépalo queremos visualizar la anchura (Sepal.Width):

```{r}
ggplot(iris, aes(x = Species,  y = Sepal.Width)) + geom_boxplot()
```

¿Cómo ordenamos los grupos? Por ejemplo podemos ordenarlos de menor a mayor en función de su anchura media del sépalo. Para ello usamos `stats::reorder()`


```{r}
ggplot(iris, aes(x = reorder(Species, Sepal.Width, mean),  y = Sepal.Width)) + geom_boxplot() +
  xlab("De menor a mayor anchura del sépalo")
```





  
### 6.4 Gráficos de barras

Los gráficos de barras se utilizan para representar una variable categórica, como por ejemplo Species, o variables cuantitativas discretas. Se representan barras verticales proporcionales a los valores de la variable en cada categoría o valor. Para crear gráficos de barras con ggplot2 se usa `geom_bar()`.

Para hacer nuestro primer gráfico de barras no vamos a utilizar `iris` porque en la única variable categórica (Species) resulta que hay 50 lirios en cada tipo de especie. Usaremos el data.frame `mpg` del paquete ggplot2 que contiene 234 observaciones sobre distintos modelos de coches y sus características. Algunos de los ejemplos están sacados de la [web de ggplot2](https://ggplot2.tidyverse.org/reference/geom_bar.html).

```{r, eval = FALSE}
p <- ggplot(mpg, aes(class))
p + geom_bar()
p + geom_bar(fill = "steelblue") + coord_flip()
```


```{r, echo = FALSE, out.width = "95%", fig.asp = 6/9}
p <- ggplot(mpg, aes(class))
p1 <- p + geom_bar()
p2 <- p + geom_bar(fill = "steelblue") + coord_flip()
p1 + p2 + plot_layout(ncol = 2)
```


Como vemos, la variable `class` es categórica, concretamente tiene 7 grupos o categorías de coches. Las barras verticales son proporcionales al número de vehículos en cada categoría. Con `coord_flip()` las categorías pasan a representarse en el eje Y, haciendo que, generalmente, se visualicen mejor los nombres de las categorías.



<br>

Si en lugar de tener una tabla de datos, tenemos ya una **tabla de frecuencias**, tendremos que especificar en `aes()` que la variable con las frecuencias se mapee/asocie al eje Y: `aes(x = variable, y = frecuencias)`. Además tendrás que usar `geom_bar(stat = "identity")` o directamente usar `geom_col()` que ya usa por defecto stat_identity(). Veámoslo con un ejemplo:


```{r}
df <- mpg %>% group_by(class) %>% count
p <- ggplot(df, aes(x = class, y = n))
p + geom_bar(stat = "identity",  fill = "steelblue") 
# p + geom_col(fill = "steelblue")                          #- hace exactamente el mismo plot
```

<br>

#### Distintas posiciones para las barras

Para esta subsección utilizaremos el data.frame `mtcars`

```{r, eval = FALSE}
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar() #- pos
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "fill")
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "dodge")
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = position_dodge2(preserve = "single"))
```


```{r, echo = FALSE, out.width = "100%",  fig.asp = 5/9}
p1 <- ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar() #- pos
p2 <- ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "fill")
p3 <- ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "dodge")
p4 <- ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = position_dodge(preserve = "single"))

p1 + p2 + p3 + p4 + plot_layout(ncol = 2)
```


<br>

#### Reordenando las categorías

A veces es importante reordenar las barras para mejorar la visualización. Para ello tendremos que usar **factores**. Por ejemplo, volviendo al `mpg` dataset: 


```{r}
df <- mpg
df <- df %>% mutate(class = forcats::as_factor(class)) #- convertimos la v. class a factor con la f. as_factor()
df <- df %>% mutate(class = forcats::fct_infreq(class)) #- fct_infreq() los niveles del factor según su frecuencia de mayor a menor
p <- ggplot(df, aes(fct_rev(class))) #- fct_rev() ordena los levels de menor a mayor
p + geom_bar(fill = "steelblue") + coord_flip()
```

<br>

Si queremos que en las barras se visualice el número de observaciones o frecuencia absoluta de cada categoría:


```{r}
p + geom_bar(fill = "steelblue") + coord_flip() +
    geom_text(stat='count', aes(label = ..count.. ), hjust = -0.15, size = 3.25) 
```



<br>

#### Porcentajes en lugar de counts
 
Si queremos que las barras representen porcentajes en lugar de numero de casos en cada categoría:


```{r}
p <- ggplot(df, aes(fct_rev(class))) #- fct_rev() ordena los levels de menor a mayor
p + geom_bar(aes( y = (..count..)/sum(..count..)), fill = "steelblue")  + coord_flip()
```


En realidad esto mismo se pude hacer de varias formas. En [este post](https://sebastiansauer.github.io/percentage_plot_ggplot2_V2/) nos muestran 5 formas de hacerlo.


<br>
 Si quieres saber más sobre como hacer gráficos de barras con ggplot2, puedes hacerlo [aquí](
http://www.sthda.com/english/wiki/ggplot2-barplots-quick-start-guide-r-software-and-data-visualization
) o [aquí](https://www.r-graph-gallery.com/48-grouped-barplot-with-ggplot2.html).


<br>


### 6.5 Gráficos de lineas

Los gráficos de lineas se usan principalmente para mostrar la evolución de variables en el tiempo. Generalmente la variable que se muestra en el eje X es el tiempo. En Economía estos gráficos puede que sean los más usados y habitualmente nos referimos a ellos como gráficos temporales.


Podemos simular gráficos de tiempo con `geom_line()` y `geom_path()`. Estos 2 geoms grafican lineas entre dos observaciones de una variable. Por ejemplo:


```{r}
ggplot(economics, aes(date, uempmed)) + geom_line()
```


Empecemos usando el conjunto de datos `gapminder` para mostrar las observaciones de la variable lifeExp para España:

```{r}
library(gapminder)
gapminder %>% filter(country == "Spain") %>% 
ggplot(aes(x = year, y = lifeExp)) + geom_line() + geom_point()
```


Visualicemos ahora 4 series de tiempo, la esperanza de vida en cuatro países europeos. Para poder distinguir las lineas de cada país podemos asociar la variable country a la característica estética color: `aes(color = country)`

```{r}
gapminder %>% filter(country %in% c("Spain", "France", "Norway", "Belgium")) %>% 
ggplot(aes(x = year, y = lifeExp, color = country)) + geom_line() + geom_point()
```

Una tontería pero que puede ser de utilidad para saber cuanta diferencia hay al final del plot. Lo aprendí [aquí](https://drsimonj.svbtle.com/label-line-ends-in-time-series-with-ggplot2)


```{r}
df <- gapminder %>% filter(country %in% c("Spain", "France", "Norway", "Belgium")) 
lifeExp_ends <- df %>% group_by(country) %>% top_n(1, year) %>% pull(lifeExp) #- vector con los valores últimos de lifeExp
ggplot(df, aes(x = year, y = lifeExp, color = country)) + geom_line() + 
     scale_y_continuous(sec.axis = sec_axis(~ ., breaks = lifeExp_ends)) +   #- sec_axis() especifica un eje secundario
     scale_x_continuous(expand = c(0, 0))
``` 

<br>

El siguiente ejemplo está sacado de [este libro](https://edav.info/timeseriesbasic.html) aún en construcción. Utiliza el paquete [tidyquant](https://github.com/business-science/tidyquant) para descargar las cotizaciones de las 4 principales empresas tecnológicas, las GAFA. `tidyquant` tiene muchas funciones interesantes, puedes verlas corriendo `tq_transmute_fun_options()`.

```{r}
library(tidyquant)
stocks <- c("GOOGL","AMZN","FB","AAPL") #- seleccionamos a las GAFAs
df <- tq_get(stocks, from = as.Date("2013-01-01"), to = as.Date("2013-12-31"))

ggplot(df, aes(date, y = close, color = fct_reorder2(symbol, date, close))) +
  geom_line() + xlab("") + ylab("") +
  theme(legend.title = element_blank())
```

Reescalamos para que las series comiencen todas en 100

```{r}
df <- df %>% group_by(symbol) %>% mutate(rescaled_close = 100*close / close[1])

ggplot(df, aes(date, y = rescaled_close, color = fct_reorder2(symbol, date, rescaled_close))) +
  geom_line() + xlab("") + ylab("") +
  theme(legend.title = element_blank())
```

<br>

Otro paquete muy útil para analizar y descargar datos financieros es [`quantmod`](http://www.quantmod.com/). El ejemplo siguiente lo he sacado de [este fantastico libro](https://smac-group.github.io/ds/data.html#example-apple-stock-price).


```{r}
library(quantmod)
today <- Sys.Date()
three_months_ago <- seq(today, length = 2, by = "-3 months")[2]
getSymbols("AAPL", from = three_months_ago, to = today)
candleChart(AAPL, theme = 'white', type = 'candles')
```

<br>

Si quieres saber más sobre gráficos de lineas puedes ir [aquí](https://michaeltoth.me/a-detailed-guide-to-plotting-line-graphs-in-r-using-ggplot-geom_line.html).


##### Un poco sobre datos temporales

Para trabajar con datos temporales, R tiene distintos paquetes y estructuras, pero para manipular fechas y  datos temporales en el tidyverse tenemos el paquete [`lubridate`](https://lubridate.tidyverse.org/reference/lubridate-package.html). Para una introducción a fechas y tiempo en R [aquí](https://dereksonderegger.github.io/570L/14-dates-and-times.html).


En general, para realizar análisis estadísticos en R con series de tiempo se necesita que los datos estén en matrices, pero nosotros en el curso estamos trabajando con el tidyverse, y la la estructura de datos usada son los dataframes o tibbles, esto era un problema, pero recientemente, el paquete [`tsibble`](https://tsibble.tidyverts.org/) ha extendido el tidyverse y las tibbles a los datos temporales, creando una nueva estructura de datos: las "tsibbles". 

Apoyándose en esta nueva estructura de datos, las "tsibbles", el paquete [`feast`](http://feasts.tidyverts.org/) proporciona las herramientas y funciones necesarias para trabajar con series temporales en un entorno tidy. `feast` es un acrónimo de Feature Extraction And Statistics for Time Series. Para una introducción a `feast` puedes ir [aquí](https://blog.mitchelloharawild.com/blog/feasts/) o [aquí](https://robjhyndman.com/hyndsight/feasts/). 

Asimismo, el paquete [`fable`](http://fable.tidyverts.org/) también utiliza "tsibbles" y proporciona  herramientas para la predicción de series temporales, incluyendo modelos ARIMA en el entorno tidyverse. Para una introducción a `fable` puedes ir [aquí](https://blog.mitchelloharawild.com/blog/fable/).

[Aquí](https://resources.rstudio.com/rstudio-conf-2019/melt-the-clock-tidy-time-series-analysis) puedes ver una conferencia en la que se explica las principales ideas de esta nueva forma de trabajar con series temporales en el tidyverse 

<br>


## 7. Más detalles/cosas


### 7.1 geom_smooth()

Ya hemos usado `geom_smooth()`. Un argumento importante de `geom_smooth()` es `method` con el que se selecciona el método  con el que se obtiene la smooth curve. El método por defecto es `method = "loess"`. Puedes controlar el nivel de smoothing con el parametro "span", que va de 0  to 1 (mayor suavizado).

Otras opciones para geom_smooth():

- method = "lm" fits a linear model, giving the line of best fit. 

- method = "rlm" works like lm(), but uses a robust fitting algorithm so that outliers don’t affect the fit as much. It’s part of the MASS package, so remember to load that first. 

- stat_smooth(se = FALSE) , indica si se representan intervalos de confianza para la linea suavizada.

Además de los métodos implementados, podemos elegir nuestro propio método, ya sea usando el argumento "formula" o definiendo nuestro propio método de alisado como nos cuentan [aquí](https://eliocamp.github.io/codigo-r/2018/06/tu-propio-geom-smooth/) 


```{r}
p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + 
     geom_point() 
p + geom_smooth(method = "lm", formula = y ~ poly(x,4))
```


Podemos, obviamente, comparar dos métodos de alisado. Para poner nombre a los diferentes métodos se puede hacer lo siguiente: 

```{r}
library(tidyverse)
p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + 
     geom_point()
p + geom_smooth(aes(color = "loess") , method = "loess", se = FALSE) + 
    geom_smooth(aes(color = "lm")    , method = "lm"   , se = FALSE)
```


<br>

### 7.2 Áreas bajo la curva

Para un profesor de estadística/econometría es importante saber hacer gráficos como estos:

library(tidyverse)
ggplot(xx, aes(x)) +
    geom_function(fun = function(x) {x**3} ,  colour = "red")

ggplot(xx, aes(x)) +
    geom_function(fun = ~ .x**3 ,  colour = "red")



```{r, eval = FALSE}
xx <- data.frame(x = c(-2, 2))

ggplot(xx, aes(x)) + geom_function(fun = function(x) {x**3} ,  colour = "red")

ggplot(xx, aes(x)) + geom_function(fun = ~ .x**3 ,  colour = "red")

ggplot(xx, aes(x)) + stat_function(fun = function(x) { x**3 }, geom = "line")
```


```{r, echo = FALSE, out.width = "45%"}
xx <- data.frame(x = c(-2, 2))
ggplot(xx, aes(x)) + geom_function(fun = function(x) {x**3} ,  colour = "red")
```

```{r, eval = TRUE, out.width = "45%"}
ggplot(xx, aes(x)) + geom_function(fun = dnorm)  
```

```{r, eval = TRUE, out.width = "45%"}
ggplot(xx, aes(x = x))+
  geom_function(fun = dnorm, xlim = c(-4, 0)) +
  stat_function(fun = dnorm, geom = "area", fill = "steelblue", xlim = c(0, 4)) +
  xlim(-5, 5)
```

Lo aprendí [aquí](https://christianburkhart.de/blog/area_under_the_curve/).

Inspirado por Fran Morillas, otro ejemplo:

```{r, , out.width = "50%"}
nn <- 300 ; esperanza <- 10; sd <- 6
datos <- data.frame(normal = rnorm(nn, esperanza, sd))

ggplot(datos, aes(normal)) +
    geom_histogram(aes(y = after_stat(density)), bins = 30) +
    geom_density(color = "blue") +
    geom_function(fun = dnorm, args = list(esperanza, sd), colour = "red")
```


Aunque, la verdad, hoy en dia hay paquetes en R para todo. Por ejemplo el paquete [`nhstplot`](https://cran.r-project.org/web/packages/nhstplot/vignettes/nhstplot.html)


```{r, out.width = "50%"}
library(nhstplot)
plotttest(t = 1.96, df = 1000 , tails = "one")
```


<br>


### 7.3 Labelling las observaciones con ggrepel

El gráfico de abajo se basa en [este post](https://juliasilge.com/blog/lubridate-london-stage/) de Julia Silge. Utiliza el paquete [`ggrepel](https://github.com/slowkow/ggrepel) para poder ver a quien pertenece la observación en un gráfico de puntos.

```{r}
library(ggrepel)
df <- gapminder::gapminder %>% filter(year == "2007")  %>% filter(continent == "Europe")
ggplot(df, aes(gdpPercap, lifeExp, label = country)) + geom_point() +
     labs(title = "Gráfico 1: Esperanza de vida frente a PIB per cápita" ,
       caption = "Datos provenientes de gapminder",
       y = "lifeExp",
       x = "gdpPercap") + geom_smooth() +
        geom_label_repel() 
```



<br>

### 7.4 `GGally` package

Hay muchos paquetes que proporcionan formas rápidas de hacer gráficos como por ejemplo este del paquete [`GGally`](https://ggobi.github.io/ggally/index.html):

```{r}
library(GGally)
ggpairs(iris)
ggpairs(iris %>% select(1:4) %>% na.omit(), progress = FALSE, lower = list(combo = wrap("facethist", bins=6)))
```

<br>


### 7.5 Un poco más de anotaciones 

Para que un gráfico sea efectivo y nos haga ver algún hecho o característica de los datos, muchas veces es preciso hacer anotaciones en el gráfico para señalar o resaltar ciertos aspectos de este. En esta subsección presento algún ejemplo de uso de las anotaciones en gráficos ggplot.


- En primer lugar un ejemplo de Hadley. Hadley nos dice que no hay nada novedoso excepto el uso de -Inf and Inf como posiciones para referirse a los límites del gráfico, the top and bottom (or left and right) limits of the plot.

```{r}
presidential <- subset(presidential, start > economics$date[1])

p <- ggplot(economics) +  geom_line(aes(date, unemploy)) + 
  scale_fill_manual(values = c("blue", "red")) +
  xlab("date") + 
  ylab("unemployment")

#- comienzan las anotaciones  
p + geom_rect(aes(xmin = start, xmax = end, fill = party), 
              ymin = -Inf, ymax = Inf, alpha = 0.2, data = presidential) + 
    geom_vline(aes(xintercept = as.numeric(start)), 
               data = presidential, colour = "grey50", alpha = 0.5) + 
    geom_text(aes(x = start, y = 2500, label = name), 
               data = presidential, size = 3, vjust = 0, hjust = 0, nudge_x = 50) 
```


Una forma común de anotación consiste en marcar o subrayar un conjunto de puntos. Por ejemplo marcar los coches de la marca Subaru en el siguiente gráfico. Se puede hacer de la siguiente manera: 


```{r}
p <- ggplot(mpg, aes(displ, hwy)) +
  geom_point(data = filter(mpg, manufacturer == "subaru"), colour = "orange", size = 3) +
  geom_point() 
p
```


Como ves, lo que se ha hecho es superponer una capa con solo las observaciones de Subaru y graficarlas con un punto más grande de lo habitual y con un color llamativo. El problema es que se ve que sean las observaciones de Subaru. Esto se puede resolver de varias maneras usando annotate():


```{r}
p + annotate(geom = "point", x = 5.5, y = 40, colour = "orange", size = 3) + 
    annotate(geom = "point", x = 5.5, y = 40) + 
    annotate(geom = "text", x = 5.6, y = 40, label = "subaru", hjust = "left")
```

O de esta otra forma:

```{r}
p + annotate(geom = "curve", x = 4, y = 35, xend = 2.65, yend = 27, 
              curvature = .3, arrow = arrow(length = unit(2, "mm"))) +
   annotate(geom = "text", x = 4.1, y = 35, label = "subaru", hjust = "left")
```


El paquete [`ggforce`](https://ggforce.data-imaginist.com/) es una extensión a ggplot2 que puede servir para muchas cosas, entre ellas hacer anotaciones o marcas en gráficos ggplot. Por ejemplo:

```{r}
ggplot(iris, aes(Sepal.Length, Petal.Length)) +
  geom_point(aes(color = Species)) + 
  ggforce::geom_mark_ellipse(aes(label = Species, group = Species))
```


Con `ggforce` podemos hasta simular un zoom:


```{r}
ggplot(iris, aes(Petal.Length, Petal.Width, colour = Species)) +
  geom_point() +
  ggforce::facet_zoom(x = Species == "versicolor")
```

<br>

El paquete/extensión `ggforce` es pretty awesome. En [este post](https://rviews.rstudio.com/2019/09/19/intro-to-ggforce) puede verlo en acción haciendo mapas.

<br>

Otro enfoque para hacer anotaciones, bueno, en realidad centrase en un grupo de observaciones es utilizar el paquete [`gghighlight`](https://github.com/yutannihilation/gghighlight):


```{r}
df <- gapminder::gapminder %>% filter(continent == "Europe")
ggplot(df, aes(year, lifeExp, group = country)) + 
  geom_line() + 
  geom_point() + 
  gghighlight::gghighlight(country %in% c("Spain", "Portugal"))
```


```{r}
ggplot(iris, aes(Sepal.Length, Petal.Length, color = as.factor(Species))) +
  geom_point() + 
  gghighlight::gghighlight() + 
  facet_wrap(vars(Species))
```





<br>


## 8. Asistentes para ggplot2

Ahora mismo existen 2 asistentes para crear gráficos ggplot a través de interfaces gráficas: [`ggThemeAssist`](https://github.com/calligross/ggthemeassist) y [`esquisse`](https://dreamrs.github.io/esquisse/index.html) 

- El paquete [`ggThemeAssist`](https://github.com/calligross/ggthemeassist) facilita mediante un adding de RStudio la edición de los detalles de un gráfico; es decir, puedes comenzar haciendo un gráfico básico en RStudio, para después abrir la interfaz de `ggThemeAssist` para modificar con el asistente visual todos los elementos estéticos de gráfico como títulos, leyendas, colores etc... etc...

  Para ello, primero has de instalar el paquete con `install.packages("ggThemeAssist")`, después cargarlo con `library(ggThemeAssist)`. Una vez has cargado el paquete en memoria has de seleccionar con el cursor el código que genera el ggplot que quieres modificar/tunear. Una vez tienes marcado con el ratón el código del gráfico, has de seguir, en RStudio, esta ruta de menús: `Tools > Addings > Browse Addings ...`, para seleccionar finalmente el adding llamado "ggplot Theme Asistant".

  Se abrirá un interfaz donde podrás modificar la mayoría de elementos del gráfico. Cuando hayas dejado el gráfico a tu gusto pinchas en `DONE` y te devolverá el código que reproduce el gráfico tal y como lo elegiste en el interfaz.

  Podéis ver un ejemplo en <https://github.com/calligross/ggthemeassist>


<br>

- El paquete [`esquisse`](https://dreamrs.github.io/esquisse/index.html) permite crear gráficos ggplot desde cero con una interfaz gráfica.

  Para usarlo tienes que instalarlo con `install.packages("esquisse")` para luego abrirlo siguiendo esta ruta de menús en RStudio: `Tools > Addings > Browse Addings ...` para elegir el adding con nombre: "esquisse - ggplot builder".



```{r, echo = FALSE, fig.asp = 7/9}
tweetrmd::tweet_embed("https://twitter.com/WeAreRLadies/status/1139591763432222723", theme = "light", align = "center", maxwidth = 400)
```


<br>

## 9. Gráficos interactivos

Los gráficos interactivos, como su nombre indica, permite al usuario interactuar con el gráfico, abriéndose posibilidades como centrarse en parte del gráfico (zooming), highlighting, o mostrar información adicional al pinchar en algún elemento del gráfico, etc ...

En general, JavaScript (JS) es el lenguaje utilizado para hacer gráficos interactivos con librerías como D3, Chart, Plotly, Vis Highcharts, ...

Recientemente, el paquete de R [`htmlwidgets`](http://www.htmlwidgets.org/) ha facilitado el uso de las librerías de JS en R. Actualmente, paquetes de R, como leaflet, DT, dygraphs, networkD3 y muchos otros, utilizan el framework propuesto por htmlwidgets para hacer disponibles los gráficos interactivos de JS en R.


Para daros cuenta de lo fácil que es hacer un gráfico interactivo con R usaremos el paquete [`plotly`](https://plot.ly/r/) que hace posible usar la librería plotly.js en R. Con `plotly` se pueden hacer muchos tipos de gráficos, pero por ejemplo, permite con una sola linea convertir un gráfico ggplot en interactivo:

```{r, eval = FALSE}
library(plotly)
p <- ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) +  geom_point() + geom_smooth()
ggplotly(p)
```

[Aquí](https://plotly-r.com/preface.html) puedes encontraar un bookdown sobre plotly.


```{r, eval = FALSE}
p1 <- p + facet_grid(cols = vars(Species)) 
ggplotly(p1)
```


```{r, eval = FALSE}
p <- ggplot(mpg, aes(class)) +  geom_bar(fill = "steelblue") + coord_flip()
ggplotly(p)
```


[Aquí](https://www.r-graph-gallery.com/interactive-charts.html) puedes ver un galería de ejemplos de gráficos interactivos hechos con R. [Aquí](https://moderndata.plot.ly/interactive-r-visualizations-with-d3-ggplot2-rstudio/) un post, ya de 2015, para iniciarse un poco en estos temas. 


Hay muchos paquetes que permiten hacer gráficos interactivos en R, por ejemplo [`leaflet`](http://rstudio.github.io/leaflet/), que permite hacer mapas interactivos muy fácilmente.



```{r, eval = FALSE}
library(leaflet)
m <- leaflet()
m <- addTiles(m)
m <- addMarkers(m, lng = 174.768, lat =-36.852, popup = "The birthplace of R")
m
```


Todos estos paquetes^[En el momento de escribir estas notas eran 107 paquetes] que permiten hacer gráficos interactivos a través de `htmlwidgets` se pueden consultar en: <http://gallery.htmlwidgets.org/>. Dos paquetes que no están en la gallery: [`Apexcharts`](https://cran.r-project.org/web/packages/apexcharter/vignettes/starting-with-apexcharts.html) y [`TSplotly`](https://cran.r-project.org/web/packages/TSplotly/vignettes/TSplotly.html).


En [Interactive web-based data visualization with R, plotly, and shiny](https://plotly-r.com/) explican más detalladamente como hacer gráficos interactivos en R. Tendré que releer su sección [Saving and embedding HTML](https://plotly-r.com/saving.html) para mostrar en el tutorial alguno de los gráficos dinámicos que he hecho, pero ahora tengo prisa, la próxima clase es pronto y empezamos sí o sí ggplot2.

Hadley también está escribiendo un bookdown sobre Shiny: [Mastering Shiny](https://mastering-shiny.org/). En palabras de Hadley: Shiny is a framework for creating web applications using R code. Para ver que significa esto puedes ver la siguiente [galería con ejemplos de aplicaciones shiny](https://shiny.rstudio.com/gallery/).


### gganimate 

[`gganimate`](https://gganimate.com/) es un paquete que no hace gráficos dinámicos, pero permite animar gráficos mediante la creación creación de secuencias de gráficos. Mejor que explicarlo visita su sección de ejemplos en su wiki: <https://github.com/thomasp85/gganimate/wiki>. Por ejemplo [este ejemplo](https://github.com/thomasp85/gganimate/wiki/Tracking-of-hurricanes-and-typhoons)  o  [este ejemplo](https://github.com/thomasp85/gganimate/wiki/World-Cup-Goal-Animation) de jurgol. En [este post](https://www.datanovia.com/en/blog/gganimate-how-to-create-plots-with-beautiful-animation-in-r/) explican como usarlo.


Un ejemplo con los datos de `gapminder`

```{r, eval = FALSE}
library(tidyverse)
library(gapminder)
library(gganimate)
gapmider_europe <- gapminder %>% filter(continent == "Europe")
ggplot(gapmider_europe, aes(gdpPercap, lifeExp, size = pop, colour = country)) +
  geom_point(alpha = 0.7, show.legend = FALSE) +
  scale_colour_manual(values = country_colors) +
  scale_size(range = c(2, 12)) +
  scale_x_log10() +
  facet_wrap(~continent) +
  # Here comes the gganimate specific bits
  labs(title = 'Year: {frame_time}', x = 'GDP per capita', y = 'life expectancy') +
  transition_time(year) +
  ease_aes('linear') 
```

[Aquí](https://gist.github.com/thomasp85/05169ad44ddcc8ed56da6ff7bf7fbe36) tienes un ejemplo para hacerlo para los cinco continentes. 

<br>



## Biblio/ejemplos/recursos


Son recursos que he visto o utilizado mientras escribía esta notas, y no quiero olvidarlos:

- [Bookdown oficial sobre ggplot2](https://ggplot2-book.org/)

- [Webinar de Thomas L. Pedersen sobre ggplot2](https://www.youtube.com/watch?v=h29g21z0a68&feature=youtu.be)

- [Data Visualization with R de R. Cabacoff](https://rkabacoff.github.io/datavis/index.html).

- [Cédric Scherer](https://github.com/Z3tt/TidyTuesday): una serie de visualizaciones increíbles asociadas al proyecto tidy Tuesday.

- [data-to-viz](https://www.data-to-viz.com/): una plantilla que te puede ayudar a decidir qué gráfico usar.


- [r-statistics.co]( http://r-statistics.co/ggplot2-Tutorial-With-R.html): tutorial `ggplot2`.


- [A ggplot2 Tutorial for Beautiful Plotting in R](https://cedricscherer.netlify.com/2019/08/05/a-ggplot2-tutorial-for-beautiful-plotting-in-r/): tutorial `ggplot2`.

- [The Evolution of a ggplot (Ep. 1)](https://cedricscherer.netlify.com/2019/05/17/the-evolution-of-a-ggplot-ep.-1/). Un post muy didáctico donde se va transformando un gráfico hasta hacerlo muy chulo.


- [EDAV info](https://edav.info/box.html). Bookdown aún en construcción con buenos ejemplos.


- [Tom’s Cookbook for Better Viz](https://jthomasmock.github.io/nfl_plotting_cookbook/#license). Un buen tutorial con consejos y demás sobre gráficos ggplot. Por ejemplo mira los "Useful code chunks".


- [ggplot2 Quick Reference: geom](http://sape.inf.usi.ch/quick-reference/ggplot2/geom). Una cheatsheet para ver los geoms_xx() disponibles

- [Emi Tanaka - 1](https://emitanaka.org/workshopUTokyo2018/day1-session02-datavis.html#1). Son unas tranparencias de Emi Tanaka donde hace un repaso fantástico a la ggplot2 grammar. Emi Tanaka es lo mejor para conocer la verdad sobre ggplot2 en poco tiempo; por ejemplo la slide #6.

- [Data Visualization in the Tidyverse](https://alison.netlify.com/uo-tidy-bakeoff/#1). Otras fantásticas transparencias sobre ggplot2, esta vez de Alison Hill.


- [Preguntas sobre ggplot2 en Stackoverflow](https://stackoverflow.com/questions/tagged/ggplot2). Seguros que encuentras tu pregunta y alguien la ha respondido!!


- [Data Visualization with ggplot2](https://cengel.github.io/R-data-viz/data-visualization-with-ggplot2.html). Un bookdown sobre ggplot2. No lo he leído pero tiene buena pinta para iniciarse con ggplot.


- [practicalgg](https://wilkelab.org/practicalgg/). Un paquete con ejemplos de 6 visualizaciones explicadas paso a paso.


- [viz-pub](https://buff.ly/2nzMZPX). Un repo de Github con gráficos y visualizaciones, obviamente con el código.



- [The ggplot flipbook](https://evamaerey.github.io/ggplot_flipbook/ggplot_flipbook_xaringan.html#1). Otras transparencias sobre ggplot2, de Gina Reynolds.


- [Artistic coding for the useR](https://www.williamrchase.com/post/artistic-coding-for-the-user-12-months-of-art-june/). Un post de Will Chase para introducirse en el mundo de hacer aRte con R. 


- [You can replicate almost any plot with R](https://simplystatistics.org/2019/08/28/you-can-replicate-almost-any-plot-with-ggplot2/). Impresionante post de Rafael Irizarry donde replica con R 5 visualizaciones.

- [Data, movies and ggplot2](http://smarterpoland.pl/index.php/2018/12/data-movies-and-ggplot2/). Unos posters increíbles hechos con R.

- La revista [**Buzzfedd**](https://www.buzzfeednews.com/) mantiene una serie de [repos en Github](https://github.com/BuzzFeedNews/) con el código y datos para replicar sus análisis. En concreto, en [este repo](https://github.com/BuzzFeedNews/everything) hay un listado de análisis. Como ejemplo, [este gráfico](https://twitter.com/paldhous/status/1190022664808783872/photo/1), aparece en [este artículo](https://www.buzzfeednews.com/article/lamvo/social-sentinel-school-officials-shootings-flag-social-media), y el código para replicarlos está [aquí](https://buzzfeednews.github.io/2019-10-social-sentinel/).


Por último 3 repos de Github asociados al proyecto [Tidytuesday](https://github.com/rfordatascience/tidytuesday). Absolutamente impresionantes!!!


- <https://github.com/gkaramanis/tidytuesday/tree/master/week-38>

- <https://github.com/spren9er/tidytuesday>

- <https://github.com/othomantegazza/code-tidytuesday>



## Mas biblio

- [A Grammar of Graphics for Python](https://plotnine.readthedocs.io/en/stable/index.html). `Plotnine` is an implementation of a grammar of graphics in Python, it is based on `ggplot2`. 

- [Python Plotting for Exploratory Data Analysis](https://pythonplot.com/). Un recorrido por los sistemas gráficos de Phyton.

- [ggplot2tor](https://ggplot2tutor.com/). Un sitio web con buenos tutoriales sobre ejemplos de gráficos ggplot. Van mejorando el gráfico poco a poco. Por ejemplo [este tutorial sobre powerlifting](https://ggplot2tutor.com/powerlifting/squats/)

- Un [ejemplo de dotplot](https://ikashnitsky.github.io/2019/dotplot/) Ilya Kashnitsky de  Aquí está el [gist](https://gist.github.com/ikashnitsky/2f3e2b2af6f50911bb775bbce6eb0fb8).


- [R Graphics Cookbook](https://r-graphics.org/)

------------------

```{r, eval = FALSE, echo = FALSE}
#- nuevas cosas de ggplot2
p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_line()
aa <- ggplot_build(p) #- funcion nueva

#- garficos upset y venn: https://www.littlemissdata.com/blog/set-analysis
#- https://dqn.website/post/interactive-mekko-charts-in-r/

```

