1. Introducción
Los gráficos e infografías son, cada vez más, una parte importante de
la mayoría de textos escritos, ya sean estos un informe técnico, un
artículo de periódico o un TFG. En el caso de la ciencia de datos, como
puede verse abajo en la infografía, el análisis y la exploración de los
datos es un proceso iterativo en el que la visualización y la generación
de gráficos ocupa un lugar destacado.
Uno de los instrumentos y tareas fundamentales de un científico de
datos es la capacidad de realizar visualizaciones de datos apropiadas y
convincentes. El análisis gráfico no solo ayuda en la exploración y
comprensión de los datos, sino que es fundamental a la hora de mostrar
las posibles relaciones entre variables, descubrir relaciones o patrones
ocultos, y descartar o sugerir nuevas preguntas sobre los datos.
El entorno R tiene diversos sistemas para visualizar datos, los dos
más utilizados son el sistema gráfico de R-base y el ecosistema asociado
al paquete ggplot2
. Por diversas razones, en el curso
usaremos el entorno ggplot2
para hacer nuestros gráficos;
de hecho, en la actualidad ggplot2
, dada su rapidez en la
iteración entre gráficos, versatilidad y la cuidada estética que tienen
sus gráficos, se ha convertido, al menos por el momento, en el sistema
estándar para hacer gráficos en R. Por ejemplo, ¿cómo creéis que hace la BBC sus gráficos?,
evidentemente con R y ggplot2
. Puedes ver uno de sus
repositorios aquí y su cookbook aquí.
Con ggplot2
es sencillo hacer gráficos con calidad para
ser publicados o mostrados, además de que, dada su sintaxis modular,
hace sencillo el reutilizar los gráficos durante el proceso de análisis.
El paquete ggplot2
fue inicialmente desarrollado por Hadley Wickham, pero
actualmente el ecosistema ggplot es el resultado de toda una comunidad
de usuarios que contribuye a enriquecer el sistema gráfico con sus
extensiones y paquetes auxiliares.
En palabras de Hadley en su libro sobre ggplot2:
ggplot2 is an R package for producing statistical, or data, graphics,
but it is unlike most other graphics packages because it has a deep
underlying grammar. This grammar, based on the Grammar of Graphics
(Wilkinson 2005), is made up of a set of independent components that can
be composed in many different ways. This makes ggplot2 very powerful
because you are not limited to a set of pre-specified graphics, but you
can create new graphics that are precisely tailored for your problem.
This may sound overwhelming, but because there is a simple set
of core principles and very few special cases, ggplot2 is also easy to
learn (although it may take a little time to forget your
preconceptions from other graphics tools).
Sí, con ggplot2
es “fácil” hacer rápidamente gráficos de
calidad, PERO dominar todos los detalles del paquete sí que es
complicado, pero no nos hace falta conocerlo todo. Además, hay que tener
en cuenta que ggplot2
es un paquete/entorno en constante
evolución. Actualmente está en la versión 3.2.1. Bueno, en marzo de 2020
apareció la versión 3.3.0.
Para entender esta idea de la constante evolución y el papel que
tiene la comunidad de usuarios en el desarrollo de R y sus paquetes
puedes leer este tweet y las respuestas a él. En el tweet sólo
se anuncia una pequeña mejora en como ggplot2
gestiona los
títulos de los gráficos pero genera reacciones en la comunidad de
usuarios.
La redes sociales pueden hacerse eco de la evolución de un paquete,
pero donde habitualmente se produce la discusión/colaboración entre
usuarios es en plataformas como Github. Por ejemplo, puedes ver como se gestó está
pequeña mejora aquí. Fue la issue 3252 de ggplot2
.
Otro ejemplo, justo cuando estaba escribiendo este párrafo, leí este otro tweet anunciando otra mejora en
ggplot2
.
La página web de ggplot2
puedes encontrarla aquí. En ella
puedes encontrar documentos de ayuda y la referencia oficial. Para darte cuenta de todo lo que
se puede hacer con el ecosistema ggplot visita esta
página donde podrás ver los 79 “paquetes auxiliares” o extensiones a
ggplot2
.
Para hacer “buenos” gráficos con ggplot2
no sólo es
necesario entender la sintaxis y los pormenores del paquete, sino que
quizás se necesite algo más. Por ejemplo, algo de experiencia y cierta
capacidad visual y estética; incluso hay quien dice que hacer buenos
gráficos es un arte. Para intentar mejorar vuestros gráficos o evitar
ciertos errores, aquí tenéis algunas reglas/consejos, y aquí un curso completo sobre visualización con bookdown
incluido.
Entenderás muy bien que hacer buenos gráficos exige conocimiento y
mucho trabajo al ver el video de este post, donde
se ven las versiones previas para que al final saliese esta preciosura
de gŕafico:
Otro ejemplo del making-of de un gráfico puedes verlo aquí.
Otros dos libros sobre visualización con el código de los ejemplos
hechos con ggplot2
, aquí y aquí. Finalmente, algunos consejos de la BBC sobre
visualización.
Como también se aprende los errores, aquí tienes un articulo de The Economist donde
muestran errores que ellos mismos han cometido haciendo gráficos. Además
pueden descargarse los datos.
2. Ideas básicas sobre ggplot2
Ya se dijo que ggplot2
es un paquete R desarrollado por
Hadley Wickham, aunque actualmente es el resultado de la colaboración de
múltiples desarrolladores. ggplot2
implementa en R The Grammar of
Graphics de L. Wilkinson, un sistema coherente para describir y
construir gráficos. El énfasis de ggplot2 está en la exploración rápida
de datos, especialmente de datos de alta dimensionalidad. Con
ggplot2
es sencillo ir transformando el gráfico mientras se
van analizando los datos.
Para empezar a entender la “filosofía” de ggplot2
, os
planteo una pregunta medio retórica: ¿qué vemos en el gráfico de
abajo?
Pues sí, es un gráfico de puntos y nos ayuda a ver las relaciones que
existen entre 3 variables. Estamos habituados a ello, pero vamos a
pensar en el gráfico desde la óptica de “The Grammar of Graphics”
implementada en el paquete ggplot2
.
En nuestro gráfico se representan por medio de puntos, en el espacio
X-Y, y mediante los distintos colores de los puntos, las observaciones
de 3 variables. Bien, nada muy novedoso, todos los sistemas gráficos
hacen este tipo de gráficos. Los gráficos de ggplot2
se
realizan mediante la superposición de elementos/capas. Podemos pensar
que el gráfico que hemos visto es una capa. ¿Cómo creamos este gráfico o
capa en ggplot2
?
Pues, una de las principales ideas para entender ggplot2
es que cada capa de un gráfico tiene 3 componentes o elementos
principales:
los datos que se van a representar (sencillo,
para hacer un gráfico hacen falta datos). Para ello utilizaremos
generalmente la función ggplot()
un conjunto de propiedades estéticas asociadas a alguna
variable del conjunto de datos. Por ejemplo, la variable
Sepal.Lenght está asociada al eje X, ala posición en el eje X. Por su
parte, el color de los puntos (otra característica visual o estética)
está asociado a los valores de la variable Species. Es decir, usando la
terminología de ggplot2
, las distintas variables están
asociadas o mapeadas a determinadas características estéticas. El mapeo
de variables con estéticas se hará con la función aes()
de
aesthetics. (esto ya no es tan estándar, se explica en
breve)
el elemento geométrico que se va a representar.
En nuestro caso el elemento geométrico que se utiliza para representar
los valores de las variables son los puntos, pero podrían haber sido las
lineas o las barras … Para especificar el elemento geométrico que vamos
a usar en nuestro gráfico se utiliza la familia de funciones
geom_xx()
; por ejemplo geom_point()
si
queremos puntos, geom_line()
si queremos que las relaciones
entre las variables se representen/visualicen como lineas.
Así en abstracto puede ser complicado entender del todo que quiere
decir todo esto. Vamos a verlo con ejemplos concretos. De momento, para
explicar las principales características de ggplot2
utilizaré un conjunto de datos famoso, pero odiado por algunos, por
haber sido utilizado en numerosos ejemplos y cursos: el iris
dataset.
El conjunto de datos iris
contiene datos sobre 150
flores, en concreto sobre 150 lirios. iris
tiene 5
variables, 4 de ellas miden la longitud y el ancho del pétalo y sépalo
de los 150 lirios. Estas 4 primeras variables son cuantitativas y
continuas; mientras que la quinta variable es categórica, indicando la
clase o variedad de los lirios, ya que en los datos hay 3 especies
distintas de lirios (setosa, versicolor y virginica). Con estos datos,
con 3 de sus variables, se ha creado el gráfico que ves más arriba.
PRIMER GRÁFICO: Para comenzar nuestras andanzas con
ggplot2
intentaremos replicar con código R el gráfico de
arriba; aunque al principio sólo utilizaremos 2 variables: haremos un
gráfico de puntos de la longitud del sépalo frente a la longitud del
pétalo.
Hacer un gráfico con ggplot2
requiere de varias
etapas,
la primera de ellas consiste en usar la función
ggplot()
para inicializar el gráfico.
en segundo lugar, tendremos que especificar que conjunto de datos
usaremos en el gráfico.
en tercer lugar tendremos que especificar que variables irán
asociadas a determinados elementos visuales o estéticos del
gráfico
por último, en cuarto lugar, tendremos que especificar que tipo
de gráfico o geometría usaremos para visualizar las
observaciones.
Veámoslo más detenidamente.
En ggplot2
, para hacer un gráfico se empieza
SIEMPRE llamando a la función ggplot()
. Si
tecleamos ggplot()
en la consola o en un script, parece que
no ocurre nada, pero tras la llamada a la función ggplot()
,
R ha creado un objeto, un contenedor para nuestro futuro gráfico. Aún no
vemos el gráfico, faltan cosas, pero ya lo hemos inicializado. Si
quieres ver el objeto/contenedor que hemos creado con la llamada a
ggplot()
tienes que asignarle un nombre, así podrás verlo
en la pestaña “Environment” de RStudio.
Para verlo tienes que hacer:
my_grafico <- ggplot()
my_grafico
, es un objeto R, concretamente una lista con
9 elementos, que tendremos que ir “llenando” para hacer nuestro
gráfico.
Generalmente, dentro de la función ggplot()
se suele
especificar el conjunto de datos que vas a utilizar para hacer el
gráfico. A diferencia de los gráficos de R-base, ggplot2
no
permite graficar vectores: los datos que se suministran han de
ser SIEMPRE data.frames o similares.
ggplot(data = iris)
ggplot(iris)
Ya está, con cualquiera de las 2 instrucciones de arriba, son
equivalentes, ya hemos inicializado el gráfico y le
hemos dicho que datos vamos a usar.
Dijimos que para comenzar haríamos un gráfico de puntos de la
variable Sepal.Length
frente a Petal.Length
;
así que tenemos que decirle a ggplot2
que variables
de iris
queremos visualizar y con que propiedades estéticas
queremos asociar cada variable. Para ello utilizaremos la
función aes()
dentro de ggplot()
. Lo hacemos
con la siguiente expresión:
ggplot(iris, aes(x = Sepal.Length, y = Petal.Length))
Aún no vemos el gráfico, pero con aes()
le hemos dicho a
R/ggplot2 que queremos asociar/mapear la variable Sepal.Length al eje x,
y la variable Petal.Length al eje y. Fíjate que, en la pestaña de
gráficos de RStudio, ya vemos los ejes del gráfico; además, fíjate que
ggplot2
ya ha calculado para nosotros el rango de las
variables para ajustar los ejes.
Al igual que antes, podemos omitir los nombres de las opciones de la
función aes()
. Esta función puede tener muchos argumentos
(veremos algunos), pero los 2 primeros son siempre x (el eje x) y
después y (el eje y o vertical de mi gráfico); es decir podríamos hacer
lo siguiente que es más rápido de teclear.
ggplot(iris, aes(Sepal.Length, Petal.Length))
Con esta instrucción le estamos diciendo a ggplot2
que
vamos a hacer un gráfico con los datos del data.frame iris
y que vamos a asociar/conectar/mapear la variable
Sepal.Length
con el eje x, y la variable
Petal.Length
con el eje y del gráfico. Perfecto, pero
entonces ¿por qué no vemos el gráfico? La razón estriba en que no le
hemos dicho a ggplot2
qué tipo de gráfico queremos (de
puntos, de lineas etc…). El tipo de gráfico se explicita con una familia
de funciones: geom_xx()
o geometrías. Hay
muchas geometrías o tipos de gráficos que podemos usar. Ya lo veremos!!!
Nosotros queremos hacer un gráfico de puntos, así que, de la familia de
geometrías tenemos que usar geom_point()
.
Veámoslo.
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point()
Como vemos los puntos del gráfico se visualizan en color negro, con
un tamaño, una transparencia y una forma determinadas. Obviamente todo
esto se puede cambiar dentro de geom_point()
con las
opciones adecuadas. Por ejemplo:
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(color = "red", size = 2, alpha = 0.2)
Ya casi está. No es tan complicado. Ya hemos visto las ideas
fundamentales de la visualización con ggplot2
:
Los gráficos se inician con la función ggplot()
.
Generalmente aquí se especifican los datos (data.frame) que queremos
utilizar
La función aes()
sirve para asociar/mappear
variables con atributos/características estéticas del gráfico. De hecho
el nombre del función aes()
viene de
aesthetics. Las aesthetics más
importantes de un gráfico suelen ser los ejes x e y, por eso se ponen
siempre al principio de aes()
; es decir, son los 2 primeros
argumentos de aes()
. En nuestro ejemplo hemos asociado la
variable Sepal.Length
con el eje x, y la variable
Petal.Length
con el eje y. Veremos más
aesthetics, como por ejemplo el color o el tamaño (de
los puntos … o de las lineas o …)
Con geom_**()
elegimos el tipo o
geometría de gráfico. Hay muchos tipos de gráficos, así
que habrán muchos geoms. Por ejemplo: geom_point(),
geom_line(), geom_ …
Estas 3 ideas son las principales para entender ggplot2. Después hay
muchas más opciones y elementos que serán muy importantes para conseguir
un buen gráfico, pero en cierta forma son secundarias; por ejemplo, los
títulos, los ejes, las escalas, el tema etc… lo iremos viendo poco a
poco.
Afiancemos las ideas principales de la visualización con
ggplot2
. ¿Piensa que hará la siguiente linea de código?
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_line()
La primera parte de la instrucción es igual a la anterior: queremos
un gráfico con el data.frame iris y queremos asociar la variable
Sepal.Length con el eje x, con la propiedad aesthetic
eje x y Petal.Length con el eje y; pero le hemos pedido un gráfico de
lineas (geom_line()). En este caso hacer un gráfico de lineas no tiene
mucho sentido, pero si se lo pedimos a R, este nos hace caso y nos lo
muestra.
Ya dije que una de las características importantes de
ggplot2
es que funciona por capas que se van superponiendo;
para ir añadiendo capas a nuestro gráfico tenemos que usar el símbolo
+
. Por ejemplo si quisiéramos ver los
puntos y las lineas ¿Cómo lo hacemos?
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_line()
Tampoco son muy útiles la lineas en este gráfico.
Otra geometría o geom_() que se usa mucho es
geom_smooth()
. Probémosla:
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth()
Del gráfico puede inferirse que hay una relación, no lineal, pero sí
directa o positiva entre la longitud del sépalo y del pétalo; pero
también se aprecia que hay al menos dos grupos distintos de lirios. Hay
un grupo de observaciones cuyo pétalo parece ser claramente menor que el
del resto de lirios. Veamos si esto se debe o esta asociado al tipo de
lirio, recuerda que hay 3 tipos de lirios, asociados a la variable
iris$Species
. Para verlo en nuestro gráfico lo que vamos a
hacer es asociar/mapear la variable Species
con la
aesthetics color:
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point()
Pues parece que sí, que la especie de lirios “setosa” es más pequeña,
al menos en longitud, del sépalo, pero sobre todo del pétalo.
La variable Species
podríamos haberla asociado a la
estética tamaño (size), o a la estética forma (shape) pero no sería tan
útil ni quedaría tan bonito el gráfico. Fíjate que incluso R nos avisa
de que asociar la propiedad o aesthetic tamaño con una
variable categórica como Species no es muy recomendable.
ggplot(iris, aes(Sepal.Length, Petal.Length, size = Species)) + geom_point()
#> Warning: Using size for a discrete variable is not advised.
También podemos asociar la variable Species
a la
estética “forma”(shape). Lo hacemos en la expresión de más abajo. Como
veis, ahora las diferencias entre especies de lirios no se aprecian tan
bien como cuando usábamos color = Species
ggplot(iris, aes(Sepal.Length, Petal.Length, shape = Species)) + geom_point()
Os va a costar hacer gráficos, normal!!!, pero espero que la idea
principal ya la tengáis. Lo que pasa es que no os he contado todo, en
realidad es un poco más complejo y versátil. Lo medio explico en el
siguiente apartado.
Más ideas sobre ggplot2
Ya tenéis las ideas principales para hacer gráficos con
ggplot2
, pero no os lo he contado todo, tampoco lo voy a
hacer ahora, pero si contaré las cosas de una forma diferente para que
tengáis más flexibilidad/versatilidad a la hora de hacer gráficos. Si
queréis saber toda la verdad tendréis que ir al libro de Hadley,
concretamente aquí.
La forma que os he contado de hacer gráficos ggplot2
es
la que veréis habitualmente, yo también hago mis gráficos así, solo que
para entender mejor el funcionamiento, la sintaxis de
ggplot2
, os lo tengo que contar otra vez de una forma un
poco diferente o ampliada.
Un gráfico de ggplot2 se inicia llamando a la función
ggplot()
eso es cierto y también es verdad que generalmente
dentro de ggplot()
se indica el data.frame que vas a
utilizar y con aes()
que variables vas a usar y con que
elementos visuales o estéticos quieres asociar cada una de la variables
que vas a utilizar. Correcto, pero …. en realidad un gráfico
ggplot2 se hace por capas, cada capa se especifica con una función de la
familia geom_xx()
, así que en realidad los datos y las
aes()
se “deberían” especificar dentro de la función
geom_xx()`.
Parece un poco de lío pero en cuanto lo entiendas es muy fácil y te
puede dar más flexibilidad a la hora de hacer tus gráficos. Empecemos:
¿recuerdas que hacen las lineas/expresiones de abajo?
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point()
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_line()
Podemos pensar que las funciones que hacen la representación gráfica
realmente son las geom_xx()
; es ahí donde deberíamos
especificar los datos y variables/estéticas que queremos usar, pero si
no las especificamos en la función geom()
, entonces,
ggplot2 mirará a ver si existen, si están especificados, dentro de
ggplot()
.
Ahora que ya sabemos el funcionamiento básico de
ggplot2
, veamos algunos detalles mediante algunos ejemplos.
Hasta ahora hemos especificado el data.frame que queremos graficar con
ggplot(data = my_df)
o con ggplot(my_df)
y las
variables que queremos ver, y a que propiedad estética queremos
asociarla, con la función aes()
dentro de
ggplot()
. Si lo hacemos así, todos los
geoms_xx()
que utilicemos compartirán el conjunto de datos
y las variables/estéticas a mappear y mostrar; pero a veces, en gráficos
más complejos podemos querer hacer que cada geom_xx()
muestre datos y/o variables distintas.
Entender que cada geom_xx()
puede estar asociado a
distintos data.frames y/o variables es importante para tener más
versatilidad con ggplot2
.Por ejemplo, las siguientes tres
expresiones hacen el mismo gráfico. Se suele utilizar la primera
expresión, pero la segunda y tercera expresiones son “más flexibles”,
aunque es verdad que si sólo se utiliza un geom_xx()
no
ganamos nada por usar la segunda o tercera expresión, pero no será el
caso si en nuestro gráfico necesitamos usar varios
geom_xx()
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point()
ggplot(iris) + geom_point(aes(Sepal.Length, Petal.Length))
ggplot() + geom_point(data = iris, aes(Sepal.Length, Petal.Length))
Fíjate, como detalle, pero importante, que si utilizas la tercera
expresión; es decir, si especificas los datos dentro de la función
geom_xx()
, es necesario poner el nombre del argumento ; es
decir, debes poner data = iris
, no puedes poner solo
iris
. Yo me olvido siempre de este detalle.
En este caso (como el gráfico solo tiene una capa, como sólo usamos
un geom(_xx)
) no ganamos nada por usar la segunda o tercera
expresión; PERO, cuando usemos varios geom_xx()
esto nos
dará muchas posibilidades para nuestro gráfico.
Intenta descubrir las diferencias y funcionamiento de las 3
siguientes instrucciones. Recuerda que puedes correr las instrucciones
en R para ver que hacen exactamente.
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(aes(color = Species)) + geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth(aes(color = Species))
Veámoslas una a una:
- Los datos y las 3 variables/estéticas dentro de ggplot()
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth()
En este caso los 2 geoms comparten el conjunto de datos (iris) y las
variables/estéticas a graficar
- Los datos y 2 variables/estéticas dentro de ggplot(), pero una
tercera variable (Species), asociada a la estética color, aparece
solamente en
geom_point()
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(aes(color = Species)) + geom_smooth()
- Los datos y 2 variables/estéticas dentro de ggplot(), pero una
tercera variable (Species), asociada a la estética color, aparece
solamente en
geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth(aes(color = Species))
Espero, seguro!!, que te has dado cuenta de que si especificas el
data.frame y las variables/estéticas dentro de ggplot()
esto afectará a todos los geoms del gráfico; pero lo que se especifique
dentro de un geom_xx()
solo afecta a esa geometría.
Otro ejemplo para entenderlo, ¿por qué no funciona
la siguiente expresión?
ggplot(iris) + geom_point(aes(Sepal.Length, Petal.Length)) + geom_smooth(aes(color = Species))
Pues porque para poder representar la linea suavizada se utiliza
geom_smooth()
, y geom_smooth()
necesita como
mínimo tener variables asociadas a las estéticas x e y. Como veis,
dentro de geom_smooth()
solo hemos especificado la estética
“color” y tampoco hemos especificado en la función ggplot()
que variables se asocian con x e y. Por lo tanto,
geom_smooth()
no puede hacer su trabajo, le faltan los
“datos” de x e y para calcular/obtener la linea suavizada.
Vamos con otros ejemplos. La siguientes expresiones
tampoco funcionarán si intentáis correrlas en vuestro
ordenador. ¿Por qué?
ggplot() + geom_point(data = iris, aes(Sepal.Length, Petal.Length)) + geom_line(aes(Sepal.Length, Petal.Length))
ggplot(aes(Sepal.Length, Petal.Length)) + geom_point(data = iris) + geom_line()
ggplot() + geom_point(data = iris, aes(Sepal.Length, Petal.Length)) + geom_line()
Otro ejemplo: hagamos algo más marciano/complicado.
Supón que quieres hacer un gráfico diferenciando los puntos por color
para las tres especies de lirios, pero quieres que solo se vea la linea
suavizada para las dos especies más grandes (virginica y versicolor).
Los lirios más pequeños son los de la clase setosa. Igual se puede hacer
de otra forma pero la que me viene a la cabeza es hacer lo
siguiente:
Primero, crear un dataset que sólo contenga a los lirios grandes, los
de las especies virginica y versicolor.
iris2 <- iris %>% filter(Species != "setosa") #- me quedo con los lirios que no son de clase "setosa"
Para después hacer el gráfico con cualquiera de las 2 expresiones
siguientes. Prefiero la segunda porque hay que teclear/escribir menos,
pero puede que sea más didáctica la primera.
ggplot() + geom_point(data = iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_smooth(data = iris2, aes(Sepal.Length, Petal.Length) )
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(aes(color = Species)) + geom_smooth(data = iris2)
Otro ejemplo más: ¿y si quisiéramos que las 2
especies grandes se representen con el mismo color? Hay varias
soluciones, una de las más marcianas es la que propongo abajo. Es una
solución rara, pero creo que os ayudará a entender
ggplot2
Primero voy a crear un nuevo data.frame sólo con las observaciones de
los lirios pequeños, los de la clase setosa.
iris_setosa <- iris %>% filter(Species == "setosa") #- me quedo con los lirios pequeños, los de clase "setosa"
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_point(data = iris_setosa, aes(color = Species)) + geom_smooth(data = iris2,aes(Sepal.Length, Petal.Length) )
Otra solución, quizás más lógica, consiste en primero agrupar las 2
especies de lirios grandes (versicolor y virginica) en una sola
clase.
iris_solo_2_clases <- iris %>% mutate(Species_2 = ifelse(Species %in% c("versicolor", "virginica"), "versi_virgi", "setosa"))
Para después hacer el gráfico. Además el gráfico lo podemos hacer al
menos de 2 maneras, la segunda mucho mejor, la primera expresión es un
poco enrevesada:
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_point(data = iris_setosa, aes(color = Species)) + geom_smooth(data = iris_solo_2_clases,aes(Sepal.Length, Petal.Length, color = Species_2) )
ggplot(iris_solo_2_clases, aes(Sepal.Length, Petal.Length, color = Species_2)) + geom_point() + geom_smooth()
Como veis, en ggplot2
hay varias maneras de hacer el
mismo gráfico. Esto al principio puede abrumar/molestar, pero muestra la
flexibilidad de la sintaxis.
Para ir acabando con la “filosofía”/sintaxis/gramática de
ggplot2
intenta imaginar que gráficos hacen las 6
expresiones de más abajo.
Si no puedes, recuerda que siempre puedes ejecutar las ordenes en el
ordenador. Fíjate sobre todo en la tercera expresión
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point(color = "purple") + geom_smooth()
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth(color = "brown")
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_smooth(aes(color = Species))
ggplot(iris) + geom_point(aes(Sepal.Length, Petal.Length, color = Species) ) + geom_smooth(aes(Sepal.Length, Petal.Length, color = Species))
En la tercera expresión se especifica color = Species
dentro de aes()
en ggplot()
, así que, de
momento, todos los geoms del gráfico deberían diferenciar por especies
de lirios usando el color, PERO, después se vuelve a usar el argumento
color
dentro de geom_point()
, pero fíjate que
no va dentro de de aes()
, va fuera. Concretamente hacemos
lo siguiente: geom_point(color = "purple")
; es decir, para
la capa de puntos, y solo para la capa de puntos que se crea con
geom_point()
, estamos asociando la estética color, no a una
variable, sino a un color fijo. Sin embargo, para la otra capa del
gráfico, la que resulta de usar geom_smooth()
sigue siendo
valido que la estética color está asociada a la variable Species.
Un detalle: imagina que en un gráfico en el que has fijado 3
estéticas dentro de ggplot(aes())
. En principio las 3
estéticas afectarán a todos los geom_xx()
que utilices en
tu gráfico, pero si quisieras que, por ejemplo, la estética color no
afectase a un geom concreto, podrías hacer lo siguiente:
geom_xx(aes(color = NULL))
.
Como puedes imaginar, aún tenemos que ver más elementos de
ggplot2
. Como mínimo los títulos y leyendas, los ejes, el
tema, coordenadas, etc… vamos a ello!!
3. Elementos de un ggplot
Ya hemos presentado los principales elementos de los gráficos hechos
con ggplot2
, los que tienen que ver con la representación
de las variables. Pero es evidente que un gráfico tiene muchos más
elementos, y lógicamente hay que conocerlos un poco para poder ajustar
los gráficos a nuestras necesidades y mejorar la calidad de nuestros
gráficos.
Ejemplos de otros elementos son: títulos del gráfico y de los ejes,
“theme” del gráfico, small multiples o faceting, anotaciones etc…
En está sección iremos más rápido. Se presentarán solamente algunos
ejemplos, conceptos y/o aclaraciones. Si necesitas profundizar más en
estos elementos, puedes acudir a la referencia
oficial de ggplot2
o al bookdown de ggplot2.
Ya dijimos que los gráficos ggplot se componen de capas o layers.
Para nosotros, hasta ahora, una capa estaba compuesta de 3
elementos:
Es evidente que en todos los geoms no se pueden especificar todas las
características estéticas. Por ejemplo si usas geom_point
no podrás especificar la anchura o el tipo de las lineas, porque no
estás usando lineas sino puntos. Para ver que estéticas admite cada geom
tendrás que mirar la ayuda de cada geom. Al final de este
post tienen un gráfico interactivo con el que se puede ver
fácilmente que características estéticas admite cada geom. Por ejemplo
geom_bar()
, que sirve para hacer gráficos de barras, no
admite mappear variables al eje Y, ya que en el eje Y se
visualizan/mapean las frecuencias absolutas o relativas de la variable
que se representa en el eje X.
Esto es lo básico que hay que saber, pero en realidad, una capa
necesita de dos elementos más: una stat (o
transformación estadística) y una posición. Estos dos
últimos elementos son necesarios pero la verdad es que podríamos seguir
haciendo gráficos con ggplot2
sin conocerlos. ¿Por qué?
Pues porque si en una capa no los especificamos, lo hace
ggplot2
por nosotros. Lo ha estado haciendo hasta ahora en
todos los gráficos que llevamos hechos. Pero claro, saber como utilizar
estos elementos nos dará más flexibilidad a la hora de hacer
ggplots.
Generalmente las capas se van añadiendo con la familia de funciones
geom_xx()
, PERO también se pueden añadir
capas con otra familia de funciones stat_xx()
.
Aparte de estos cinco elementos (datos, aes(), geom, stat y posición)
los gráficos ggplot pueden tener más elementos. Veámoslos uno a uno.
3.1 Títulos del gráfico
Es evidente que un gráfico para ser efectivo y mostrar su mensaje con
claridad debe tener un título y/o subtítulo ilustrativo y debe mostrar
información relevante sobre que variables se grafican los ejes X e Y.
Este tipo de elementos pueden modificarse de varias maneras, pero nos
centraremos en la función labs()
.
Fíjate que con la función labs()
, de labels, podemos
cambiar los títulos del gráfico, de los ejes y también de las
leyendas.
En los títulos (tanto del gráfico, como de los ejes y leyendas)
también se pueden cambiar otras características; por ejemplo, cambiar el
tamaño, la fuente o el color, pero eso será tarea de otra función de
ggplot2
: del grupo de funciones theme_()
. Pero
el tema o theme de los gráficos lo veremos en el siguiente apartado.
Tomemos el siguiente gráfico como referencia y sobre él iremos
añadiendo elementos:
p <- ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point()
p
Con la función labs()
podemos añadirle un título,
subtitulo, pie de gráfico o caption. También podemos cambiar el
título de los ejes X e Y, así como también el titulo de la leyenda para
color
, o para otras estéticas que utilicemos en el
gráfico.
Es suficiente con ver un ejemplo:
p + labs(title = "Gráfico 1: Longitud del sépalo frente al pétalo",
subtitle = "(diferenciando por especie de lirio)",
caption = "Datos provenientes del Iris dataset",
x = "Longitud del sépalo",
y = "Longitud del pétalo",
color = "Especie de lirio")
Si quisieras eliminar completamente los títulos del
eje X podrías hacerlo en el anterior chunk fijando x = NULL
dentro de la función labs()
.
En lugar de usar la función labs()
, también podemos
utilizar las funciones auxiliares xlab()
e
ylab()
p + labs(color = NULL, x = NULL) #- borra el título de la leyenda y del eje X
p + xlab(NULL) + ylab(NULL) #- elimina títulos de los ejes X e Y
3.2 Themes
Themes control the display of all non-data elements of the plot. You
can override all settings with a complete theme like theme_bw(), or
choose to tweak individual settings by using theme() and the element_
functions. Use theme_set() to modify the active theme, affecting all
future plots.
Para cambiar detalles de la apariencia del gráfico como el tamaño,
fuentes y color de los títulos, pero también de los puntos, las lineas,
el fondo del gráfico, la apariencia de las grid-lines, el lugar para las
leyendas, etc… etc… contamos con las “funciones de tema”; todas ellas
comienzan con theme_()
En general con las funciones theme_()
podemos
cambiar/ajustar cualquier elemento del gráfico, con la excepción de la
propia representación de los datos (ya sabemos que esto se hacen con las
funciones geom_()
). Estos elementos afectan a la apariencia
y detalles del gráfico, pero no a la relación entre variables que se
muestra realmente en el gráfico.
Para empezar a entender que hacen las funciones relacionadas con el
theme, señalar que ggplot2
incorpora un conjunto de “temas”
que podemos utilizar para cambiar la apariencia del gráfico a nuestro
gusto. Puedes verlos todos aquí. El
tema que usa por defecto ggplot2
es
theme_gray()
. Veamos a los themes en acción:
p + theme_gray() #- tema por defecto
p + theme_light()
p + theme_dark()
p + theme_classic()
p + theme_minimal()
p + theme_void()
El paquete de R ggthemes
incorpora una amplia lista de temas adicionales, algunos de ellos tratan
de replicar el estilo de corporaciones famosas como The Economist o
Stata. En el tutorial no se ven bien los gráficos porque los he hecho
pequeñitos, pero prueba a hacerlos tú mismo y verás que son
good-looking. Veamos algunos:
library(ggthemes)
p + theme_economist()
p + theme_fivethirtyeight()
p + theme_stata()
p + theme_solarized()
También podemos definir un tema propio para que el gráfico se ajuste
los más posible a nuestras preferencias.
# define custom theme
my_theme <- theme(axis.text.x =
element_text(colour = "grey20", size = 12, angle = 90, hjust = 0.5, vjust = 0.5) , axis.text.y = element_text(colour = "grey20", size = 12) ,
text = element_text(size = 16))
p + my_theme
Se puede fijar el tema/theme de los gráficos con la función
theme_set()
. Por ejemplo:
theme_set(theme_minimal()) #- un tema concreto
theme_set(theme_minimal() +
theme(axis.text.x=element_blank(), axis.ticks.x=element_blank())) #- un tema modificando algunas opciones, que ele eje x no muestre ticks ni escalas
Si quieres volver al theme por defecto:
theme_set(theme_gray())
Ejemplos de algunos elementos cuya apariencia que se pueden cambiar
con theme()
p + theme(legend.position = "none") #- que no aparezca leyenda
p + theme(legend.position = "bottom") #- leyenda abajo
p + theme(legend.direction = "horizontal") #- leyenda horizontal!!
p + theme(legend.title = element_text(size = 22)) #- título de la leyenda a 22
p + theme(legend.key.size = unit(2.4, "cm")) #- tamaño de los cuadros de la leyenda
p + theme(text = element_text(size = 20, face = "bold")) #- cambiar el tamaño de todos los elementos de texto
p + theme(text = element_text(face = "bold")) #- pone en negrita todos los elementos de texto
p + theme(axis.text.x = element_text(colour = "pink", size = 12, angle = 90, hjust = 0.5, vjust = 0.5)) # apariencia de la escala del eje x
p + theme(axis.title.y = element_text(size=25, angle = 45)) #- tamaño y angulo del texto del eje Y
p + theme(plot.subtitle = element_text(hjust = 3)) #- posición horizontal del subtitulo (si lo tuviese)
p + theme(plot.caption = element_text(hjust = 3)) #- posición vertical del pie de gráfico (si lo tuviese)
p + theme(panel.background = element_rect(fill = "green", colour = "pink", linetype = "longdash", size = 3.5))
p + theme(panel.background = element_blank())
p + theme(panel.background = NULL)
p + theme(plot.background = element_rect(fill = "pink", colour = "purple", linetype = "dotted", size = 7))
Si quieres ver todos las características que controla y que por tanto
puedes modificar con theme()
, usa la ayuda de la función
theme()
o ejecuta en R args(theme)
. Aunque
casi mejor verlas en esta
infografía de Henry Wang o en este
post de Isabella Benabaye con las opciones que suele cambiar
ella.
En general, si quieres cambiar algún elemento de un ggplot, has de
hacer theme(elemento = element_text())
. Si quieres eliminar
por completo algún elemento del gráfico, por ejemplo las grid-lines del
gráfico, harías theme(panel.grid = element_blank())
.
Evidentemente todo esto es imposible de aprender, sólo tienes que
saber que cualquier elemento del gráfico se puede cambiar y tienes que
saber buscar e interpretar la ayuda.
Colores
Se poco de colores, pero claro si quieres cambiar la apariencia de
los gráficos, has de saber los colores de R, así que:
Aquí
tienes una guía para elegir color. Si solo quieres ver la lista de
nombres de los colores en R ejecuta:
aa <- as.data.frame(colours())
Si sabes el nombre del color que quieres, aquí, podrás
buscarlo y ver su color y su codificación en RGB y Hex.
También es interesante el paquete paleteer que
agrupa un conjunto amplio de paletas de colores para usar en R.
XKCD theme
Por último, no sé si conocéis el webcomic
XKCD. Pues en R también hay un paquete y un theme para hacer
gráficos al estilo XKCD. Es el paquete
xkcd cuyo autor es Emilio Torres-Manzanera de la Universidad de
Oviedo. Aquí podéis ver
algunos gráficos hechos con este estilo en R.
Intenté hacer un gráfico con su theme, pero desafortunadamente no me
salió; pero justo al día siguiente vi este
tweet que hace algo parecido con datos de los Simpsons y su
código sí me ha funcionado, además simula/construye el estilo XKCD
desde cero.
Además, después vi que Evangelyne Reinolds hizo esta
maravilla. Lo haremos en clase?! En este
post puedes encontrar el código para reproducir una de las historias
o viñetas de XKCD.
3.3 Small multiples o Facetting
El sistema gráfico de ggplot2
incorpora una técnica
especial llamada “faceting” que permite dividir un gráfico en múltiples
gráficos. Cada uno de esos múltiples gráficos se realiza sólo para las
observaciones de una de los valores de una variable categórica (o
factor) incluido en el conjunto de datos. Es más fácil hacerlo que
explicarlo/escribirlo.
Por ejemplo, en iris
tenemos la variable
Species
, que es categórica. Lo que se hace con el
“facetting” es dividir el dataset en grupos y hacer el mismo gráfico
para cada uno de los grupos. Los grupos se van a definir en función de
los valores de la variable Species. Recuerda que hay tres tipos o
especies de lirios.
Para hacer un “facetting graph” podemos usar las funciones
facet_wrap()
y facet_grid()
.
Por ejemplo, con la función facet_grid()
puedes elegir
entre hacer los small multiples por filas o por columnas. Empecemos
haciendo un facetting por columnas. Además, con
facet_grid()
se pueden usar varias sintaxis, pero la que
aparece en la cheatsheet actual
de ggplot2 y, por tanto, la recomendada es las que ves en la segunda
linea:
#p + facet_grid( . ~ Species) # old sintaxis
p + facet_grid(cols = vars(Species)) # gráficos x columnas, separando por valores de 'Species'
Ahora por filas:
p + facet_grid(rows = vars(Species)) # gráficos x filas
También podemos utilizar la función
facet_wrap()
. Esta función reparte los
small multiples en una rejilla con forma de matriz.
p + facet_wrap(vars(Species), nrow = 2, ncol = 2) # graf x filas y columnas
Si en el dataset hubiesen dos variables categóricas podríamos hacer
que una de ellas sirviese para llenar las filas y la otra las
columnas.
Como iris
sólo tiene una variable categórica (Species)
vamos a discretizar una de las variables continuas. Por ejemplo la
anchura del pétalo, crearemos una nueva variable dividiendo las
observaciones de Petal.Width
en 2 categorías, por encima y
por debajo de la media de su media. Además lo vamos a hacer con R-base y
con dplyr::ntile()
. Seguro que hay mejores formas, por
ejemplo
Con dplyr::ntile()
iris <- iris %>% mutate(new_variable = ntile(Petal.Width, 2))
Con R-base y la función cut()
:
iris <- iris
iris$new_variable <- cut(iris$Petal.Width,
breaks = c(-Inf, mean(iris$Petal.Width), Inf),
labels = c("debajo-media", "arriba-media"))
Ahora ya tenemos dos variable discreta y podemos hacer que
facet_grid()
utilice una variable para llenar filas y otra
para columnas. Se puede especificar de dos maneras
ggplot(iris) + geom_point( aes(Sepal.Length, Petal.Length, color = Species)) +
facet_grid(rows = vars(new_variable), cols = vars(Species)) # graf x filas y columnas
ggplot(iris) + geom_point( aes(Sepal.Length, Petal.Length, color = Species)) +
facet_grid(new_variable ~ Species)
Como vemos, los lirios de la clase setosa siempre tiene el ancho de
su pétalo por debajo de la media, y los virginica siempre están por
encima de la media.
Ejes de los small multiples
Podemos ajustar las escalas de los ejes para que sean comunes para
cada small multiple (la opción por defecto) o dejar que las escalas de
cada gráfico varíen en función del rango de los datos representados:
p + facet_grid(rows = vars(Species)) #- escalas comunes
p + facet_grid(rows = vars(Species), scales = "free") #- las escalas de cada small pueden variar
p + facet_grid(rows = vars(Species), scales = "free_y") #- solo dejamos libre/variar la escala del eje y
Solo muestro el resultado de la segunda expresión:
Un truquito: el argumento margin
en
ggplot2::facet_grid()
añade margenes a los small multiples
facilitando la visualización. Además añade un nuevo small con todas las
observaciones.
Puedes probarlo tú mismo corriendo lo siguiente:
p + facet_grid(rows = vars(Species), margins = TRUE)
Otro truco, esta vez avanzado: Un gist
para poner labels a los smalls multiples.
3.4 Anotaciones
Annotations are a special type of layer that don’t inherit global
settings from the plot. They are used to add fixed reference data to
plots.
Las anotaciones en los gráficos permiten resaltar algún fenómeno u
observación de interés, y son importantes a la hora de contar historias
(storytelling) con los gráficos y visualizaciones.
En el entorno ggplot
podemos hacer anotaciones en
nuestro gráficos de varias maneras, por ejemplo con
annotate()
. Aunque conceptualmente, como señala Hadley, las
anotaciones son metadatos, desde el punto de vista práctico se usan los
mismas funciones o geoms para manipularlos.
También existen algunas funciones auxiliares en ggplot2 y en paquetes
específicos para hacer anotaciones en gráficos ggplot. Por ejemplo,
cuando se hacen anotaciones en un gráfico de puntos es fácil que las
anotaciones caigan unas encima de otras, el paquete ggrepel permite aliviar este
problema.
Utilicemos la función annotate()
. Por ejemplo, el
siguiente chunk hace algunas anotaciones sin mucho sentido pero fáciles
de entender:
Por ejemplo, el siguiente chunk usa annotate()
para
hacer algunas anotaciones sin mucho sentido, pero fáciles de
entender:
p + annotate(geom = "text", x = 6, y = 2, label = "Una anotación", size = 5) +
annotate("rect", xmin = 6, xmax = 7,ymin = -Inf, ymax = Inf, alpha = 0.2, fill = "pink") +
annotate("segment", x = 5, xend = 7, y = 6, yend = 8, colour = "blue")
Anotaciones de texto en las observaciones
Agregar texto a un gráfico es una de las formas más comunes de
anotación. Por ejemplo, para señalizar e identificar observaciones
anómalas. Sin embargo, como señala Hadley, añadir texto no es fácil por
la forma en la que R maneja las fuentes.
La función principal para el etiquetado de gráficos es
geom_text()
. Por ejemplo:
p + geom_text(aes(label = Species))
También podíamos haber añadido el valor de la longitud del
pétalo.
p + geom_text(aes(label = Petal.Length))
Hemos añadido a cada observación un texto, proveniente de alguna de
las variables de iris
. Este gráfico no es muy útil, pero la
técnica sí. Imagina que queremos marcar los lirios 45 y 140. Podemos
hacer lo siguiente:
#- seleccionamos los lirios más grandes de cada especie
iris_max <- iris %>% group_by(Species) %>% slice_max(Petal.Length, n = 1)
p +
geom_text(data = iris_max, aes(label = Species), color = "black", size = 3)
Podemos ajustar la posición y tamaño del texto, etc.. Por ejemplo,
podemos cambiar la alineación de las anotaciones con con
hjust(“left”, “center”, “right”, “inward”, “outward”)
y
vjust (“bottom”, “middle”, “top”, “inward”, “outward”)
.
Lineas
Podemos añadir lineas:
p + geom_vline(xintercept = 6)
p + geom_hline(yintercept = 5, size = 1.7, colour = "purple", linetype = "dashed")
p + geom_abline(intercept = 0.7, slope = 0.4, size = 1.9, colour = "steelblue")
3.5 Cambiando los límites de los ejes
Si quieres modificar el recorrido de los ejes, los “límites” de los
ejes, puedes usar lims()
. Para los ejes X e Y hay dos
funciones auxiliares: xlim()
e ylim()
.
p + lims(color = c("setosa"), x = c(NA,6), y = c(1,8))
p + xlim(c (4, 6)) + ylim(c(NA, 5))
Se puede hasta dar la vuelta a los ejes
p + xlim(c (7, 3)) + ylim(c(NA, 5))
Los límites o dominio del gráfico suelen obtenerse automáticamente de
los datos, pero, otra vez according to Hadley, hay dos razones por las
que podemos estar interesados en cambiar los límites del gráfico:
centrarnos en una región especifica del gráfico
aumentar los límites para que varios gráficos ajusten sus
escalas.
Por ejemplo, si después de hacer un gráfico quieres centrarte sólo en
una parte; es decir, hacer un zoom sobre una parte del gráfico, tenemos
2 alternativas:
- Borrar los puntos que caen fuera de los limites de lo que quieras
que se visualice (si en una escala continua solo quieres usar un límite
pon NA):
p + xlim(c(4, 5)) + ylim(c(NA, 5)) #- cuidado, se pueden borrar observaciones
Con este enfoque tienes que tener cuidado, ya que si por ejemplo
después utilizar alguna transformación estadística como por ejemplo
geom_smooth()
, las observaciones eliminadas al ajustar los
límites no entrarán en el cálculo estadístico.
p + geom_smooth(color = "purple")
p + geom_smooth(color = "purple") + xlim(c(4, 5.7)) + ylim(c(1.5, 5)) # deletes points
- Cambiar los límites de los ejes X e Y haciendo un zoom en la región
de interés pero sin eliminar puntos. Esto lo conseguimos con
coord_cartesian()
.
p + geom_smooth(color = "purple")
p + geom_smooth(color = "purple") + coord_cartesian(xlim = c(4, 5.7), ylim = c(1.5, 5))
3.6 Escalas
Scales control the details of how data values are translated to
visual properties. Override the default scales to tweak details like the
axis labels or legend keys, or to use a completely different translation
from data to aesthetic. labs() and lims() are convenient helpers for the
most common adjustments to the labels and limits.
Las escalas permiten leer/interpretar un gráfico; permiten
interpretar los elementos geométricos (por ejemplo en nuestro gráfico,
los puntos) en función de los valores originales de las observaciones.
Las escalas son un elemento más de los gráficos ggplot y se
producen/controlan con la familia de funciones
scale_xx()
En ggplot2
las escalas o guías se producen
automáticamente, no vemos que hagamos nada, pero under the hood se están
fijando con la familia de funciones scale_xx()
que son las
que controlan como se mapean los valores de las variables con las
propiedades estéticas de nuestro gráfico (por ejemplo el eje X) de forma
que podamos interpretar la posición de los distintos puntos mirando las
escalas. Las escalas también construyen los elementos que permiten
leer/interpretar los gráficos: los ejes y las leyendas.
Como ggplot2
hace el mapeo y genera las escalas y
leyendas automáticamente, en la práctica podemos hacer gráficos sin
saber como funcionan y, por tanto, sin saber manipular este elemento de
un gráfico ggplot. Pero si aprendemos a manipular las escalas, esto nos
dará más flexibilidad a la hora de utilizar ggplot2
.
En muchos tipos de datos es importante pararse a pensar cual es la
mejor escala para representar las variables. Quizás sea conveniente
cambiar la escala de un eje para distribuir mejor las observaciones en
el espacio, o para interpretar mejor las variaciones entre
observaciones; por ejemplo la escala logarítmica o en porcentajes son a
veces más apropiadas que las escalas originales.
En realidad, para cada par variable/estética representada en un
gráfico ggplot es necesaria una escala, y tendría que fijarse con una de
las funciones de la familia scale_xx()
. Realmente cuando
hacemos este gráfico, en el que asociamos 3 variables a 3 propiedades
estéticas con aes()
, se necesitaría especificar las escalas
de las 3 variables:
p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(aes (color = Species))
Bien, pero entonces ¿por qué no lo hacemos?, ¿por qué no
especificamos las escalas? Pues porque lo hace ggplot2
por
nosotros. En realidad cuando ejecutamos la expresión anterior, realmente
se está haciendo lo siguiente:
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point(aes (color = Species)) +
scale_x_continuous() +
scale_y_continuous() +
scale_color_discrete()
Es decir, ggplot2
asigna a cada variable una escala, a
las variables continuas les asigna una escala continua y a las
categóricas una escala discreta. PERO, si queremos, si lo consideramos
apropiado podríamos cambiar la escala. Por ejemplo:
p + scale_y_reverse() + scale_colour_grey()
p + scale_x_sqrt() + scale_y_log10()
p + scale_x_continuous(trans = "log")
p + scale_color_brewer(palette = "Dark2")
Solo represento la primera transformación, en la que se da la vuelta
a la escala del eje Y y el color, asociado a la variable Species, pasa a
escala de grises:
Labels de los ejes
También se pueden modificar lo que vemos en los escalas. Antes vamos
a modificar los títulos de los ejes y leyendas.
p <- p + labs(x = "Eje X", y = "Eje Y", color = "Leyenda\n para el color")
De momento la escala del eje X varia aproximadamente de 3 a 8. Los
títulos de la escala del eje X sólo muestra los valores 5, 6, 7 y 8.
Vamos a modificar “el texto”, los números que se ven y que sirven de
guía para la escala del eje X:
p + scale_x_continuous(breaks = seq(3, 10, 0.5), limits = c(3, 10))
En el eje Y se ven los números 2, 4 y 6. Cambiemos los labels de su
escala (no del eje Y, sino de la escala del eje Y):
p + scale_y_continuous(breaks = seq(0, 12, 0.25), label = scales::dollar)
También se pueden modificar los de la leyenda para el color:
p + scale_color_manual(values = c("purple", "pink", "red2"), name = "Especies\n de lirios")
Si hubiese usado una variable discreta asociada a la estética
“shape”, tendríamos que usar scale_shape_discrete()
, si la
variable asociada a shape fuese continua:
scale_shape_continuous()
¿Y si hubiésemos usado una variable continua para la estética “fill”?
Pues scale_fill_continuous()
Familia de funciones de escala
• scale_continuous()
• scale_discrete()
• scale_ordinal()
• scale_manual()
• scale_{color/fill}brewer()
• scale{color/fill}distiller()
• scale{color/fill}_gradient()
3.7 Stats (transformaciones estadísticas)
Puede leerse en la web de ggplot2
, concretamente aquí lo
siguiente:
A layer combines data, aesthetic mapping, a geom (geometric object),
a stat (statistical transformation), and a position adjustment.
Typically, you will create layers using a geom_ function
PERO
A handful of layers are more easily specified with a stat_ function,
drawing attention to the statistical transformation rather than the
visual appearance. The computed variables can be mapped using
stat().
Algunos gráficos, como los gráficos de puntos, no requieren del uso
de transformaciones estadísticas de las observaciones, pero otros
gráficos como rectas o curvas de predicción o como los boxplots o
diagramas de caja, sí que las necesitan . Podemos usar
transformaciones estadísticas en gráficos ggplot con la familia de
funciones stat_xx()
Por ejemplo, cuando se hace un diagrama de caja o boxplot, no se
representan las observaciones originales, sino que se muestran 5
estadísticos resumen de la distribución de los datos; es decir, se
utiliza una transformación estadística. Cuando usábamos
geom_smoth()
tampoco representábamos con él los datos
originales, sino una transformación estadística de estos. Concretamente
la transformación estadística que utiliza geom_smoth()
es
genéricamente un “smoother”, calcula mediante una rolling-windows la
media de y, condicionada a x.
Cada función geom_xx()
que utilicemos, en realidad
necesita de un stat_xx(), entonces ¿por qué nunca lo hemos
usado/especificado nosotros? Con ggplot2
la razón es casi
siempre la misma: porque under the hood ggplot2
hace muchas
cosas por nosotros. En concreto, cada vez que usamos un
geom_xx()
en realidad ggplot2
está fijando una
transformación estadística por defecto por nosotros. Ggplot es un
sistema muy completo, pero aún así, una vez lo entiendes, hacer gráficos
con el es relativamente fácil y rápido porque muchas de sus opciones
opciones no hace falta especificarlas directamente.
Por ejemplo, ¿cual es la transformación estadística que se usa por
defecto en geom_point()? Ninguna, bueno, en realidad usa
stat = "identity"
, pero como lo especifica ggplot2
automáticamente, nosotros no nos damos cuenta.
Cuando hacíamos este gráfico:
ggplot(iris, aes(Petal.Length, Sepal.Length)) + geom_point()
En realidad estábamos haciendo
ggplot(iris, aes(Petal.Length, Sepal.Length)) + geom_point(stat = "identity")
¿Qué transformaciones estadísticas podemos hacer cuando usemos
geom_point()
? Por ejemplo,
geom_point(stat = "unique")
sólo representaría las
observaciones únicas o NO repetidas. En este caso creo que iris no tiene
observaciones repetidas, así si ejecutáis la instrucción de abajo se
seguirán visualizando los 150 lirios.
ggplot(iris, aes(Petal.Length, Sepal.Length)) + geom_point(stat = "unique") #- dejaría solo observaciones no repetidas
Podemos consultar las opciones por defecto completas de
geom_point()
aquí
Cada geom_xx()
tiene un default statistic, pero podemos
cambiarlo y especificar otra stat para adaptarlo a nuestras necesidades.
Por ejemplo, the default statistic for geom_bar()
is
stat_bin()
pero podemos usar otras stat_xx. Otra vez parece
un trabalenguas, pero cuando lo entiendes es relativamente sencillo.
Por ejemplo, en nuestro gráfico de puntos, podemos usar otras
transformaciones estadísticas, una de las que más sentido tiene es
calcular medias móviles con un método de alisado (smoother)
p <- ggplot(iris, aes(Petal.Length, Sepal.Length, color = Species))
p + geom_point(stat = "identity")
p + geom_point(stat = "smooth", method = "auto")
Aunque en este caso es bastante más fácil hacerlo con:
p + geom_point() + geom_smooth()
p + geom_point() + stat_smooth()
p + geom_point() + stat_smooth(method = "lm", se = FALSE, size = 1)
p + geom_point() + geom_smooth(method = "lm", se = FALSE, size = 1)
p + geom_point() + geom_smooth(method = "lm", col = "#C42126", se = FALSE, size = 1)
Algunas transformaciones estadísticas útiles y en qué geoms están
disponibles:
- stat_bin(): geom_bar(), geom_freqpoly(), geom_histogram()
- stat_bin2d(): geom_bin2d()
- stat_bindot(): geom_dotplot()
- stat_binhex(): geom_hex()
- stat_boxplot(): geom_boxplot()
- stat_contour(): geom_contour()
- stat_quantile(): geom_quantile()
- stat_smooth(): geom_smooth()
- stat_sum(): geom_count()
Es raro que tengamos que usar estas funciones stats_xx()
directamente, pero si quieres ver que hacen exactamente conviene
consultar la documentación para ver qué hace y cómo se aplica
exactamente cada transformación estadística a los datos.
Hay otras funciones stat_xx()
que no se pueden utilizar
con las funciones geom_xx()
:
- stat_ecdf(): compute a empirical cumulative distribution plot.
- stat_function(): compute y values from a function of x values.
- stat_summary(): summarise y values at distinct x values.
- stat_summary2d(), stat_summary_hex(): summarise binned values.
- stat_qq(): perform calculations for a quantile-quantile plot.
- stat_spoke(): convert angle and radius to position.
- stat_unique(): remove duplicated rows.
Algunos ejemplos
Veamos algunos ejemplos útiles:
- En un diagrama de caja mostrar la media:
Queremos que la media se represente como un punto, entonces usamos
geom_point()
pero no queremos representar los valores
originales, sino la media, así que dentro de geom usamos la opción
stat = summary
ggplot(iris, aes(Species, Sepal.Length)) +
geom_boxplot() +
geom_point(stat = "summary", fun.y = "mean", colour = "red", size = 4)
Se conseguiría los mismo usando directamente la función
stat_summary()
con la opción geom = “point”. Sí, en
ggplot2
las cosas se pueden hacer de varias maneras!!
ggplot(iris, aes(Species, Sepal.Length)) +
geom_boxplot() +
stat_summary(geom = "point", fun.y = "mean", colour = "red", size = 4)
- Otro ejemplo: el default stat de geom_histogram es
stat = “bin”, mostrandonos el número de observaciones en cada bin. Si
queremos que nos muestre frecuencias relatívas al grupo o bin más
numeroso:
ggplot(iris, aes(Sepal.Length)) + geom_histogram()
ggplot(iris, aes(Sepal.Length)) + geom_histogram(aes(y = stat(count / max(count))))
Bonus: Con stat_function()
podemos
dibujar curvas de densidad:
df <- tibble(x = c(-20, 20))
ggplot(df, aes(x = x)) +
stat_function(fun = dnorm, args = list(mean = 0, sd = 5), color = "black") +
stat_function(fun = dnorm, args = list(mean = 0, sd = 1), color = "red") +
stat_function(fun = dnorm, args = list(mean = 0, sd = 3), color = "blue")
3.8 Position adjustments
All layers have a position adjustment that resolves overlapping
geoms. Override the default by using the position argument to the geom_
or stat_ function.
Los ajustes de posición afectan a la posición de los elementos de una
capa. Los gráficos en los que más se utilizan los ajustes de posición
son los gráficos de barras. Su posición por defecto es position =
“stack”. Se pueden cambiar con el argumento geom_bar(position =
“xxxx”), aunque si usas las funciones
position_xx()` tienes
más flexibilidad:
ggplot(iris , aes(Species)) + geom_bar()
ggplot(mtcars, aes(cyl)) + geom_bar()
Para poder visualizar gráficos de barras con 2 variables,tenemos que
usar otro dataset: mtcars
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar() #- pos
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "fill")
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "dodge")
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = position_dodge2(preserve = "single"))
Por ejemplo, podemos modificar la posición por defecto de nuestro
gráfico de puntos con el iris dataset usando dos enfoques:
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_point(position = "jitter", color = "pink")
ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point() + geom_jitter( color = "pink")
geom_jitter()
, o alternativamente
geom_point(position = "jitter")
cambia la posición original
de los datos añadiendo un poco de ruido, haciendo que se desplacen un
poco. Esta técnica se usa muchos cuando hay muchos datos similares
(overplotting).
3.9 Coordenadas
The coordinate system determines how the x and y aesthetics combine
to position elements in the plot. The default coordinate system is
Cartesian (coord_cartesian()), which can be tweaked with coord_map(),
coord_fixed(), coord_flip(), and coord_trans(), or completely replaced
with coord_polar()
Por ejemplo: coord_fixed()
. En nuestro gráfico, tanto la
longitud del pétalo como del sépalo se miden en las mismas unidades, así
que su ratio implícito es 1 a 1. Cambiemos el ratio de las coordenadas
con coord_fixed()
p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) + geom_point()
p + coord_fixed(ratio = 1/3)
p + coord_fixed(ratio = 3/1)
6. Tipos de gráficos
En está sección presentaremos algunos ejemplos de algunos de los
gráficos más utilizados en el análisis de datos. Puedes ver listados más
completos en:
6.1 Histogramas
Se utilizan para mostrar la distribución de UNA variable
continua, por ejemplo la longitud del sépalo
(Sepal.Length).
Para hacer histogramas en ggplot2 se utiliza
geom_histogram
y, a veces, geom_freqpoly()
.
Los dos geoms trabajan de la misma manera, dividen la variable x en
intervalos y cuentan las observaciones en cada intervalo, para
mostrarlas en el eje Y. La diferencia entre ellos es que
geom_histogram
utiliza barras para mostrar el número de
observaciones o frecuencia absoluta, mientras que
geom_freqpoly()
usa lineas.
ggplot(iris, aes(Sepal.Length)) + geom_histogram()
Como ves, lo que hace un histograma es dividir el eje X en intervalos
o “bins” y mostrar en el eje Y el número de observaciones de x que caen
en cada “bin”. Además, ggplot2 nos avisa de que por defecto se divide el
eje X en 30 intervalos, pero que podemos cambiarlo con
bins = my_n_de_bins
.
p <- ggplot(iris, aes(Sepal.Length))
p + geom_histogram(bins = 40) + xlab("40 intervalos")
p + geom_histogram(bins = 4) + xlab("Sólo 4 intervalos")
Otra opción interesante es elegir la anchura del intervalo con la
opción binwidth
.
p <- ggplot(iris, aes(Sepal.Length))
p + geom_histogram(binwidth = 0.1) + xlab("He elegido la anchura = 0.1")
p + geom_histogram(binwidth = 1.1) + xlab("Esta vez la anchura = 1.1")
Si en el eje Y queremos frecuencias relativas o porcentajes en lugar
de counts, podemos hacerlo con:
ggplot(iris, aes(Sepal.Length)) +
geom_histogram(aes(y = stat(count) / sum(count)), bins = 10) +
scale_y_continuous(labels = scales::percent)
Se puede mejorar bastante la apariencia del histograma jugando con
los colores y opciones:
ggplot(iris, aes(Sepal.Length)) + geom_histogram(bins = 10, color = "black", fill = "tomato")
Si asociamos/mapeamos la variable Species a alguna estética, por
ejemplo a la estética “fill” o relleno de las barras con
aes(fill = Species)
, se visualizará qué parte de cada
intervalo pertenece a cada clase de lirio.
ggplot(iris, aes(Sepal.Length)) + geom_histogram(bins = 10, aes(fill = Species), color = "black")
Evidentemente, también podemos visualizar como cambia la distribución
de la anchura del sépalo entre los 3 tipos de lirios si hacemos un small
multiple:
p <- ggplot(iris, aes(Sepal.Length, fill = Species)) + geom_histogram(bins = 10, color = "black")
p + facet_grid(cols = vars(Species))
Para mejorar la visualización podemos poner en el fondo el histograma
para todos los datos. Lo aprendí aquí,
aunque ahora mismo hay un paquete para implementar esta técnica, es el
paquete gghighlight
.
iris_backgroung <- iris %>% select(-Species)
ggplot(iris, aes(x = Sepal.Length)) +
geom_histogram(data = iris_backgroung, fill = "grey", bins = 15) +
geom_histogram(aes(fill = Species), bins = 15) +
facet_grid(cols = vars(Species))
geom_density()
Una alternativa a los histogramas son los gráficos de densidad con
geom_density()
. Pero, según Hadley:
they are harder to interpret since the underlying computations are
more complex. They also make assumptions that are not true for all data,
namely that the underlying distribution is continuous, unbounded, and
smooth.
Como dice Hadley, geom_density()
estima la función de
densidad, por lo que la estimación depende de una serie de paramétros
como adjust
. Hacemos uso de xlim(3, 9)
para
expandir loslímites del eje X.
ggplot(iris, aes(Sepal.Length)) +
geom_density(color = "red", size = 1.2) +
geom_density(color = "blue", size = 1.2, adjust = 3) +
geom_density(color = "black", size = 1.2, adjust = 0.5) + xlim(2, 10)
Podemos asociar la variable Species a la estética fill con
aes(fill = Species)
para obtener una estimación de la
densidad para cada tipo de lirio.
ggplot(iris, aes(Sepal.Length, fill = Species)) + geom_density(position = "stack", alpha = 0.5)
Hay muchas otras posibilidades. Por ejemplo:
ggplot(iris, aes(Sepal.Length, fill = Species)) + geom_density(position = "fill", alpha = 0.5) #- position = "fill"
ggplot(iris, aes(Sepal.Length, stat(count), fill = Species)) + geom_density(position = "stack", alpha = 0.5) #- stat(count)
Muchas veces se suelen hacer los histogramas superponiendo la f. de
densidad normal o una estimación de la densidad de x con
geom_density()
o con
geom_line(stat="density")
. Para que el gráfico se vea
mejor, ajustaremos el eje X con xlim()
:
#- calculamos media y desviación tipica de Sepal.Length para luego usarlas para construir la curva normal
media <- mean(iris$Sepal.Length, na.rm = TRUE) #- media de la longitud del sépalo
desviacion <- sd(iris$Sepal.Length, na.rm = TRUE) #- desviación
#- hacemos el histograma
p <- ggplot(iris, aes(Sepal.Length)) +
geom_histogram(aes(y=..density..), color="black", fill = "steelblue", alpha = 0.2)
#- le añadimos la densiidad estimada y la normal
p + geom_density( color="purple", size = 1) +
stat_function(fun = dnorm, colour = "red", size = 1, args = list(mean = media, sd = desviacion)) +
xlim(c(min(iris$Sepal.Length)-1, 9))
Si necesitas saber más cosas sobre los histogramas puedes acudir aquí o aquí.
Joy Division plots
Hace poco apareció el paquete ggridges
y se pusieron de moda estos tipos de gráficos:
library(ggridges)
ggplot(iris, aes(x = Sepal.Length, y = Species)) + geom_density_ridges(aes(fill = Species), alpha = 0.5)
Como se parecen a la mítica
portada del primer disco de Joy Division, algunos los conocen como
Joy Division plots. Abajo os pongo un ejemplo sacado de la vignette
del paquete ggridges.
library(viridis)
ggplot(lincoln_weather, aes(x = `Mean Temperature [F]`, y = `Month`, fill = ..x..)) +
geom_density_ridges_gradient(scale = 3, rel_min_height = 0.01) +
scale_fill_viridis(name = "Temp. [F]", option = "C") +
labs(title = 'Temperatures in Lincoln NE in 2016')
6.2 Scatter plot
Scatter plot, gráfico de puntos o gráfico X-Y. Se utiliza para
mostrar la relación entre DOS variables continuas. Lo
tenemos más que visto, ya que es el tipo de gráfico que hemos utilizado
durante todo el tutorial.
ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) +
geom_point() +
labs(title = "Gráfico 1: Longitud del sépalo frente al pétalo",
subtitle = "(diferenciando por especie de lirio)",
caption = "Datos provenientes del Iris dataset",
x = "Longitud del sépalo",
y = "Longitud del pétalo",
color = "Especie de lirio")
Overplotting
Los gráficos de puntos se usan habitualmente para mostrar la relación
entre dos variables continuas. En conjuntos de datos con muchas
observaciones pueden tener un problema de “overplotting”. Esta situación
ocurre cuando unos puntos se dibujan encima de otros, de forma que no se
aprecia bien la relación entre las variables
Hay varias formas de tratar este problema. Veámoslo con un ejemplo
sacado de la web de ggplot2:
set.seed(1234)
df <- data.frame(x = rnorm(2000), y = rnorm(2000)) #- creamos un conjuto de datos con 2000 observaciones y 2 v.
p <- ggplot(df, aes(x, y)) + xlab(NULL) + ylab(NULL)
p + geom_point()
p + geom_point(shape = 1) # Hollow circles
p + geom_point(shape = ".") # Pixel sized
#- For larger datasets with more overplotting, you can use alpha blending (transparency) t
p + geom_point(alpha = 1 / 10)
De forma alternativa, podemos lidiar con el overplotting utilizando
otro enfoque que consiste en pensar en el overplotting como un problema
de densidad en 2 dimensiones y utilizar un hex-plot. En un hex-plot se
representan regiones (generalmente hexagonales) coloreadas en función
del número de observaciones que caen en cada región, de forma que es
equivalente a un histograma pero en 2d.
p + geom_bin2d()
p + geom_bin2d(bins = 10)
p + geom_hex()
p + geom_hex() + scale_fill_gradient2(low = "#132B43", high = "#56B1F7")
En este
post utilizan hex-plots para mostrar las zonas desde donde tiran a
canasta los jugadores NBA. En este
otro post utilizan una combinación de
geom_point(alpha = .2, pch = 15) + geom_density_2d()
para
analizar las puntuaciones de videojuegos. Además hace un uso avanzado de
las escalas, al menos para mi, para que el gráfico sea fácil de
visualizar.
Acaba de aparecer un nuevo geom: geom_pointdensity()
.
Como dicen en su repo de Github: “A cross between a scatter plot and a
2D density plot”.
#devtools::install_github("LKremer/ggpointdensity")
library(viridis)
library(ggpointdensity)
p + geom_pointdensity(adjust = 7) +
scale_color_viridis()
Si quieres saber más cosas sobre cómo hacer scatterplots con
ggplot2
puedes hacerlo por ejemplo, aquí
o aquí.
6.3 Boxplot (gráficos de caja)
Para visualizar una variable cuantitativa se suelen usar los
histogramas, pero si lo que quieres es visualizar como varían los
valores de una variable continua en función de los valores de una
variable categórica (Species) se suelen usan boxplots o diagramas de
caja. Son útiles para comparar diferentes grupos y para identificar
outliers.
Para hacer un boxplot o diagrama de caja se utiliza
geom_boxplot()
. El gráfico muestra 5 estadísticos: la
mediana con una linea gruesa, el primer y tercer cuartil de los datos
con los limites de la caja y el máximo y el mínimo (los limites de la
linea vertical). Adicionalmente, si existen outliers, estos también se
representarán.
ggplot(iris, aes(x = Species, y = Sepal.Length)) + geom_boxplot()
Se pueden cambiar algunas opciones del gráfico
p <- ggplot(iris, aes(x = Species, y = Sepal.Length))
p + geom_boxplot(aes(fill = Species), outlier.colour = "purple")
A veces, para mejorar la visualización, conviene rotar los ejes.
Podemos hacerlo con coord_flip()
p <- ggplot(iris, aes(x = Species, y = Sepal.Length)) + geom_boxplot(aes(fill = Species))
p + coord_flip()
Para mejorar la visualización podemos incluir las observaciones
originales con geom_point()
, pero habría mucho
overplotting, así que mejor con geom_jitter()
p + geom_jitter(width = 0.15, alpha = 1/4, color = "tomato")
Podemos añadir con stats()
algún estadístico más con
stats_xx()
, por ejemplo la media con
stats_summary
:
p + stat_summary(fun.y = "mean", geom = "point", color = "purple", size = 2.5)
Los boxplots resumen la distribución de una variable cuantitativa con
sólo cinco números, proporcionando un resumen útil de los datos, pero
ocultan la forma de la distribución; por ejemplo, si la distribución
fuese bimodal, no lo apreciaríamos. Además, aunque usemos
geom_jitter()
para superponer los valores originales, a
veces es difícil a simple vista inferir la distribución de estos. Por
ello hay varias técnicas/geoms útiles que ayudan a resolver el problema,
por ejemplo geom_violin()
. Una alternativa al boxplot son
los gráficos de violín donde se estima y muestra la forma de la
distribución de las observaciones:
p <- ggplot(iris, aes(x = Species, y = Sepal.Length))
p + geom_violin(aes(fill = Species), alpha = 0.6)
p + geom_violin(aes(fill = Species), alpha = 0.6) + geom_jitter(width = 0.15, alpha = 1/4)
En el ejemplo que hemos usado hemos tenido suerte y los tres grupos
estaban ordenados, pero otras veces no tendremos tanta suerte, por
ejemplo si en lugar de graficar la longitud de sépalo queremos
visualizar la anchura (Sepal.Width):
ggplot(iris, aes(x = Species, y = Sepal.Width)) + geom_boxplot()
¿Cómo ordenamos los grupos? Por ejemplo podemos ordenarlos de menor a
mayor en función de su anchura media del sépalo. Para ello usamos
stats::reorder()
ggplot(iris, aes(x = reorder(Species, Sepal.Width, mean), y = Sepal.Width)) + geom_boxplot() +
xlab("De menor a mayor anchura del sépalo")
6.4 Gráficos de barras
Los gráficos de barras se utilizan para representar una variable
categórica, como por ejemplo Species, o variables cuantitativas
discretas. Se representan barras verticales proporcionales a los valores
de la variable en cada categoría o valor. Para crear gráficos de barras
con ggplot2 se usa geom_bar()
.
Para hacer nuestro primer gráfico de barras no vamos a utilizar
iris
porque en la única variable categórica (Species)
resulta que hay 50 lirios en cada tipo de especie. Usaremos el
data.frame mpg
del paquete ggplot2 que contiene 234
observaciones sobre distintos modelos de coches y sus características.
Algunos de los ejemplos están sacados de la web de
ggplot2.
p <- ggplot(mpg, aes(class))
p + geom_bar()
p + geom_bar(fill = "steelblue") + coord_flip()
Como vemos, la variable class
es categórica,
concretamente tiene 7 grupos o categorías de coches. Las barras
verticales son proporcionales al número de vehículos en cada categoría.
Con coord_flip()
las categorías pasan a representarse en el
eje Y, haciendo que, generalmente, se visualicen mejor los nombres de
las categorías.
Si en lugar de tener una tabla de datos, tenemos ya una tabla
de frecuencias, tendremos que especificar en aes()
que la variable con las frecuencias se mapee/asocie al eje Y:
aes(x = variable, y = frecuencias)
. Además tendrás que usar
geom_bar(stat = "identity")
o directamente usar
geom_col()
que ya usa por defecto stat_identity(). Veámoslo
con un ejemplo:
df <- mpg %>% group_by(class) %>% count
p <- ggplot(df, aes(x = class, y = n))
p + geom_bar(stat = "identity", fill = "steelblue")
# p + geom_col(fill = "steelblue") #- hace exactamente el mismo plot
Distintas posiciones para las barras
Para esta subsección utilizaremos el data.frame
mtcars
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar() #- pos
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "fill")
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = "dodge")
ggplot(mtcars, aes(factor(cyl), fill = factor(vs))) + geom_bar(position = position_dodge2(preserve = "single"))
Reordenando las categorías
A veces es importante reordenar las barras para mejorar la
visualización. Para ello tendremos que usar factores.
Por ejemplo, volviendo al mpg
dataset:
df <- mpg
df <- df %>% mutate(class = forcats::as_factor(class)) #- convertimos la v. class a factor con la f. as_factor()
df <- df %>% mutate(class = forcats::fct_infreq(class)) #- fct_infreq() los niveles del factor según su frecuencia de mayor a menor
p <- ggplot(df, aes(fct_rev(class))) #- fct_rev() ordena los levels de menor a mayor
p + geom_bar(fill = "steelblue") + coord_flip()
Si queremos que en las barras se visualice el número de observaciones
o frecuencia absoluta de cada categoría:
p + geom_bar(fill = "steelblue") + coord_flip() +
geom_text(stat='count', aes(label = ..count.. ), hjust = -0.15, size = 3.25)
Porcentajes en lugar de counts
Si queremos que las barras representen porcentajes en lugar de numero
de casos en cada categoría:
p <- ggplot(df, aes(fct_rev(class))) #- fct_rev() ordena los levels de menor a mayor
p + geom_bar(aes( y = (..count..)/sum(..count..)), fill = "steelblue") + coord_flip()
En realidad esto mismo se pude hacer de varias formas. En este
post nos muestran 5 formas de hacerlo.
Si quieres saber más sobre como hacer gráficos de barras con
ggplot2, puedes hacerlo aquí
o aquí.
6.5 Gráficos de lineas
Los gráficos de lineas se usan principalmente para mostrar la
evolución de variables en el tiempo. Generalmente la variable que se
muestra en el eje X es el tiempo. En Economía estos gráficos puede que
sean los más usados y habitualmente nos referimos a ellos como gráficos
temporales.
Podemos simular gráficos de tiempo con geom_line()
y
geom_path()
. Estos 2 geoms grafican lineas entre dos
observaciones de una variable. Por ejemplo:
ggplot(economics, aes(date, uempmed)) + geom_line()
Empecemos usando el conjunto de datos gapminder
para
mostrar las observaciones de la variable lifeExp para España:
library(gapminder)
gapminder %>% filter(country == "Spain") %>%
ggplot(aes(x = year, y = lifeExp)) + geom_line() + geom_point()
Visualicemos ahora 4 series de tiempo, la esperanza de vida en cuatro
países europeos. Para poder distinguir las lineas de cada país podemos
asociar la variable country a la característica estética color:
aes(color = country)
gapminder %>% filter(country %in% c("Spain", "France", "Norway", "Belgium")) %>%
ggplot(aes(x = year, y = lifeExp, color = country)) + geom_line() + geom_point()
Una tontería pero que puede ser de utilidad para saber cuanta
diferencia hay al final del plot. Lo aprendí aquí
df <- gapminder %>% filter(country %in% c("Spain", "France", "Norway", "Belgium"))
lifeExp_ends <- df %>% group_by(country) %>% top_n(1, year) %>% pull(lifeExp) #- vector con los valores últimos de lifeExp
ggplot(df, aes(x = year, y = lifeExp, color = country)) + geom_line() +
scale_y_continuous(sec.axis = sec_axis(~ ., breaks = lifeExp_ends)) + #- sec_axis() especifica un eje secundario
scale_x_continuous(expand = c(0, 0))
El siguiente ejemplo está sacado de este libro aún en
construcción. Utiliza el paquete tidyquant para
descargar las cotizaciones de las 4 principales empresas tecnológicas,
las GAFA. tidyquant
tiene muchas funciones interesantes,
puedes verlas corriendo tq_transmute_fun_options()
.
library(tidyquant)
stocks <- c("GOOGL","AMZN","FB","AAPL") #- seleccionamos a las GAFAs
df <- tq_get(stocks, from = as.Date("2013-01-01"), to = as.Date("2013-12-31"))
ggplot(df, aes(date, y = close, color = fct_reorder2(symbol, date, close))) +
geom_line() + xlab("") + ylab("") +
theme(legend.title = element_blank())
Reescalamos para que las series comiencen todas en 100
df <- df %>% group_by(symbol) %>% mutate(rescaled_close = 100*close / close[1])
ggplot(df, aes(date, y = rescaled_close, color = fct_reorder2(symbol, date, rescaled_close))) +
geom_line() + xlab("") + ylab("") +
theme(legend.title = element_blank())
Otro paquete muy útil para analizar y descargar datos financieros es
quantmod
. El ejemplo
siguiente lo he sacado de este
fantastico libro.
library(quantmod)
today <- Sys.Date()
three_months_ago <- seq(today, length = 2, by = "-3 months")[2]
getSymbols("AAPL", from = three_months_ago, to = today)
#> [1] "AAPL"
candleChart(AAPL, theme = 'white', type = 'candles')
Si quieres saber más sobre gráficos de lineas puedes ir aquí.
Un poco sobre datos temporales
Para trabajar con datos temporales, R tiene distintos paquetes y
estructuras, pero para manipular fechas y datos temporales en el
tidyverse tenemos el paquete lubridate
.
Para una introducción a fechas y tiempo en R aquí.
En general, para realizar análisis estadísticos en R con series de
tiempo se necesita que los datos estén en matrices, pero nosotros en el
curso estamos trabajando con el tidyverse, y la la estructura de datos
usada son los dataframes o tibbles, esto era un problema, pero
recientemente, el paquete tsibble
ha
extendido el tidyverse y las tibbles a los datos temporales, creando una
nueva estructura de datos: las “tsibbles”.
Apoyándose en esta nueva estructura de datos, las “tsibbles”, el
paquete feast
proporciona las herramientas y funciones necesarias para trabajar con
series temporales en un entorno tidy. feast
es un acrónimo
de Feature Extraction And Statistics for Time Series. Para una
introducción a feast
puedes ir aquí o aquí.
Asimismo, el paquete fable
también
utiliza “tsibbles” y proporciona herramientas para la predicción de
series temporales, incluyendo modelos ARIMA en el entorno tidyverse.
Para una introducción a fable
puedes ir aquí.
Aquí
puedes ver una conferencia en la que se explica las principales ideas de
esta nueva forma de trabajar con series temporales en el tidyverse
7. Más detalles/cosas
7.1 geom_smooth()
Ya hemos usado geom_smooth()
. Un argumento importante de
geom_smooth()
es method
con el que se
selecciona el método con el que se obtiene la smooth curve. El método
por defecto es method = "loess"
. Puedes controlar el nivel
de smoothing con el parametro “span”, que va de 0 to 1 (mayor
suavizado).
Otras opciones para geom_smooth():
method = “lm” fits a linear model, giving the line of best
fit.
method = “rlm” works like lm(), but uses a robust fitting
algorithm so that outliers don’t affect the fit as much. It’s part of
the MASS package, so remember to load that first.
stat_smooth(se = FALSE) , indica si se representan intervalos de
confianza para la linea suavizada.
Además de los métodos implementados, podemos elegir nuestro propio
método, ya sea usando el argumento “formula” o definiendo nuestro propio
método de alisado como nos cuentan aquí
p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) +
geom_point()
p + geom_smooth(method = "lm", formula = y ~ poly(x,4))
Podemos, obviamente, comparar dos métodos de alisado. Para poner
nombre a los diferentes métodos se puede hacer lo siguiente:
library(tidyverse)
p <- ggplot(iris, aes(Sepal.Length, Petal.Length)) +
geom_point()
p + geom_smooth(aes(color = "loess") , method = "loess", se = FALSE) +
geom_smooth(aes(color = "lm") , method = "lm" , se = FALSE)
7.2 Áreas bajo la curva
Para un profesor de estadística/econometría es importante saber hacer
gráficos como estos:
library(tidyverse) ggplot(xx, aes(x)) + geom_function(fun =
function(x) {x**3} , colour = “red”)
ggplot(xx, aes(x)) + geom_function(fun = ~ .x**3 , colour =
“red”)
xx <- data.frame(x = c(-2, 2))
ggplot(xx, aes(x)) + geom_function(fun = function(x) {x**3} , colour = "red")
ggplot(xx, aes(x)) + geom_function(fun = ~ .x**3 , colour = "red")
ggplot(xx, aes(x)) + stat_function(fun = function(x) { x**3 }, geom = "line")
ggplot(xx, aes(x)) + geom_function(fun = dnorm)
ggplot(xx, aes(x = x))+
geom_function(fun = dnorm, xlim = c(-4, 0)) +
stat_function(fun = dnorm, geom = "area", fill = "steelblue", xlim = c(0, 4)) +
xlim(-5, 5)
Lo aprendí aquí.
Inspirado por Fran Morillas, otro ejemplo:
nn <- 300 ; esperanza <- 10; sd <- 6
datos <- data.frame(normal = rnorm(nn, esperanza, sd))
ggplot(datos, aes(normal)) +
geom_histogram(aes(y = after_stat(density)), bins = 30) +
geom_density(color = "blue") +
geom_function(fun = dnorm, args = list(esperanza, sd), colour = "red")
Aunque, la verdad, hoy en dia hay paquetes en R para todo. Por
ejemplo el paquete nhstplot
library(nhstplot)
plotttest(t = 1.96, df = 1000 , tails = "one")
7.3 Labelling las observaciones con ggrepel
El gráfico de abajo se basa en este post
de Julia Silge. Utiliza el paquete `ggrepel para poder ver a
quien pertenece la observación en un gráfico de puntos.
library(ggrepel)
df <- gapminder::gapminder %>% filter(year == "2007") %>% filter(continent == "Europe")
ggplot(df, aes(gdpPercap, lifeExp, label = country)) + geom_point() +
labs(title = "Gráfico 1: Esperanza de vida frente a PIB per cápita" ,
caption = "Datos provenientes de gapminder",
y = "lifeExp",
x = "gdpPercap") + geom_smooth() +
geom_label_repel()
7.4 GGally
package
Hay muchos paquetes que proporcionan formas rápidas de hacer gráficos
como por ejemplo este del paquete GGally
:
library(GGally)
ggpairs(iris)
ggpairs(iris %>% select(1:4) %>% na.omit(), progress = FALSE, lower = list(combo = wrap("facethist", bins=6)))
7.5 Un poco más de anotaciones
Para que un gráfico sea efectivo y nos haga ver algún hecho o
característica de los datos, muchas veces es preciso hacer anotaciones
en el gráfico para señalar o resaltar ciertos aspectos de este. En esta
subsección presento algún ejemplo de uso de las anotaciones en gráficos
ggplot.
- En primer lugar un ejemplo de Hadley. Hadley nos dice que no hay
nada novedoso excepto el uso de -Inf and Inf como posiciones para
referirse a los límites del gráfico, the top and bottom (or left and
right) limits of the plot.
presidential <- subset(presidential, start > economics$date[1])
p <- ggplot(economics) + geom_line(aes(date, unemploy)) +
scale_fill_manual(values = c("blue", "red")) +
xlab("date") +
ylab("unemployment")
#- comienzan las anotaciones
p + geom_rect(aes(xmin = start, xmax = end, fill = party),
ymin = -Inf, ymax = Inf, alpha = 0.2, data = presidential) +
geom_vline(aes(xintercept = as.numeric(start)),
data = presidential, colour = "grey50", alpha = 0.5) +
geom_text(aes(x = start, y = 2500, label = name),
data = presidential, size = 3, vjust = 0, hjust = 0, nudge_x = 50)
Una forma común de anotación consiste en marcar o subrayar un
conjunto de puntos. Por ejemplo marcar los coches de la marca Subaru en
el siguiente gráfico. Se puede hacer de la siguiente manera:
p <- ggplot(mpg, aes(displ, hwy)) +
geom_point(data = filter(mpg, manufacturer == "subaru"), colour = "orange", size = 3) +
geom_point()
p
Como ves, lo que se ha hecho es superponer una capa con solo las
observaciones de Subaru y graficarlas con un punto más grande de lo
habitual y con un color llamativo. El problema es que se ve que sean las
observaciones de Subaru. Esto se puede resolver de varias maneras usando
annotate():
p + annotate(geom = "point", x = 5.5, y = 40, colour = "orange", size = 3) +
annotate(geom = "point", x = 5.5, y = 40) +
annotate(geom = "text", x = 5.6, y = 40, label = "subaru", hjust = "left")
O de esta otra forma:
p + annotate(geom = "curve", x = 4, y = 35, xend = 2.65, yend = 27,
curvature = .3, arrow = arrow(length = unit(2, "mm"))) +
annotate(geom = "text", x = 4.1, y = 35, label = "subaru", hjust = "left")
El paquete ggforce
es
una extensión a ggplot2 que puede servir para muchas cosas, entre ellas
hacer anotaciones o marcas en gráficos ggplot. Por ejemplo:
ggplot(iris, aes(Sepal.Length, Petal.Length)) +
geom_point(aes(color = Species)) +
ggforce::geom_mark_ellipse(aes(label = Species, group = Species))
Con ggforce
podemos hasta simular un zoom:
ggplot(iris, aes(Petal.Length, Petal.Width, colour = Species)) +
geom_point() +
ggforce::facet_zoom(x = Species == "versicolor")
El paquete/extensión ggforce
es pretty awesome. En este
post puede verlo en acción haciendo mapas.
Otro enfoque para hacer anotaciones, bueno, en realidad centrase en
un grupo de observaciones es utilizar el paquete gghighlight
:
df <- gapminder::gapminder %>% filter(continent == "Europe")
ggplot(df, aes(year, lifeExp, group = country)) +
geom_line() +
geom_point() +
gghighlight::gghighlight(country %in% c("Spain", "Portugal"))
ggplot(iris, aes(Sepal.Length, Petal.Length, color = as.factor(Species))) +
geom_point() +
gghighlight::gghighlight() +
facet_wrap(vars(Species))
9. Gráficos interactivos
Los gráficos interactivos, como su nombre indica, permite al usuario
interactuar con el gráfico, abriéndose posibilidades como centrarse en
parte del gráfico (zooming), highlighting, o mostrar información
adicional al pinchar en algún elemento del gráfico, etc …
En general, JavaScript (JS) es el lenguaje utilizado para hacer
gráficos interactivos con librerías como D3, Chart, Plotly, Vis
Highcharts, …
Recientemente, el paquete de R htmlwidgets
ha
facilitado el uso de las librerías de JS en R. Actualmente, paquetes de
R, como leaflet, DT, dygraphs, networkD3 y muchos otros, utilizan el
framework propuesto por htmlwidgets para hacer disponibles los gráficos
interactivos de JS en R.
Para daros cuenta de lo fácil que es hacer un gráfico interactivo con
R usaremos el paquete plotly
que hace posible usar
la librería plotly.js en R. Con plotly
se pueden hacer
muchos tipos de gráficos, pero por ejemplo, permite con una sola linea
convertir un gráfico ggplot en interactivo:
library(plotly)
p <- ggplot(iris, aes(Sepal.Length, Petal.Length, color = Species)) + geom_point() + geom_smooth()
ggplotly(p)
Aquí puedes
encontraar un bookdown sobre plotly.
p1 <- p + facet_grid(cols = vars(Species))
ggplotly(p1)
p <- ggplot(mpg, aes(class)) + geom_bar(fill = "steelblue") + coord_flip()
ggplotly(p)
Aquí
puedes ver un galería de ejemplos de gráficos interactivos hechos con R.
Aquí
un post, ya de 2015, para iniciarse un poco en estos temas.
Hay muchos paquetes que permiten hacer gráficos interactivos en R,
por ejemplo leaflet
, que
permite hacer mapas interactivos muy fácilmente.
library(leaflet)
m <- leaflet()
m <- addTiles(m)
m <- addMarkers(m, lng = 174.768, lat =-36.852, popup = "The birthplace of R")
m
Todos estos paquetes que permiten hacer gráficos interactivos a
través de htmlwidgets
se pueden consultar en: http://gallery.htmlwidgets.org/. Dos paquetes que no
están en la gallery: Apexcharts
y TSplotly
.
En Interactive web-based data
visualization with R, plotly, and shiny explican más detalladamente
como hacer gráficos interactivos en R. Tendré que releer su sección Saving and embedding HTML
para mostrar en el tutorial alguno de los gráficos dinámicos que he
hecho, pero ahora tengo prisa, la próxima clase es pronto y empezamos sí
o sí ggplot2.
Hadley también está escribiendo un bookdown sobre Shiny: Mastering Shiny. En palabras de
Hadley: Shiny is a framework for creating web applications using R code.
Para ver que significa esto puedes ver la siguiente galería con ejemplos de
aplicaciones shiny.
gganimate
gganimate
es un
paquete que no hace gráficos dinámicos, pero permite animar gráficos
mediante la creación creación de secuencias de gráficos. Mejor que
explicarlo visita su sección de ejemplos en su wiki: https://github.com/thomasp85/gganimate/wiki. Por ejemplo
este
ejemplo o este
ejemplo de jurgol. En este
post explican como usarlo.
Un ejemplo con los datos de gapminder
library(tidyverse)
library(gapminder)
library(gganimate)
gapmider_europe <- gapminder %>% filter(continent == "Europe")
ggplot(gapmider_europe, aes(gdpPercap, lifeExp, size = pop, colour = country)) +
geom_point(alpha = 0.7, show.legend = FALSE) +
scale_colour_manual(values = country_colors) +
scale_size(range = c(2, 12)) +
scale_x_log10() +
facet_wrap(~continent) +
# Here comes the gganimate specific bits
labs(title = 'Year: {frame_time}', x = 'GDP per capita', y = 'life expectancy') +
transition_time(year) +
ease_aes('linear')
Aquí
tienes un ejemplo para hacerlo para los cinco continentes.
