Manejo de datos con R (III):
the tidyverse way

Módulo práctico de ITA
(Grupo M)

Data munging: the tidyverse way

Aprendimos a cargar datos y a hacerlos TIDY. También vimos la “teoría” del tidyverse. Ahora nos centraremos en usar el tidyverse para transformar nuestros datos, para obtener resultados. Para ello usaremos ejemplos

vimos ya la la “teoría” del tidyverse

El tidyverse es un conjunto de paquetes de R que facilitan la manipulación de datos, su visualización y modelización

dplyr es el paquete más importante a la hora de manipular datos.

Sus funciones más importantes son: select(), filter(), mutate(), arrange(), rename, summarise() y group_by().

Cada función hace “una sola cosa”, así que para realizar transformaciones complejas hay que ir concatenando instrucciones sencillas con el operador pipe (%>%)

Ejemplos

para aprender a manipular datos con dplyr (y obtener resultados)

CONTAR (observaciones)

Es importante saber cómo contar las observaciones que tenemos en distintos grupos
Por ejemplo, contar cuantas mujeres hay, o cuantas observaciones hay en cada continente, o cuantas empresas en diferentes sectores, …

… vamos a CONTAR

tenemos 3 formas distintas de contar el nº de observaciones (o filas)

1. Usando mutate() con n()

#- fíjate q con mutate() se mantienen todas las filas y todas las columnas
aa <- gapminder %>% mutate(NN = n())  

nrow(aa)  #- se mantienen las 1704 observaciones

[1] 1704

1. mutate() mantiene el nº de filas originales (1704)

bb <- head(aa, n = 3)
gt::gt(bb)

country	continent	year	lifeExp	pop	gdpPercap	NN
Afghanistan	Asia	1952	28.801	8425333	779.4453	1704
Afghanistan	Asia	1957	30.332	9240934	820.8530	1704
Afghanistan	Asia	1962	31.997	10267083	853.1007	1704

2. Usando summarise() con n()

#- fíjate q  summarise() solo devuelve una fila y una columna
aa <- gapminder %>% summarise(NN = n())

2. summarise() devuelve una fila (por grupo)

gt::gt(aa)

NN
1704

3. Usando count()

aa <- gapminder %>% count()

3. count() devuelve una fila (por grupo)

gt::gt(aa)

n
1704

… seguimos CONTANDO

Pero ahora contamos el nº de observaciones de distintos grupos (por ejemplo el nº de observaciones de cada continente)

También podríamos usar mutate() pero esta vez solo usaremos summarise() y count()

# fíjate q  summarise() devuelve una fila por cada grupo
# una fila por cada continente
aa <- gapminder %>% 
  group_by(continent) %>% summarise(NN = n())

gt::gt(aa)

continent	NN
Africa	624
Americas	300
Asia	396
Europe	360
Oceania	24

aa <- gapminder %>% count(continent)

gt::gt(aa)

continent	n
Africa	624
Americas	300
Asia	396
Europe	360
Oceania	24

… aún seguimos CONTANDO

Contamos el nº de observaciones de distintos grupos, pero ahora definidos por dos variables (por ejemplo el nº de observaciones de cada continente y año)

# fíjate q hay 60 grupos (5 continentes x 12 periodos)
# por lo que devuelve 60 filas, una por grupo

aa <- gapminder %>% 
  group_by(continent, year) %>% summarise(NN = n())


aa <- gapminder %>% count(year, continent)

bb <- head(aa, n = 14)
gt::gt(bb)

year	continent	n
1952	Africa	52
1952	Americas	25
1952	Asia	33
1952	Europe	30
1952	Oceania	2
1957	Africa	52
1957	Americas	25
1957	Asia	33
1957	Europe	30
1957	Oceania	2
1962	Africa	52
1962	Americas	25
1962	Asia	33
1962	Europe	30

Extensión: n() versus nrow()

n() es una función auxiliar en el tidyverse. Devuelve en nº de filas “in the current group”. Solo funciona en el tidyverse, concretamente en funciones como mutate() y summarise()

#- como agrupamos por año y continente, saldrán 60 grupos (12 x 5)

aa <- gapminder %>%
  group_by(continent, year) %>% 
  summarise(NN = n()) %>% 
  ungroup()

aa %>% slice(1, 2, 12, 13) %>% 
  gt::gt() %>% 
  gtExtras::gt_theme_guardian()

continent	year	NN
Africa	1952	52
Africa	1957	52
Africa	2007	52
Americas	1952	25

nrow(x) es una función de R-base. Devuelve el número de filas en x

#- como agrupamos por año y continente, saldrán 60 grupos (12 x 5)

#- con nrow()
bb <- gapminder %>% 
  group_by(continent, year) %>% 
  summarise(NN = nrow(.)) %>% 
  ungroup()

bb %>% slice(1, 2, 12, 13) %>% 
  gt::gt() %>% 
  gtExtras::gt_theme_dark()

continent	year	NN
Africa	1952	1704
Africa	1957	1704
Africa	2007	1704
Americas	1952	1704

observaciones DISTINTAS

A veces es importante ver (y contar) las observaciones DISTINTAS que tengamos (en los distintos grupos de nuestros datos)

… ver/obtener observaciones DISTINTAS con distinct()

gapminder tiene 1.704 filas: ninguna repetida

# gapminder tiene 1.704 filas: ninguna repetida
aa <- gapminder %>% distinct()

# gapminder no tiene filas repetidas
nrow(aa) == nrow(gapminder)

[1] TRUE

En gapminder hay 5 valores distintos para los continentes

# en gapminder hay 5 valores distintos para los continentes
aa <- gapminder %>% distinct(continent)

# efectivamente 5 continentes
gt::gt(aa)

continent
Asia
Europe
Africa
Americas
Oceania

gapminder tiene 60 filas/combinaciones distintas para continente-año (5 x 12 = 60)

# en gapminder hay 5 valores distintos para los continentes
aa <- gapminder %>% distinct(continent, year)

# efectivamente 60:  5 continentes x 12 periodos
nrow(aa)

[1] 60

… CONTAR observaciones DISTINTAS con n_distinct()

cuantos países (distintos) hay en cada continente?

# nº de países distintos en cada continente
aa <- gapminder %>% 
  group_by(continent) %>% 
  summarise(NN = n_distinct(country))

gt::gt(aa)

continent	NN
Africa	52
Americas	25
Asia	33
Europe	30
Oceania	2

cuantos países (distintos) hay cada año en cada continente?

# nº de países distintos en cada continente
aa <- gapminder %>% 
  group_by(year, continent) %>% 
  summarise(NN = n_distinct(country)) %>% 
  ungroup()

gt::gt(head(aa, n = 7))

year	continent	NN
1952	Africa	52
1952	Americas	25
1952	Asia	33
1952	Europe	30
1952	Oceania	2
1957	Africa	52
1957	Americas	25

obtener/calcular estadísticos

Ya os explicaran en Estadística y Econometría qué es un estadístico, cuales son los más importantes y cómo se calculan 😉

Los estadísticos más sencillos de entender son: el máximo, el mínimo y la media

calculando ESTADISTICOS: máximo, mínimo, media, ……

obtener el máximo, mínimo y media de “lifeExp”:

aa <- gapminder %>% 
  summarise(maximo = max(lifeExp, na.rm = TRUE), 
            minimo = min(lifeExp, na.rm = TRUE), 
            media = mean(lifeExp, na.rm = TRUE) )

gt::gt(aa)

maximo	minimo	media
82.603	23.599	59.47444

calcular ESTADISTICOS (máximo, mínimo y media) por continente

#- calcular estadísticos por continente
aa <- gapminder %>% group_by(continent) %>% 
  summarise(maximo = max(lifeExp, na.rm = TRUE), 
            minimo = min(lifeExp, na.rm = TRUE), 
            media = mean(lifeExp, na.rm = TRUE) )

aa %>% gt::gt()

continent	maximo	minimo	media
Africa	76.442	23.599	48.86533
Americas	80.653	37.579	64.65874
Asia	82.603	28.801	60.06490
Europe	81.757	43.585	71.90369
Oceania	81.235	69.120	74.32621

ESTADISTICOS para Europa año a año ……

#- calcular estadísticos por CONTINENTE Y AÑO
aa <- gapminder %>% 
1  group_by(continent, year) %>%
2  summarise(maximo = max(lifeExp, na.rm = TRUE),
            minimo = min(lifeExp, na.rm = TRUE), 
            mean = mean(lifeExp, na.rm = TRUE) ) %>% 
3  ungroup() %>%
4  filter(continent == "Europe")

1: primero agrupamos por continente y año
2: Calculamos los estadísticos (para las observaciones de cada año y continente)
3: Usar group_by() es una buena práctica hacer después un ungroup()
4: Seleccionamos solo los datos de Europa

aa %>% gt::gt() %>% gt::fmt_number(3:5, decimals = 2)

continent	year	maximo	minimo	mean
Europe	1952	72.67	43.59	64.41
Europe	1957	73.47	48.08	66.70
Europe	1962	73.68	52.10	68.54
Europe	1967	74.16	54.34	69.74
Europe	1972	74.72	57.01	70.78
Europe	1977	76.11	59.51	71.94
Europe	1982	76.99	61.04	72.81
Europe	1987	77.41	63.11	73.64
Europe	1992	78.77	66.15	74.44
Europe	1997	79.39	68.83	75.51
Europe	2002	80.62	70.84	76.70
Europe	2007	81.76	71.78	77.65

en la slide anterior, al calcular la esperanza de vida media por continente,
estábamos promediando países con diferente población 🫣

Tarea
Pistas
Solución

Vuelve a calcular la esperanza de vida media por continente y año, PERO ahora, ten en cuenta que los países tienen distinto nº de habitantes
Es decir, hemos de calcular la media, pero ponderada por la población (pop)

Pista: Igual puedes reusar el código de la página anterior, pero en lugar de usar mean() usar weighted.mean()
Tendrás que mirar la ayuda de weighted.mean() para usar un nuevo argumento

aa <- gapminder %>% 
  group_by(continent, year) %>%   
1  summarise(mean = mean(lifeExp, na.rm = TRUE),
            mean_w = weighted.mean(lifeExp, w = pop, na.rm = TRUE)) %>%    
  ungroup() %>%   
2  filter(year == 2007)

1: Calculamos la media y la media ponderada (para las observaciones de cada año y continente)
2: Ahora en lugar de ver los resultados para Europa, filtramos el año 2007

aa %>% gt::gt() %>% 
  gt::fmt_number(3:4, decimals = 2)

continent	year	mean	mean_w
Africa	2007	54.81	54.56
Americas	2007	73.61	75.36
Asia	2007	70.73	69.44
Europe	2007	77.65	77.89
Oceania	2007	80.72	81.06

Calcular CRECIMIENTOS

Muchas veces interesa saber cuanto crecen las variables, por ejemplo el PIB, o el desempleo , …, o la esperanza de vida

calculando CRECIMIENTOS

calcular el crecimiento de la esperanza de vida, de un periodo a otro, en España

aa <- gapminder %>% 
1  select(country, year, lifeExp) %>%
2  group_by(country) %>%
3  arrange(year) %>%
4  mutate(crecimiento =  lifeExp - lag(lifeExp)) %>%
5  mutate(crecimiento2 = lifeExp - lag(lifeExp, default = first(lifeExp))) %>%
6  ungroup() %>%
7  filter(country == "Spain")

1: Selecciono las variables relevantes
2: Agrupamos por país: los cálculos siguientes se harán para cada país
3: Ordenamos por año: el año más antiguo (1952) el primero
4: Calculamos el crecimiento de la esperanza de vida de un año a otro
5: Mejoramos el calculo anterior de “crecimiento”
6: Al usar group_by() es una buena práctica hacer después un ungroup()
7: Seleccionamos solo los datos de España

gt::gt(aa) %>% 
  gt::fmt_number(3:5, decimals = 2)

country	year	lifeExp	crecimiento	crecimiento2
Spain	1952	64.94	NA	0.00
Spain	1957	66.66	1.72	1.72
Spain	1962	69.69	3.03	3.03
Spain	1967	71.44	1.75	1.75
Spain	1972	73.06	1.62	1.62
Spain	1977	74.39	1.33	1.33
Spain	1982	76.30	1.91	1.91
Spain	1987	76.90	0.60	0.60
Spain	1992	77.57	0.67	0.67
Spain	1997	78.77	1.20	1.20
Spain	2002	79.78	1.01	1.01
Spain	2007	80.94	1.16	1.16

calculando CRECIMIENTOS ACUMULADOS

calcular el crecimiento de la esperanza de vida ACUMULADO en España

aa <- gapminder %>% 
  select(country, year, lifeExp) %>%   
1  group_by(country) %>%
2  arrange(year) %>%
3  mutate(crec_1 = lifeExp - lag(lifeExp)) %>%
4  mutate(crec_2 = lifeExp - lag(lifeExp, default = first(lifeExp))) %>%
5  mutate(crec_acu_1 = cumsum(crec_1)) %>%
6  mutate(crec_acu_2 = cumsum(crec_2)) %>%
7  mutate(crec_acu_3 = lifeExp - first(lifeExp)) %>%
8  ungroup() %>%
  filter(country == "Spain")

1: Agrupamos por país: los cálculos siguientes se harán para cada país
2: Ordenamos por año: el año más antiguo (1952) el primero
3: Calculamos el crecimiento de la esperanza de vida de un año a otro
4: “Mejoramos” el calculo anterior de “crecimiento”
5: Usamos cumsum() pero no va a funcionar: saldrá todo NA
6: Usamos cumsum() para calcular el crecimiento acumulado
7: Crecimiento acumulado: calculamos el incremento respecto a la 1ª observación
8: Al usar group_by() es una buena práctica hacer después un ungroup()

gt::gt(aa) %>% 
  gt::fmt_number(3:8, decimals = 2)

country	year	lifeExp	crec_1	crec_2	crec_acu_1	crec_acu_2	crec_acu_3
Spain	1952	64.94	NA	0.00	NA	0.00	0.00
Spain	1957	66.66	1.72	1.72	NA	1.72	1.72
Spain	1962	69.69	3.03	3.03	NA	4.75	4.75
Spain	1967	71.44	1.75	1.75	NA	6.50	6.50
Spain	1972	73.06	1.62	1.62	NA	8.12	8.12
Spain	1977	74.39	1.33	1.33	NA	9.45	9.45
Spain	1982	76.30	1.91	1.91	NA	11.36	11.36
Spain	1987	76.90	0.60	0.60	NA	11.96	11.96
Spain	1992	77.57	0.67	0.67	NA	12.63	12.63
Spain	1997	78.77	1.20	1.20	NA	13.83	13.83
Spain	2002	79.78	1.01	1.01	NA	14.84	14.84
Spain	2007	80.94	1.16	1.16	NA	16.00	16.00

Calcular PORCENTAJES

Muchas veces interesa saber cuantas observaciones hay en cada grupo: eso se hace contando, que ya lo hemos visto

Una vez hemos contado, muchas veces interesa saber el porcentaje que representa cada grupo respecto al total
Para calcular esos porcentajes, hay que contar el total y dividirlo por el nº de observaciones en cada grupo. Veamos cómo hacerlo

calculando PORCENTAJES (a mano)

Por ejemplo, si en una muestra de 100 personas hay 70 personas con el pelo moreno, los morenos son el 70% del total
Evidentemente, se calcula dividiendo: 70/100 = 0.7; si lo multiplicamos x100, un 70%

un ejemplo

Si en una muestra de 321 personas hubiesen 243 morenos, 89 rubios y el resto pelirrojos ¿qué porcentaje representa cada grupo?

calculando PORCENTAJES (con R à la tidyverse)

Calcular el % que representa cada continente en la población mundial:

#- Calcular % de población de cada continente 
aa <- gapminder %>% 
1  group_by(continent, year) %>%
2  summarise(pob_continent = sum(pop, na.rm = TRUE)) %>% ungroup() %>%
3  group_by(year) %>%
4  mutate(pob_mundo = sum(pob_continent),
5         pob_percent = pob_continent/pob_mundo * 100) %>%
  ungroup()

1: Agrupamos por continente y año
2: Calculo la población de cada continente para cada año
3: Vuelvo a agrupar, ahora solo por años
4: Calculo la población mundial para cada año
5: Finalmente calculamos el porcentaje

1bb <- aa %>% filter(year %in% c(1952, 2007))

1: Me quedo con el año inicial y final (para poder visualizar mejor los resultados)

gt::gt(head(bb, n = 15)) %>% 
  gt::fmt_number(pob_percent, decimals = 2)

continent	year	pob_continent	pob_mundo	pob_percent
Africa	1952	237640501	2406957150	9.87
Africa	2007	929539692	6251013179	14.87
Americas	1952	345152446	2406957150	14.34
Americas	2007	898871184	6251013179	14.38
Asia	1952	1395357351	2406957150	57.97
Asia	2007	3811953827	6251013179	60.98
Europe	1952	418120846	2406957150	17.37
Europe	2007	586098529	6251013179	9.38
Oceania	1952	10686006	2406957150	0.44
Oceania	2007	24549947	6251013179	0.39

Extensión: tabla con la importancia (en términos de población) de cada continente en el tiempo

- Antes hemos calculado (en aa) el % que representa la población de cada continente a lo largo del tiempo, pero lo tenemos en formato largo

continent	year	pob_continent	pob_mundo	pob_percent
Africa	1952	237640501	2406957150	9.87
Africa	1957	264837738	2664404580	9.94
Africa	1962	296516865	2899782974	10.23
Americas	1952	345152446	2406957150	14.34
Americas	1957	386953916	2664404580	14.52

Los datos de aa no son presentables en una tabla porque tiene 60 filas!!!!

Ahora quiero hacer la tabla presentable: he de pasarla a formato ancho

bb <- aa %>% 
  select(continent, year, pob_mundo, pob_percent) %>%
  tidyr::pivot_wider(names_from = continent, 
                     values_from = pob_percent)

gt::gt(bb) %>% 
  gt::fmt_number(2, sep_mark = ".", decimals = 0) %>% 
  gt::fmt_number(3:7, decimals = 1)

year	pob_mundo	Africa	Americas	Asia	Europe	Oceania
1952	2.406.957.150	9.9	14.3	58.0	17.4	0.4
1957	2.664.404.580	9.9	14.5	58.7	16.4	0.4
1962	2.899.782.974	10.2	14.9	58.5	15.9	0.5
1967	3.217.478.384	10.4	14.9	59.2	15.0	0.5
1972	3.576.977.158	10.6	14.8	60.1	14.0	0.5
1977	3.930.045.807	11.0	14.7	60.7	13.2	0.4
1982	4.289.436.840	11.6	14.7	60.9	12.4	0.4
1987	4.691.477.418	12.3	14.6	61.2	11.6	0.4
1992	5.110.710.260	12.9	14.5	61.3	10.9	0.4
1997	5.515.204.472	13.5	14.4	61.3	10.3	0.4
2002	5.886.977.579	14.2	14.4	61.2	9.8	0.4
2007	6.251.013.179	14.9	14.4	61.0	9.4	0.4

Calcular RANKINGS

En CC.SS interesa saber el ranking que ocupa cada individuo/país/empresa/ …

calculando RANKINGs

Calcular el ranking de España en cuanto a Esperanza de vida

aa <- gapminder %>% 
1  select(country, year, lifeExp) %>%
2  group_by(year) %>%
3    mutate(rank_1 = row_number(desc(lifeExp))) %>%
    mutate(rank_2 = min_rank(desc(lifeExp)) ) %>% 
    #- también puedo calcular el ranking a mano
4    arrange(desc(lifeExp)) %>%
    mutate(rank_mio = 1:n())  %>%
  ungroup()

1: Selecciono las variables relevantes
2: Agrupamos por año ya que queremos calcular el ranking cada año
3: Podemos usar distintos métodos para calcular el ranking, siempre en función del valor de lifeExp de mayor a menor
4: También puedo calcular el ranking “a mano”. Para ello, antes, he de ordenar las observaciones por desc(lifeExp)

aa %>% 
  filter(country == "Spain") %>% 
  gt::gt() %>% 
  gt::fmt_number(3:5, decimals = 0)

country	year	lifeExp	rank_1	rank_2	rank_mio
Spain	2007	81	6	6	6
Spain	2002	80	8	8	8
Spain	1997	79	8	8	8
Spain	1992	78	7	7	7
Spain	1987	77	5	5	5
Spain	1982	76	4	4	4
Spain	1977	74	8	8	8
Spain	1972	73	8	8	8
Spain	1967	71	10	10	10
Spain	1962	70	18	18	18
Spain	1957	67	26	26	26
Spain	1952	65	24	24	24

2 funciones muy útiles: `ifelse()` y `case_when()`

ifelse(): ejecuta “algo” de manera condicional
case_when(): es una generalización de ifelse()

Sí, no parece muy sencillo, pero con ejemplos se entiende mucho mejor

ifelse(): ejecuta “algo” de manera condicional

veamos algunos ejemplos

aa <- gapminder %>% 
  select(-pop) %>% 
  mutate(X1 = ifelse(lifeExp > 70, "longevo", "no longevo")) %>% 
  mutate(X2 = ifelse(gdpPercap > 10000, "rico", "pobre")) %>% 
  mutate(X3 = ifelse(lifeExp > 70 & gdpPercap > 10000, 
                     "longevo y rico", 
                     "no longevo y/o pobre")) %>% 
  mutate(X4 = ifelse(continent == "Europe", "europeo", "no europeo"))

el resultado es:

aa %>% filter(country %in% c("Spain", "Angola")) %>% 
  filter(year %in% c(1952, 2007)) %>% 
  gt::gt() %>% 
  gt::opt_stylize(style = 3) %>% 
  gt::cols_align(align = "center")

country	continent	year	lifeExp	gdpPercap	X1	X2	X3	X4
Angola	Africa	1952	30.015	3520.610	no longevo	pobre	no longevo y/o pobre	no europeo
Angola	Africa	2007	42.731	4797.231	no longevo	pobre	no longevo y/o pobre	no europeo
Spain	Europe	1952	64.940	3834.035	no longevo	pobre	no longevo y/o pobre	europeo
Spain	Europe	2007	80.941	28821.064	longevo	rico	longevo y rico	europeo

case_when(): es una generalización de ifelse()

A ver si entiendes este ejemplo:

aa <- gapminder %>%
  group_by(continent, year)  %>%
  mutate(media_lifeExp = mean(lifeExp)) %>% 
  mutate(media_gdpPercap = mean(gdpPercap)) %>% 
  mutate(GOOD_or_BAD = case_when( 
    lifeExp > mean(lifeExp) & gdpPercap > mean(gdpPercap)  ~ "good",
    lifeExp < mean(lifeExp) & gdpPercap < mean(gdpPercap)  ~ "bad" ,
    lifeExp < mean(lifeExp) | gdpPercap < mean(gdpPercap)  ~ "medium",
    .default = "otros casos"  ) )

El resultado es:

aa %>% ungroup() %>% filter(country == "Spain") %>% select(-pop) %>%
  gt::gt() %>% 
  gt::fmt_number(4:7, sep_mark = ".",   dec_mark = ",", decimals = 2) %>% 
  gt::opt_stylize(style = 2) %>% 
  gt::cols_align(align = "center")

country	continent	year	lifeExp	gdpPercap	media_lifeExp	media_gdpPercap	GOOD_or_BAD
Spain	Europe	1952	64,94	3.834,03	64,41	5.661,06	medium
Spain	Europe	1957	66,66	4.564,80	66,70	6.963,01	bad
Spain	Europe	1962	69,69	5.693,84	68,54	8.365,49	medium
Spain	Europe	1967	71,44	7.993,51	69,74	10.143,82	medium
Spain	Europe	1972	73,06	10.638,75	70,78	12.479,58	medium
Spain	Europe	1977	74,39	13.236,92	71,94	14.283,98	medium
Spain	Europe	1982	76,30	13.926,17	72,81	15.617,90	medium
Spain	Europe	1987	76,90	15.764,98	73,64	17.214,31	medium
Spain	Europe	1992	77,57	18.603,06	74,44	17.061,57	good
Spain	Europe	1997	78,77	20.445,30	75,51	19.076,78	good
Spain	Europe	2002	79,78	24.835,47	76,70	21.711,73	good
Spain	Europe	2007	80,94	28.821,06	77,65	25.054,48	good

Manejo de datos con R (III): the tidyverse way