class: inverse, center, middle ## Tema 6 <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> ### Análisis con información cualitativa ###### (actualizadas el 07-07-2023) --- class: middle ### Tema 6. Análisis con información cualitativa 6.1 Las variables ficticias 6.2 Interpretación del coeficiente de variables ficticias 6.3 Interacción entre una variable ficticia y otra continua 6.4 Múltiples categorías 6.5 Múltiples ficticias <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> **Bibliografía** - Ezequiel Uriel (2013): Capítulo 5 - Wooldridge (2015): Capítulo 7 - Stock y Watson (2012): Capítulo 5 (epígrafe 5.3) --- class: inverse, center, middle ### 6.1 Las variables ficticias <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> #### Son variables que creamos para poder introducir en nuestros modelos información cualitátiva --- ##### ¿Qué son las variables ficticias? - Hasta ahora las variables que hemos analizado han tenido un significado cuantitativo (salario, educación...). - Pero en el trabajo empírico muchas veces necesita **incorporar factores cualitativos** en el modelo de regresión (por ejemplo: el género, el sector laboral, la ubicación geográfica, la estación del año). - ¿Cómo? Mediante la creación e introducción en el modelo de una serie de variables, conocidas como **variables ficticias**, también llamadas variables artificiales o variables dummy. - Estas variables ficticias tomarán el **valor 1 si la observación posee una determinada característica**, y 0 si no la posee. ##### Algunos ejemplos - Definimos la variable *Hombre* como una variable binaria que toma el valor 1 si el individuo es hombre y cero si es mujer. - Definimos la variable *Urbano* como una variable binaria que toma el valor 1 si el individuo reside en una población de 150000 habitantes o más y cero en otro caso. --- ##### Ejemplo: variables cuantitativas y cualitativas <img src="data:image/png;base64,#../imagenes/tema_06_img_01.png" width="60%" style="display: block; margin: auto;" /> - Las variables *salario* y *educacion* con cuantitativas. - *mujer* y *casada* son variables ficticias (o dummies), que permitirán incorporar a nuestro MLR información cualitativa (en este caso, el género o el estado civil del individuo). - La variable mujer se ha definido de la siguiente manera: toma el valor 1 si el individuo es mujer y toma el valor cero si el individuo no es mujer (en este caso, si es hombre). - ¿Cómo se define la variable casada? --- ##### ¿Cómo incorporar información cualitativa al modelo de regresión? - Para incorporar información cualitativa (o atributos) en el modelo de regresión, sencillamente introduciremos las variables ficticias como si fuesen una variable más del modelo. - Dado un atributo con `\(q\)` grupos o categorías, podemos definir `\(q\)` variables dummies. - **PERO**, como nuestro MRL siempre incorpora término independiente ( `\(\beta_1\)` ), tendremos que incorporar al modelo solamente `\((q-1)\)` variables dummies; si no incurriríamos en la *trampa de las ficticias* - Lo veremos más adelante, pero ... las variables ficticias se pueden introducir en el modelo de forma **aditiva** o de forma **multiplicativa** (interactuando con otra variable, generalmente una variable cuantitativa) - Cuántas ficticias incorporar y cómo incorporarlas, dependerá del fenómeno económico concreto que se quiera analizar. --- ##### Visión general con un ejemplo (una característica con dos categorías) - Supongamos que se quiere contrastar si hay **discriminación por género** en la determinación de los salarios. Supongamos, además, que el genero es una característica con **sólo 2 grupos**(!!!) - Si hay 2 grupos, **podemos definir 2 dummies** (H y M). En la práctica **sólo necesitaremos una** de las 2 dummies - ¿Qué dummy introducimos? La que queramos, PERO, el grupo que no tenga dummy será la **categoría de referencia** - Podemos introducir la dummy de forma **aditiva o multiplicativa** - Modelo con **dummy aditiva**: `$$salario_i = \beta_1 + \beta_2 educacion_i + \delta_1 mujer_i + u_i$$` - Modelo con **dummy multiplicativa**, interactuando con la variable `\(educacion\)` `$$salario_i = \beta_1 + \beta_2 educacion_i + \gamma_1 (educacion_i x mujer_i) + u_i$$` - ¿Cuál es la **interpretación de los coeficientes** que acompañan a las dummies? Lo veremos **poco a poco con ejemplos** --- class: inverse, center, middle ### 6.2 Interpretación del coeficiente de variables ficticias <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> #### La intrepretación es (un poco) diferente al de las variables cuantitativas --- ##### Ejemplo 1: una característica con dos categorías y dummy aditiva - Hemos planteado: `\(salario_i = \beta_1 + \beta_2 educacion_i + \delta_1 mujer_i + u_i\)` - Como suponemos que `\(E(u_i) = 0\)` entonces: `$$E(salario_i | mujer_i = 1) = \beta_1 + \beta_2 educacion_i + \delta_1$$` `$$E(salario_i | mujer_i = 0) = \beta_1 + \beta_2 educacion_i$$` - Por tanto `$$\delta_1 = E(salario_i | mujer_i = 1) - E(salario_i | mujer_i = 0)$$` - Es decir, `\(\delta_1\)` es **la diferencia** en promedio, o en términos esperados, entre el salario de una mujer y un hombre, asumiendo que tienen la misma educación. - Es decir, en promedio (y para el mismo nivel educativo): - Si `\(\delta_1 < 0\)` habría brecha de género en contra de la mujer. - Si `\(\delta_1 > 0\)` habría brecha de género a favor de la mujer. - Si `\(\delta_1 = 0\)` no hay brecha de género. --- ##### Ejemplo 1 (con brecha de genero en contra de las mujeres) * Gráficamente la ordenada en el origen será distinta para hombres y mujeres. * Habrá brecha de género en contra de las mujeres si `\(\delta_1 < 0\)`. Las mujeres (para el mismo nivel de los demás factores) obtendrán un menor salario en promedio. \ <img src="data:image/png;base64,#../imagenes/tema_06_img_02.png" width="70%" style="display: block; margin: auto;" /> --- ##### Ejemplo 1: contrastes sobre ficticias ¿Hay realmente brecha de género? - El introducir ficticias no cambia nada en la mecánica de estimación por MCO ni en la forma de efectuar los contrastes. - La única diferencia respecto a los regresores cuantitativos es la interpretación del coeficiente. <img src="data:image/png;base64,#../imagenes/tema_06_img_03.png" width="90%" style="display: block; margin: auto;" /> --- ##### ¿Cuántas ficticias hay que introducir? Trampa de las ficticias (Ejemplo 1) - En el ejemplo de la brecha salarial hemos introducido la variable ficticia *mujer*. ¿Porque no hemos introducido las dos ficticias *hombre* y *mujer* a la vez? - Intuitivamente porque las dos variables proporcionan la misma información. - Técnicamente porque si introdujésemos una ficticia para cada categoría (hombre/mujer) se crearía un problema de **multicolinealidad perfecta** en el modelo de regresión, ya que hombre + mujer = 1. - Por lo tanto, **si el modelo tiene constante**, sólo se pueden introducir en el modelo tantas ficticias como categorías menos una. - Si se incorporan al modelo tantas ficticias como categorías, se genera multicolinealidad perfecta. A esta situación se le conoce como la **trampa de las variables ficticias**. --- ##### ¿Qué ficticia hay que introducir en el modelo?: categoría de referencia (Ejemplo 1) - Ya sabemos que si no queremos caer en la trampa de las ficticias, hay que introducir una variable ficticia menos que categorías, pero qué ficticia introduzco en el modelo ¿hombre o mujer? - La categoría que no tendrá variable ficticia es elección del investigador, no afecta a los resultados, aunque sí a la interpretación de los coeficientes de las variables ficticias. - **La categoría que no tiene variable ficticia se llama grupo o categoría de referencia**. - El coeficiente que acompaña a una variable ficticia indica la diferencia en el valor (esperado) del *regresando* entre la categoría de la variable ficticia y la categoría de referencia. - En nuestro ejemplo, la variable introducida es *mujer* lo que hace que la categoría de referencia sean los hombres. Por lo tanto, el coeficiente que acompaña a *mujer* indica la diferencia de salario entre las mujeres y la categoría de referencia (hombres). --- ##### Ejemplo 1: cambiando la categoría de referencia a mujer * Si en el modelo introducimos la variable *hombre*, que toma el valor 1 si el individuo es hombre y toma el valor cero si el individuo no es hombre (en este caso, si es mujer), simplemente cambia el signo del coeficiente de la variable ficticia. `$$salario_i = \beta_1 + \beta_2 educacion_i + \gamma_1 hombre_i + u_i$$` <img src="data:image/png;base64,#../imagenes/tema_06_img_04.png" width="90%" style="display: block; margin: auto;" /> --- class: inverse, center, middle ### 6.3 Interacción entre una variable ficticia y otra continua <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> #### Con el ejemplo 1 hemos trabajo con dummies aditivas, ahora introduciremos las dummies de forma multiplicativa --- ##### ¿Las pendientes tienen que ser iguales entre categorías? - En el ejemplo 1 hemos planteado un modelo que permitía distintos interceptos (ordenadas) por categorías, pero nada impide que también pueda haber diferencias en la pendiente. - Para introducir diferencias en el intercepto hemos introducidos las **ficticias en forma aditiva** (ellas solas acompañadas de su parámetro). - Para introducir **diferentes pendientes**, las variables ficticias han de interactuar con los otros regresores; es decir, se han de introducir en el modelo multiplicando a alguna variable cuantitativa (**ficticias multiplicativas**). --- ##### Ejemplo 2: sólo dummies multiplicativas `$$salario_i = \beta_1 + \beta_2 educacion_i + \delta_2(educacion_i \times mujer_i) + u_i$$` - Ahora, en el modelo 2, el efecto marginal de un año más de educación es: `\(\beta_2 + \delta_2 mujer_i\)`. De forma que: - Para una mujer ( `\(mujer_i = 1\)` ), un año más de educación aumenta su salario en `\(\beta_2 + \delta_2\)`. - Para un hombre ( `\(mujer_i = 0\)` ), un año más de educación aumenta su salario en `\(\beta_2\)`. - Dependiendo del signo de `\(\delta_2\)`, el efecto de un año más de educación será mayor entre los hombres o las mujeres. --- ##### Ejemplo 3: dummy aditiva y multiplicativa - Si se quiere especificar un modelo que permita diferencias entre grupos tanto en la ordenada en el origen como en la pendiente, se deberá introducir la ficticia tanto en forma aditiva como multiplicativa. Por ejemplo: `$$salario_i = \beta_1 + \beta_2 educacion_i + \delta_1 mujer_i + \delta_2(educacion_i \times mujer_i) + u_i$$` <br> - **Ejemplo gráfico** si asumimos que `\(\delta_1 < 0\)` y `\(\delta_2<0\)` <img src="data:image/png;base64,#../imagenes/tema_06_img_05.png" width="70%" style="display: block; margin: auto;" /> --- ##### Ejemplo 3: estimación con Gretl <img src="data:image/png;base64,#../imagenes/tema_06_img_06.png" width="90%" style="display: block; margin: auto;" /> \ - ¿Cuál es el efecto marginal de la educación en las mujeres? ¿Y en los hombres? - ¿Los efectos marginales de la educación en hombres y mujeres difieren? --- class: inverse, center, middle ### 6.4 Múltiples categorías <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> #### Hemos visto ejemplos con variables cualitativas con sólo dos grupos: ampliemos a nultiples grupos --- ##### Una característica, pero con múltiples categorías * **Ejemplo**: vamos a determinar si el tiempo dedicado al ocio depende de los estudios del sujeto. La variable estudios indica el máximo nivel de estudios alcanzados y esta recogida como una variable cualitativa con **tres grupos**: primarios (PRI), secundarios (SEC) y universitarios (UNI). - Para incorporar esta información cualitativa en un modelo de regresión, hay que definir las correspondientes variables ficticias. - Recordar que hay que introducir en el modelo **una variable ficticia menos que categorías** tiene la variable cualitativa. - La categoría que no tenga su ficticia en el modelo será el **grupo de referencia** - Las ficticias se pueden introducir de forma aditiva y/o multiplicativa. - Veamos un ejemplo... --- ##### Ejemplo: una característica con multiples categorías (dummies aditivas) <img src="data:image/png;base64,#../imagenes/tema_06_img_07.png" width="70%" style="display: block; margin: auto;" /> * ¿Cómo se ha definido la variable SEC? ¿y UNI? * ¿Cuál es la categoría de referencia? * Interpreta el coeficiente de SEC (el tiempo de ocio está medido en minutos semanales). * Interpreta el coeficiente de UNI. --- ##### Ejemplo: una característica con multiples categorías (dummies multiplicativas) <img src="data:image/png;base64,#../imagenes/tema_06_img_08.png" width="70%" style="display: block; margin: auto;" /> - ¿Cuál es la ecuación del modelo estimado? Represéntelo gráficamente - ¿Cuál es el efecto marginal de la renta sobre el ocio? (la renta está expresada en miles de euros) - ¿Cuál es el efecto marginal **estimado** de la renta sobre el ocio entre los sujetos con estudios primarios? - ¿Y entre los sujetos con estudios secundarios? ¿Y universitarios? --- ##### Ejemplo: múltiples categorías (aditivas y multiplicativas) <br> <img src="data:image/png;base64,#../imagenes/tema_06_img_09.png" width="70%" style="display: block; margin: auto;" /> - ¿Cuál es la ecuación del modelo? - Escribe la ecuación estimada para el valor esperado de ocio de un sujeto con estudios primarios - Ahora para un sujeto con estudios universitarios. --- class: inverse, center, middle ### 6.5 Múltiples ficticias <html><div style='float:left'></div><hr color='#EB811B' size=1px width=796px></html> #### Hemos visto ejemplos con varias dummies, pero todas las dummies estaban relacionadas con una sola variable cualitativa. Ahora vamos a introducir en el modelo varias variables cualitativas (o características). --- ##### Varias variables cualitativas en el modelo - Nada impide que nuestro modelo incorpore varios tipos de información cualitativa o características. - El mecanismo es el mismo que con una variable cualitativa: definir las correspondientes ficticias e introducir para cada variable cualitativa tantas ficticias como categorías menos una. Para cada atributo tendremos una categoría de referencia - Ejemplo: brecha salarial por sexo (hombre/mujer) y estado civil (soltero/casado). - Nada cambia en cuanto a la mecánica solo que ¡cuidado con la multicolinelaidad! - Cuando hay múltiples ficticias surge la posibilidad de que las dos características interactúen (**efecto interacción**) --- ##### Ejemplo: múltiples ficticias (sexo y estado civil) <br> `$$salario_i = \beta_1 + \beta_2 educacion_i + \delta_1 mujer + \gamma_1 casada_i + u_i$$` <img src="data:image/png;base64,#../imagenes/tema_06_img_10.png" width="70%" style="display: block; margin: auto;" /> <br> - ¿Cuál es la diferencia salarial entre un hombre casado y otro soltero? - ¿Cuál es la diferencia salarial entre una mujer casada y otra soltera? - ¿Cuál es la diferencia salarial entre una mujer soltera y un hombre casado? --- ##### Ejemplo: múltiples ficticias y efecto interacción (mujer casada) <br> `$$salario_i = \beta_1 + \beta_2 educac_i + \delta_1 mujer + \gamma_1 casada_i + \alpha_1 (mujer_i\times casada_i) + u_i$$` <br> <img src="data:image/png;base64,#../imagenes/tema_06_img_11.png" width="70%" style="display: block; margin: auto;" /> * ¿Cuál es la diferencia salarial entre un hombre casado y otro soltero? * ¿Cuál es la diferencia salarial entre una mujer casada y otra soltera? * ¿Cuál es la diferencia salarial entre una mujer casada y un hombre soltero?