Este libro sirve de acompañamiento al curso “Programación y manejo de datos en la era del Big Data” que se empezó a impartir el curso 2019-2020 en el Grado de Economía de la Universitat de València. 1
Está edición es para el curso 2022-23. Se escribe, otra vez, con un poco con prisa, así que veremos como sale!! En esta primera frase ya he querido dejar claro cual será el estilo del libro: se sacrificará el estilo, e incluso a veces la corrección ortográfica para conseguir más claridad.
Llama la atención el título del curso. Es un título muy largo, poco estándar, vamos, un poco raro. El curso en realidad debería llamarse “Una introducción a la Ciencia de Datos para Economía” pero preferí que en el título apareciese en primer lugar la palabra “programación”. La razón es que quiero que los estudiantes que se matriculen sepan que vamos a pasar buena parte del curso dándole ordenes al ordenador por escrito; es decir, programando.
Señalar que, obviamente, el libro no es el curso. Pretendo que el curso sea fundamentalmente práctico y que se aprenda mientras se trabaja con datos y casos. El libro lo enfoco como un esfuerzo de sintetizar los temas de los que se hablarán en el curso y una vía de entrada a la multitud de materiales disponibles sobre estos temas en Internet. Me ha parecido conveniente confeccionar estas notas/libro para que los estudiantes tengan algo, un mínimo, donde tener minimamente reunidos los principales contenidos que se tratarán en la asignatura.
Seguramente no, ya que hay excelentes materiales out there, pero su elaboración es en realidad una estrategia para preparar y enfocar el curso. Lo escribo para los estudiantes del curso, pero en-realidad-en-realidad lo escribo para mi, para entender y organizar lo que llevo haciendo/estudiando desde hace unos cuantos años. Esta idea de escribir para entender la explican muy bien aquí
El libro se escribe, además de para mi, para los estudiantes. Por eso voy a intentar escribir lo más claro posible, a veces para pretender ser claro tendré que ser pesado, otras sacrificar el estilo. Sin embargo, como señalan en este post, un escrito, además de ser claro, debe ser “valioso” para sus lectores. Espero conseguirlo!!
Evidentemente mi opinión es que sí. Voy a argumentarlo un poco.
De todos es conocido que actualmente se está produciendo una auténtica revolución en el campo de la estadística y los datos, a la que se suele referir con términos genéricos como Big Data o Machine Learning. Estos dos tópicos, entre otros, son objeto de estudio de una nueva disciplina que se incorpora poco a poco, pero con mucha fuerza, a la mayoría de planes de estudio, incluida la Economía; por ejemplo, este Máster de la LSE. En la propia UV tenemos ya un máster y un grado en Ciencia de Datos; y en la Facultad de Economía arrancó en el curso 2019-20 una nueva titulación, el Grado en Inteligencia y Analítica de Negocios, BIA por sus siglas en inglés, relacionada también con la ciencia de datos.
El nombre de esta nueva disciplina es Data Science (DS) o Ciencia de Datos en castellano; de hecho, el título de la asignatura que presento debería ser “Una introducción a la Ciencia de datos para Economía” pero ya señalé que prefería dejar claro en el título que, en el curso, se iban a analizar datos interactuando con el ordenador no a través de menús, sino a través de scripts; es decir, programando.
La idea de que los planes de estudio de Economía deben ir incorporando esta nueva disciplina, evidentemente no es solo mía. Como ejemplo podemos citar este artículo de Hal R. Varian, o la entrevista realizada aquí a dos catedráticos y docentes de econometría para el blog Nada es Gratis.
Hal R. Varian, economista jefe de Google, aparte de señalar que es necesario que los dirigentes de las organizaciones conozcan cómo funciona la tecnología para poder impulsar la innovación, también dijo lo siguiente:
“The sexy job in the next 10 years will be statisticians. People think I’m joking, but …”.
Evidentemente, Varian se refiere al hecho de que, debido a la ingente cantidad de datos que ha generado Internet y a la necesidad de transformar estos datos en información que aporte valor añadido, cada día es más demandado un nuevo tipo de profesional conocido como “científico de datos”.
Uno podría pensar que estos trabajos, en principio, están muy alejados del perfil típico de un estudiante de una facultad de Economía, pero quizá no tanto. Tal y como se argumenta aquí o aquí, los economistas o graduados en ADE podrían ser perfectamente capaces de acceder a ese tipo de puestos. Según estos autores, para ser un científico de datos se necesitan tres tipos de competencias o conocimientos: técnicas de programación, conocimientos estadísticos y conocimientos específicos del campo de aplicación, en nuestro caso conocimientos de economía. Obviamente los graduados en Economía sobresaldrán en conocimientos acerca de la realidad económica, seguramente tendrán escasos conocimientos de programación, pero tendrán un conocimiento razonablemente bueno de Estadística, quizás no en las técnicas apropiadas o más actuales, pero si en los conceptos básicos; así que para suplir estas deficiencias podría bastar con incluir algún modulo o asignatura sobre las principales técnicas estadísticas empleadas en Data Science e introducir los fundamentos de programación en el currículo. Además, parece que las compañías tecnológicas (Google, Facebook, …) también necesitan y contratan economistas. Puedes verlo aquí en un artículo y aquí en un post.
Obviamente el objetivo de esta asignatura optativa no es formar profesionales en Data Science en el campo de la Economía, no, el objetivo es mucho más modesto, simplemente iniciarles en este mundo presentándoles una panorámica de tópicos, y exponerlos, quizás por primera vez en la carrera, a la programación y una rama de la estadística que está emergiendo con gran fuerza como es el Machine Learning y ver que en el fondo estas técnicas no son tan diferentes de los contenidos más tradicionales que presentamos en asignaturas como Econometría.
En el mismo sentido se ha pronunciado el Global University Leaders Forum (GULF), foro que reúne a representantes de las 28 universidades más prestigiosas. En su reunión anual en el Foro Económico Mundial de 2019, analizaron el papel de las universidades en un mundo en constante cambio. En su “informe” destacaron, por su importancia para el futuro de la universidad y su rol en la sociedad, 6 temas prioritarios, y el primero de ellos fue la introducción de la asignatura “Data science 101” en la mayoría de las titulaciones. No se trataría de hacer a todos los titulados científicos de datos, pero sí de aumentar su competencia en temas relacionados con los datos y la información.
De hecho, algunas universidades ya han empezado a incluir materias de computación en las licenciaturas de ciencias sociales para adaptarse a las nuevas necesidades del mercado; por ejemplo, la universidad Bocconi introdujo en 2018 el lenguaje de programación Phyton como asignatura troncal en la facultad de Economía con el argumento de que “la programación es tan básica como las matemáticas para el mundo que viene, de forma que todos los estudiantes tendrán que aprender sus fundamentos”.
La verdad es que aunque personalmente tengo mis dudas, parece que se necesitan muuuuchoss cientificos de datos. El mercado laboral pide cada vez más profesionales que sepan tratar la enorme cantidad de información que generamos. En este post son un poco más pesimistas y señalan que el mercado de DS puede ya estar saturado, aunque hablan de Estados Unidos principalmente. En cualquier caso, la tecnología va a cambiar el perfil de muchos trabajos, y seguramente se necesitaran mayores niveles de competencia en tecnología, programación y datos. Lo explican aqui. Otro ejemplo lo tienes en esta noticia, en la que el titular nos dice que “Se buscan funcionarios que sepan de Big Data”.
La tecnología, todos lo sabemos y experimentamos, ha provocado grandes cambios, no solo en el mercado laboral o en las industrias, sino también la sociedad y puede que incluso en la forma de pensar y relacionarnos, así que no está de más conocer un poco más de estos temas aunque sea de forma tangencial ya que en el curso nos centraremos en un aspecto instrumental como son las herramientas de programación para manejar datos y extraer información de ellos. De hecho, buena parte de los cambios futuros que nos esperan están asociados a la Inteligencia Artificial y al Machine Learning/Deep Learning, que trataremos en el tema 4 del curso. Algunos ejemplos aquí, aquí, o aquí.
En el temario he intentado reflejar que la programación tendrá un peso importante (tema 2 y tema 3); programación siempre orientada al “manejo” de datos (temas 3, 4 y 5) y aplicación de técnicas estadísticas simples y algunas más avanzadas como en el tema 4 (Machine Learning), siempre relacionándolas y vinculándolas con lo ya aprendido en las asignaturas de Econometría y Estadística cursadas previamente.
Mi intención es que la asignatura sea fundamentalmente práctica, apoyándome para introducir los contenidos en casos prácticos con datos reales de diversos formatos e índole (tabulares, texto, espaciales etc…) y procedencia (INE, Eurostat, OCDE, twitter, WikiData, … )
El curso comienza con un tema en el que se presentarían los objetivos del curso, junto con los términos y procesos que justifican la asignatura (Big data, Ciencia de Datos, Machine Learning, …). Se presentarían ejemplos de aplicación exitosa de estas nuevas técnicas en el campo de la Economía, Varian (2014) o Chakraborty (2017), para finalmente resaltar la importancia de la investigación reproducible y el papel que juega el software libre en ella.
El tema 2 se presentan los rudimentos del lenguaje de programación R. Estos conocimientos básicos se irán reforzando durante el curso trabajando en diferentes tópicos y aplicaciones. En este tema se volverá a enfatizar la importancia de la reproducibilidad de la investigación y que para ello se hace indispensable interactuar con el ordenador con scripts: no solo se ha de explicar y documentar el proceso seguido en un análisis de datos, sino que se ha de presentar también el fichero con las instrucciones ejecutadas. Para hacer esto posible es imprescindible el uso de la programación, presentándose en este tema herramientas (knitr y Rmarkdown) que posibilitan la generación de informes reproducibles.
En el tema 3, se desarrollarán diversos casos de análisis de datos tabulares, el formato más típico en Ciencias Sociales, con los que se irán asentando los conocimientos de programación iniciados en el tema 2, ahora aplicados a tareas concretas relacionados con el manejo de datos tabulares y diversos tópicos de análisis de naturaleza económica.
El tema 4 es una introducción a los conceptos básicos del Machine Learning (training set, validation set, cross validation, bagging etc..), para luego presentar las técnicas o algoritmos de ML más relacionados con lo que los estudiantes ya han visto en Econometría, como son el modelo de regresión lineal y la regresión logística, ahora presentados desde una óptica diferente, más orientada a la predicción.
Los cuatro primeros temas constituyen la parte fundamental de la asignatura que finaliza con un tema adicional en el que, una vez los estudiantes han alcanzado cierta soltura en el manejo de R, se presentan diferentes tópicos en el campo de la Ciencia de Datos: datos espaciales y su representación, datos textuales (por ejemplo, Twitter) y datos enlazados (Wikidata).
Tema 1: Ciencia de datos y la era del Big Data
Tema 2: Una introducción a R para Ciencia de datos
Tema 3: Manejo de datos tabulares
Tema 4: Introducción al Machine Learning (ML)
Tema 5: Otros tipos de datos
También son ganas a estas alturas de ponerse a escribir un libro cuando el gurú de las tecnología y la innovación Enrique Dans dice aquí y aquí que los libros no sólo se han quedado obsoletos, sino que pueden ser dañinos en el proceso de aprendizaje. En mi descargo decir que técnicamente esto que ves en realidad no es un libro, es una pagina web con formato libro, y llena de referencias y materiales. Además, el título del curso incorpora ” … en la era del …“, algo que es criticado aquí. Otra vez en mi descargo decir que su función es meramente retorica, vamos, para llamar un poco la atención↩︎