Guía del curso: en esta sección os cuento un poco de la filosofía/enfoque del curso; principalmente cómo será la forma de trabajar en clase y en casa1. También diré algo sobre la evaluación.



Introducción


Resumen

Como posiblemente sepáis, y si no ya os lo contaré yo el primer día de clase, el curso es una introducción a la ciencia de datos con R; de hecho el título del curso debería ser: Introducción a la Ciencia de datos; o de forma más precisa y extensa: “Una introducción a la Ciencia de datos con R para economistas”.


Relación de temas

El curso tiene “sólo” 5 temas. En el primer tema se presentan los objetivos del curso, junto con los términos y procesos que justifican la asignatura (Big data, Ciencia de Datos, Machine Learning, investigación reproducible…). En el tema 2 se presentan los rudimentos del lenguaje de programación R. Estos conocimientos básicos se irán reforzando durante el curso trabajando en diferentes tópicos y aplicaciones. En el tema 3, se desarrollarán diversos casos de análisis de datos tabulares, el formato más típico en Ciencias Sociales, con los que se irán asentando los conocimientos de programación iniciados en el tema 2. El tema 4 es una introducción a los conceptos básicos del Machine Learning (training set, validation set, etc..), para luego presentar las técnicas o algoritmos de ML básicos y más relacionados con lo que los estudiantes ya han visto en Econometría, ahora presentados desde una óptica diferente, más orientada a la predicción. El quinto y último tema presenta, una vez habéis alcanzado cierta soltura en el manejo de R, una panorámica de tópicos como, por ejemplo, datos espaciales y textuales.

A pesar de que la guía docente presenta 5 temas, en el curso no trabajaremos estrictamente por temas sino más bien por tópicos: iremos presentando tópicos/ideas/funciones conforme nos vayan haciendo falta para resolver alguna tarea/problema. En esta asignatura creo que es mejor avanzar en el contenido del curso de forma no lineal y priorizar el trabajo práctico y aplicado: avanzaremos sin haber visto en detalle algunos tópicos/ideas, pero volveremos más adelante a ellas; de forma que, durante las primeras sesiones te surgirán muchas dudas, es normal!! Algunas de ellas las contestaré, pero en otras diré: ya las contestaremos más adelante!! Poco a poco iremos profundizando y comprendiendo mejor lo que hacemos. Explicaré con más detalle este punto en clase.



Desarrollo de las clases


Como sabéis las clases esta previsto que sean presenciales, así que la dinámica de las clases será parecida a lo que estáis acostumbrados, digo parecida porque hay un protocolo covid que deberemos seguir.

Las clases serán eminentemente prácticas: estaremos buena parte de las sesiones trabajando con el ordenador. A pesar de que el aula en la que se desarrollarán las clases tiene ordenadores, es muy-muy-muy recomendable acudir con tu ordenador portátil,

Nos veremos un día a la semana, los viernes. En esta misma web, en la sección Calendario detallaré qué haremos en cada sesión, tanto en clase, como antes de venir a clase. Antes de venir a clase tendréis que leer el planning para la próxima sesión y realizar las tareas que tengáis asignadas para ese día. Generalmente, las tareas consistirán en leer algún material, pero algunas veces tendréis que realizar alguna tarea que formará parte de la evaluación continua.


Repito, tendréis que hacer unas tareas antes de venir a clase. Algunas de ellas las recogeré porque forman parte de la evaluación continua. Podrás ver las tareas y el guión de cada clase en la sección Calendario de esta misma web.


Sesiones

El curso tiene 14 sesiones de 4 horas (en realidad 3 horas cada sesión). La verdad es que no me gusta que las sesiones sean de 4 horas pero, dadas las actuales circunstancias, es posible que agrupar las clases en un solo día sea, quizás, la mejor opción.

Las razones por las que, en circunstancias normales, prefiero dos clases a la semana son varias. Una de ellas consiste en que durante la clase hay que pensar bastante (estaremos aprendiendo un lenguaje) y hacer ejercicios y pruebas y acabaréis cansados, espero que contentos por haber aprendido, pero cansados. Otra razón consiste en que faltar un solo día puede ser importante para el seguimiento del curso. Por favor, intentad no faltar a las clases y menos aún a las cuatro primeras. En las primeras clases se explican cosas/ideas/conceptos que, no es que sean complicadas, de hecho, una vez se entienden son muy sencillas, pero que no son fáciles de entender por uno mismo sin ayuda. Insisto: no faltéis a clase, pero menos aún a las primeras!!


Dinámica de las clases

Ya dentro de clase, la dinámica será la siguiente: el profesor, yo, explicaré una idea/tópico, mostraré una aplicación de ella en el ordenador, para después plantearos un reto o cuestión para que trabajéis la idea/concepto y acabéis de entenderlo. Intentaré2 repetir este esquema de explicación/aplicación de forma rápida; es decir que veamos cuantos más tópicos mejor.

Buena parte de las sesiones estaréis resolviendo problemas/cuestiones con el ordenador. Lo ideal es trabajar en parejas, se aprende mucho más y más rápido, pero este año, esto va a ser complicado3. Lo normal es atascarse de vez en cuando mientras estás resolviendo una tarea, y muchas veces es tu compañero el que te saca del apuro. Yo tampoco voy a poder pasearme por las mesas para ver como lo estáis haciendo, así que esto limitará, en parte, el que yo pueda ayudaros.

Esta situación provocada por el covid hará que las clases, al menos las primeras, tengan que ser más pautadas y pausadas: no cerraremos un tópico/tarea hasta que todos hayáis acabado, esto implica que iremos un poco más lentos y también implica que no podéis despistaros ya que si no seguís el ritmo se resentirá el aprendizaje de vuestros compañeros. Buff, que estrés!!! No, yo creo que al final las cosas saldrán bien y nos divertiremos y aprenderemos, PERO tenéis que tener muy claro que no podéis venir a clase de espectadores a ver que ocurre, tenéis que trabajar en clase y haber trabajado en casa, no os podéis quedar atrás. Si te vas quedando atrás, en una o dos clases no entenderás nada, y no porque las cosas que veamos sean difíciles, no, sino que hay que ir paso a paso y, a veces, entenderlas por tu cuenta sí que es complicado.



The “plan”


Mi idea/plan es confiar en que os va a gustar la asignatura y que vais a trabajar lo necesario, tanto en casa como en clase, con lo que las clases serán fáciles a pesar de las limitaciones impuestas por el covid.

Como os he dicho, las clases son los viernes, antes de cada clase publicaré en esta web, en la sección Calendario el trabajo previo que tendréis que hacer. Si puedo, publicaré esos guiones no mas tarde de los lunes.

El plan consiste en que vosotros hacéis el trabajo previo antes de venir a clase, de forma que el viernes podéis seguir sin demasiados problemas las clases. De vez en cuando os tendré que hacer pruebas en el aula que también formarán parte de la evaluación continua.

Las pruebas saldrán bien, espero, lo que querrá decir que estáis aprendiendo, así que todos estaremos contentos y además cumpliremos las recomendaciones sanitarias así que no tendremos problemas con el covid. Ojala!!

Everyone has a plan until they get punched in the mouth — Mike Tyson



Logística


El curso es eminentemente práctico, por lo que es necesario que los estudiantes tengan acceso a un ordenador durante las clases. El aula de clase tiene ordenadores pero, como ya dije, es muy-muy recomendable que cada estudiante venga a clase con su propio portátil.

Durante el curso utilizaremos diversos recursos: transparencias, ejemplos, ejercicios, bibliografía, etc… Puedes encontrar todos los detalles en la sección Logística de la página web.



Evaluación


Tal como figura en la Guía Docente, el 40% de la nota provendrá de la evaluación continua y el restante 60% lo aportará el examen final.

Los detalles concretos acerca de la evaluación continua puedes consultarlos en Aula Virtual`

Aunque quizás fuese mejor, como han hecho en varios países, dejar la evaluación a un algoritmo. Lo puedes leer aquí y aquí. Evidentemente lo de usar un algoritmo es una broma. Me gustaría pero … aún no lo veo.



FAQ’s


En esta sección pretendo responder a posibles dudas/preguntas que creo que os pueden pasar por la cabeza antes de iniciar el curso. Yo también tengo dudas sobre cómo será el curso: esta va a ser la tercera vez que se imparte el curso en la UV, y la segunda (y espero que última) que se imparte bajo una situación de pandemia. Si tenéis dudas sobre el curso, hacédmelas llegar por mail o en clase.


Nunca he programado ¿podré seguir el curso?

Por supuesto. Empezaremos con nivel cero, PERO, lo que si que tengo que deciros es que si tu nivel de conocimientos informáticos y/o de programación no es muy elevado (o nulo) haz el esfuerzo de no perderte las 3 primeras clases y tratar de ir entendiéndolo, para eso están las tutorías, NO lo dejes para el final, si no, se te hará bola.


¿Cual es el objetivo último del curso? ¿Qué voy a aprender?

Ya he dicho que el curso es una introducción a la Ciencia de Datos con R. Vas a aprender muchas cosas (espero), pero principalmente a utilizar R para hacer análisis de datos.

Espero que al final del curso seáis capaces de entender código R, replicar los análisis que se publican en sitios como R-bloggers y ser capaces de hacer análisis de datos propios con R.

Aquí tienes los proyectos que presentaron los estudiantes el curso pasado. Salieron muy bien!!!


¿Será fácil aprobar?

Sí. Creo que te resultará fácil aprobar; de hecho, el año pasado aprobaron todos los que siguieron el curso: todos eran capaces de importar y arreglar datos, mostrar resultados en tablas y gráficos y presentar informes en Rmarkdown. También es verdad que hubo 4-5 estudiantes que, por diversas razones, decidieron abandonar el curso en la tercera semana y se matricularon en otra optativa. De verdad que creo que os gustará y aprenderéis pero … has de trabajar, sobre todo al principio.

Si, por lo que sea, crees que la asignatura no es para ti4, lo mejor sería darse de baja: este año creo que en secretaría serán mas estrictos con la fechas de cambio de matricula.


¿Acabaremos el temario?

No lo sé. Depende de vosotros, de mi y de la evolución de la situación sanitaria. El curso tiene 14 sesiones de 4 horas (en realidad 3 horas cada sesión), de forma que deberían ser suficientes para impartir el contenido de 5 temas, pero resulta que los temas, dependiendo de la profundidad con la que los veamos, pueden hacerse muy extensos. Además, la situación sanitaria actual va a condicionar el formato y prácticas docentes dentro del aula, seguramente ralentizándolas; así que ya veremos hasta donde llegamos.


¿Me servirá lo que aprenda en mi (futuro) trabajo?

Pues no lo sé, depende, pero cada vez es más frecuente que las empresas intenten hacer sus análisis y gestión de datos con R. El año pasado al menos dos estudiantes, que yo sepa, utilizaron R en las empresas en las que estaban haciendo sus prácticas curriculares y otros dos ahora mismo estarán cursando un máster de Análisis de Datos, así que seguro que ahora están usando R.




  1. Tenéis también que tener claro que lo que voy a escribir aquí puede estar sujeto a cambios, ¿qué porqué pueden haber cambios? pues por muchas razones, una de ellas es evolución de la pandemia, otra es que aún no os conozco.↩︎

  2. Digo intentaré porque también depende de vosotros.↩︎

  3. Igual esto no es imposible del todo. Veremos si es posible suplir la proximidad física con alguna aplicación de mensajería.↩︎

  4. Insisto, creo que por muy bajo que sea tu nivel de partida, con un interés razonable aprovecharás sin problemas el curso. Eso sí, hay que trabajar cada semana, sobre todo las primeras semanas.↩︎