1 Intro
Resulta que vi este tweet que mostraba los pocos premios Nobel que ganan las mujeres y pensé que por qué no hacerlo para los principales premios literarios españoles.
2 Obtención de los datos
En primer lugar pensé sólo en buscar datos de los premios literarios españoles de mayor prestigio, pero enseguida me di cuenta que esto no me iba a gustar. La razón es que para encontrar el listado de premios y premiados era un martirio: los datos estaban en diferentes webs y en múltiples formatos: no había una forma razonable de homogeneizarlos y recopilarlos. Por lo tanto me dije: venga, no te gusta tanto Wikidata pues a Wikidata!!
La verdad es que no me fue fácil del todo. Primero intenté hacer una query de todos las personas que habían recibido un premio literario, pero nunca me llegaba a proporcionar resultados, creo que el Wikidata Query System me devolvía siempre un mensaje algo como “Time limit exceded”, no recuerdo bien.
Al final cambié de enfoque y escribí una query para obtener los premiados de un único premio y esta sí funcionaba, así que solo tenía que ejecutar esta consulta para todos los identificadores de premios literarios que hubiese en Wikidata.
La estrategia final para obtener los datos tuvo 2 etapas:
Una primera query para obtener los identificadores de premios literarios
Desde R, mediante un bucle for, lanzar secuencialmente, para todos los identificadores de premios literarios obtenidos, la query que me daba los premiados de un único premio
Por supuesto hubo “several problems” durante el proceso, pero al final reto conseguido. Tenía los scripts para obtener datos de galardonados con premios literarios allá por principios de septiembre de 20221, pero nunca encontré tiempo para analizar y trabajar los datos.
Más adelante 2 tweets, este y este me hicieron volver a pensar en el proyecto. En concreto, el segundo tweet de Martin L Poulter ya había contestado a la cuestión que quería afrontar: ¿Hay sesgo de género en los premios literarios? Dije, bueno ,ya no merece la pena seguir el proyecto, pero luego pensé que sí, que con los datos que había recopilado se podían tratar de contestar múltiples preguntas cómo: ¿Hay diferencias por países/áreas geográficas? ¿Cual ha sido la evolución del sesgo de genero en el tiempo? etc …
Vamos que tenía en la cabeza hacer algo con los datos, pero no fue hasta que decidí ir a las XIII Jornadas R en Barcelona cuando retome el proyecto, allá por septiembre de 2023. Finalmente aceptaron la ponencia y me puse a ello.
3 Análisis
Una vez me aceptaron la ponencia para las XIII Jornadas R lance otra vez las queries a Wikidata desde R el 7 de octubre de 2023 para obtener datos lo más actualizados posibles y me puse a analizar los datos y hacer tablas y visualizaciones2.
La versión final de las slides que utilicé para hacer la presentación en las Jornadas pueden verse aquí o en el iframe de más abajo.