En mis cursos sobre R, una parte importante de la evaluación y del curso son los trabajos en equipo e individuales; así que para facilitar la búsqueda de datos a los estudiantes he confeccionado este listado con fuentes de datos.
Algunos de los trabajos ya hechos por los estudiantes puedes verlos aquí. La temática y, por tanto, los datos utilizados varían mucho, pero últimamente se han hecho más trabajos sobre temas relacionados con la economía. El último año 3 trabajos en equipo, de un total de 9 se centraron en la situación de los jóvenes. Había preocupación!! En los trabajos individuales hay más variedad: tiburones, meteoritos, etc…, etc…, pero los deportes y la música nunca faltan.
1 Diversas fuentes de datos
Google Dataset Search: esta herramienta puede ser útil para encontrar datos. Aquí tienes un post, aquí el articulo de lanzamiento del producto en 2018 y aquí las FAQ’s. Lo he usado poco (o nada) pero te da hasta una lista de artículos que han usado un conjunto de datos!!!
Kaggle. Es una plataforma de competiciones de machine learning. Puedes encontrar datos, análisis y el código. Impresionante. Hay mucho código en R, pero digamos que es más territorio Phyton. Los datos aquí. En este artículo hay más plataformas sobre competiciones de datos, por ejemplo [Coda Lab]](https://codalab.lisn.upsaclay.fr/?ref=mlcontests) o Driven data.
Data is plural. Es una newsletter semanal con datos interesantes. Puedes buscar en el archivo de la newsletter. El archivo está aquí y aquí con más información.
Hugging Face. Es una plataforma de IA. Puedes encontrar datasets y modelos, pero no os lo recomiendo, suelen ser conjuntos de datos para tareas de audio, visión por computadora y procesamiento del lenguaje natural (NLP). Se nos, al menos a mi, escapa un poco.
Civio. Es una ONG que trabaja con datos para intentar aumentar la transparencia y controlar a los poderes públicos. Evidentemente, tienen una sección de datos abiertos.
Tidy Tuesday. Es un proyecto semanal de datos organizado por la comunidad de R. Cada semana se hacen visualizaciones sobre un nuevo conjunto de datos
FiveThirtyEight. FiveThirtyEight, a veces llamado 538, es un blog estadounidense que se centra en el análisis político y encuestas, aunque también hace análisis de datos sobre otras temáticas. En este repo se encuentran los datos utilizados en los artículos.Aquí tiene un indice de los datos. Hay un paquete de R, también llamado fivethirtyeight que igual puede ayudar a cargar los datos. Los datos están aquí
Our World in data. Es una publicación que hace análisis empíricos sobre las condiciones de vida. Trata temas como la pobreza, educación, salud … Hay un paquete de R, owidR que facilita el uso de esos datos.
Gapminder es una fundación sueca sin ánimo de lucro que utiliza datos para intentar cambiar algunas concepciones erróneas sobre problemas globales. Los datos están aquí. El paquete tidygapminder facilita cargar algunas series de datos; por ejemplo la esperanza de vida anual desde 1800 a 2018
BuzzFeedNews es un periódico que ofrece artículos/historias basadas en datos. Aquí tienes un listado de artículos y datos, y [aquí]((https://github.com/BuzzFeedNews) el repo de Github con el código de los artículos. En clase solemos replicar este gráfico chulo. El artículo donde aparece el gráfico está está aquí,y el código está aquí.
European Data Journalism Network (EDJNet) is a network of media organisations from all across Europe, producing and promoting data-driven coverage of European issues. Los datos aquí.
Real World Data Science, un proyecto de la Royal Statistical Society que presenta real-world applications of data science. Aquí están los casos de estudio.
Information is Beautiful provee de más de 300 datasets: aquí y aquí
LIS, The Luxembourg Income Study, is a data archive and research center dedicated to cross-national analysis and is home to two databases sobre Renta y Riqueza. Hay un paquete de R, lissyrtools.
The Global economy recopila datos económicos de 200 países. Para descargar los datos, aquí
Open Case Studies Project is an educational resource of experiential guides that demonstrate how to effectively derive knowledge from data in real-world challenges. Aquí tienes los casos disponibles, y aquí An Educator’s Guide to the Open Case Studies. Además, hay un paquete de R: OCSdata
-
Socrata, según pone en este post es una Plataforma de Datos Abiertos para la Toma de Decisiones Basada en Datos usada generalmente por entes gubernamentales. Hay un paquete de R: RSocrata que te permite bajar datos por ejemplo de aquí
Datos.org: Reunimos, almacenamos y procesamos datos abiertos para la sociedad colombiana para que particulares, universidades, ONGs y entidades del estado puedan cumplir metas que beneficien a la población más necesitada y se reduzca la brecha social en Colombia.
Datadista: es un colectivo de periodistas y programadores que trabajan con datos. Tienen una sección de datos abiertos. Investigación, datos y narrativas para salir del ruido
rdataretriever: R Interface to the Data Retriever: The rdataretriever provides access to cleaned versions of hundreds of commonly used public datasets with a single line of code.
2 Estadísticas oficiales
En Economía, las estadísticas oficiales de organismos como Eurostat, INE, ONU, FMI etc… etc… son una fuente de datos importante. Aquí presentaré algunos paquetes de R que facilitan el acceso a esos datos.
Eurostat: eurostat. Es fantástico. Haremos varios ejemplos en clase. Aquí el portal de datos de Eurostat.
Eurostat tiene aquí su espacio en Github. Tiene el paquete restatapi, an R package to search and retrieve data from Eurostat database using SDMX
-
Banco de España: tidyBdE. No lo he usado. Aquí el portal de datos del Banco de España.
Banco Central Europeo: ecb. No lo he usado, pero aquí tienes una vignette. Aquí el portal de datos del BCE y aquí los datasets.
The World Bank. Los indicadores aquí. hay dos paquetes: WDI y wbstats. Aquí un bookdown sobre la API del World Bank. Ha aparecido un paquete nuevo: worldbank. Otro paquete nuevo: wbwdi
OCDE. Los datos aquí. Hay un paquete de R, oecd que facilita el acceso a esos datos. Aquí un post.
UN population Division: population estimates from 1950 to the present for 237 countries or áreas. Aquí un paquete de R.
UN comtrade database: datos detallados de comercio global. Aquí un post sobre cómo usar su API con R, y aquí un paquete.
UNHCR’s refugees R package. Paquete de R para acceder a los datos de la UNHCR, la agencia la ONU para los refugiados. Aquí el paquete y aquí un gráfico de Nicola Rennie con estos datos. La página de la UN está aquí
International Debt Statistics (IDS) del Banco Mundial: wbids es un paquete de R para acceder a los datos de Deuda Internacional del Banco Mundial. IDS provides creditor-debtor relationships between countries, regions, and institutions
spanishoddata es un paquete de R que facilita el acceso a datos de movilidad en España. Los datos provienen del Ministerio de Transporte y usa como fuente principal de datos el posicionamiento de los teléfonos móviles. Tiene geometrías de los distritos municipales
spod_get_zones("distritos", ver = 2)
World Health Organization: proporciona datos sobre indicadores relacionados con la salud. Los datos aquí y aquí.
Worldwide Bureaucracy Indicators: The WWBI data set es una iniciativa del World Bank, it takes a common approach to creating indicators on public and private sector employment and wages, allowing analysts to compare inside the public sector and across the public and private sectors. To our knowledge, the WWBI is the largest and most comprehensive global dataset on these issues published to date.
FMI: paquete de R para acceder a los datos del FMI.
EU Labour Market Policy database: se pueden acceder con el paquete LMPdata
The Humanitarian Data Exchange: tiene datos aquí. Aquí un plot con uno de sus datasets
troopdata: paquete de R con información oficial y pública sobre tropas, gasto y bases militares USA
Awesome official statistics software: repo con herramientas para trabajar con estadísticas oficiales. Aquí está la sección de datos
CRAN Task View: Official Statistics & Survey Methodology: list of packages with methods typically used in official statistics and survey statistics. Aquí los paqutes para acceder a datos
exvatools: es un paquete R para acceder a los datos de OECD Trade in Value Added Database (TiVA). Aquí explican más
OECD-UNSD Multinational Enterprise Information Platform: The Multinational Enterprise Information Platform is a joint initiative of OECD and UNSD to provide an understanding of the structure of MNEs
Estadística General de incendios forestales(EGIF): del Ministerio para la Transición Ecológica y el Reto Demográfico. Lo vi en este artículo. Los datos están en
.mdb
DHS program: The Demographic and Health Surveys (DHS) Program has collected population survey data from over 90 countries for over 30 years. In many countries, DHS provide the key data that mark progress towards targets such as the Sustainable Development Goals (SDGs) and inform health policy. Aquí el paquete de R
datos.gov.es: una iniciativa promovida por el Ministerio para la Transformación Digital y de la Función Pública con el fin de promocionar la apertura de la información pública y desarrollo de servicios avanzados basados en datos.
subincomeR: es un paquete de R providing tools for accessing and analyzing the MCC-PIK Database Of Sub-national Economic Output (DOSE). DOSE is a comprehensive global dataset of sub-national income covering over 1,600 regions across 83 countries from 1960 to 2020, compiled from official statistical agencies, yearbooks, and academic sources. Incluye geometrías de cada región
Health Inequality Data Repository: the World Health Organization (WHO) Health Inequality Data Repository is a large repository for datasets of disaggregated data, covering a diversity of topics, dimensions of inequality and populations Disaggregated data which show how health or other aspects of life are experienced by people of different ages, economic status, education levels, place of residence, sex, and other characteristics – are a vital part of advancing equity. En este paper analizan los datos
World Inequality database (WID): aims to provide open and convenient access to the most extensive available database on the historical evolution of the world distribution of income and wealth, both within countries and between countries. Aquí hay un repositorio de Stata. Aquí y aquí usan esos datos.
Fundamental Rights Survey: European Union Agency for Fundamental Rights a unique and independent centre of excellence for promoting and protecting human rights in the EU. We were created to help make Europe a better place to live and work. We help defend the fundamental rights of all people living in the EU.
Global Burden of Disease (GBD): The GBD study is the largest and most comprehensive effort to quantify health loss across places and over time, so health systems can be improved and disparities eliminated. Estos datos se usaron en este estudio que nos cuenta que la esperanza de visa ya no aumenta tanto. Los resultados del paper se recogiero en este artículo de La Marea. Nicola Rennie hizo un plot con datos del GBD, puedes verlo aquí. El gráfico se enmarca en el proyecto de la sexta semana de 2025 del proyecto tidytuesday para explorar datasets that the Trump administration has purged. Debido a esto los datos del GBD fueron backed up on archive.org, puedes verlos aquí
Datos de refugiados de la UNHCR, la agencia de refugiados de la ONU, aquí. Hay un paquete de R, refugees, que facilita el acceso a esos datos. Aquí, aquí y aquí gráficos con sus datos
Portal estdístico de la DGT. Hicieron un seminario con estos datos, el repo aquí, y aquí el video de la charla
3 Más datos
Algunos conjuntos de datos que en su día me llamaron la atención, seguramente pensé que podrían usarse para los trabajos.
The Maddison Project Database: based on the work of Angus Maddison (1926-2010), “provides information on comparative economic growth and income levels over the very long run.” Its latest release includes historical per-capita GDP estimates for 169 countries, in many cases spanning several centuries. In all, the database contains 21,000+ such estimates and another 17,000+ population estimates, drawn from hundreds of sources. La última versión de 2023 aquí
Penn World Table version 10.01: information on relative levels of income, output, input and productivity, covering 183 countries between 1950 and 2019. Aquí el paquete de R
Datos de olimpiadas (medallas, altura y peso) aquí. Aquí un shiny con datos de olimpiadas. Aquí otro dataset que se usa en este toot para ver gender equality in the Olympics. Un tweet con estos datos
120 years of Olympic history: athletes and results: This is a historical dataset on the modern Olympic Games, including all the Games from Athens 1896 to Rio 2016. I scraped this data from www.sports-reference.com in May 2018.
Olimpiadsa de Beijing: un paquete de R con data from the 2022 Beijing Olympics from NBC’s API. The name of this package comes from the Olympic Motto: “Faster, Higher, Stronger - Together”.
Atlas of the Offshore World es un nuevo proyecto de the EU Tax Observatory sobre evasión fiscal.
Datos de la euroliga de Baloncesto a través de un paquete de R
f1dataR es un paquete de R para acceder a datos de la Fórmula 1.
Gastos militares del SIPRI, el Instituto Internacional de Investigación para la Paz de Estocolmo.
democracyData: un paquete con diversos datos relacionados con la calidad democrática. Aquí y aquí dos plots con ellos
ACLED: datos sobre violencia política y protestas en todo el mundo. The Armed Conflict Location & Event Data Project (ACLED) is a disaggregated data collection, analysis, and crisis mapping project. Aquí un artículo que usa estos datos. En Vision of Humanity, concretamente aquí proveen datos relacionados con la paz y la seguridad.
Desastres naturales. la NASA, en Geocoded Disasters (GDIS) Dataset, v1 (1960–2018) proporciona 39,953 locations for 9,924 disasters that occurred worldwide for the years 1960 to 2018. Una visualización con estos datos aquí
wordbankr, un paquete de R para acceder a Wordbank, an open database of children’s vocabulary development.
European Data Journalism Network (EDJNet): es a network of media organisations from all across Europe, producing and promoting data-driven coverage of European issues. Los datos están aquí
The Uppsala Conflict Data Program (UCDP): es the world’s main provider of data on organized violence and the oldest ongoing data collection project for civil war, with a history of almost 40 years. Its definition of armed conflict has become the global standard of how conflicts are systematically defined and studied. Puedes ver sus datos aquí y descargarlos aquí
Datos de medallistas olimpicos: The European Data Journalism Network’s Giorgio Comai has used Wikipedia and Wikidata to create a series of datasets of Summer Olympic medalists. The project focuses on the 2024 and 2020 Summer Olympics but also provides provisional data for other recent iterations. Acceso a los datos aquí
Datos sobre pena de muerte: aquí un post que usa estos datos
Datos del proyecto tidytuesday sobre democracias y dictaduras 1950-2020. Aquí un plot con estos datos de Nicola Rennie
Euro2024_data: un paquete R con datos sobre la Eurocopa 2024.
Ciudades con mas de 1000 habitantes: tiene la población, el país y la geolocalización. Aquí un post que usa estos datos
malariaAtlas: paquete de R con datos sobre malaria.
nflplotr: un paquete con datos de rugby de la NFL
Global Contract-level Public Procurement Dataset]: we collected official public procurement data on over 72 million contracts from 42 countries between 2006 and 2021. Los datos están aquí
HIPGDAC-ES: Historical Population Grid Data Compilation for Spain (1900-2021) del IVIE y Paco Goerlich
The Border Crossings of the World (BCW): data set tracks the physical infrastructure that states have built at points where highways cross international borders. The data set tags the presence of gates, official buildings, and split-lane inspections facilities Aquí un post que usa los datos
Datos de emancipación de jóvenes: en este articulo hablan del tema y enlazan a este informe del Consejo de la Juventud en el que usan datos de Eurostat, por ejemplo esta tabla y esta otra
BIS: es un paquete de R que facilita el acceso al Bank for International Settlements,. Hay un segundo paquete aquí
Human Development Index (HDI): The HDI was created to emphasize that people and their capabilities should be the ultimate criteria for assessing the development of a country, not economic growth alone. Puedes descargar los datos aquí
demcon: es un paquete de R que help users to acquire several popular polity, democratic, institutional, and constitutional datasets widely used in political science.
sdam: Social Dynamics and Complexity in the Ancient Mediterranean
manydata: paquete de R que is a portal to ‘many’ packages containing many datacubes, each containing many related datasets on many issue-domains, actors and institutions of global governance. Me llamó la tención porque tenía datos sobre emperadores romanos
Arqueología: paquetes de CRAN relacionados con la arqueología
Billionaires and Taxes: I scrapped data for top 400 wealthiest individuals in US by their income reported to Federal government.
Long Term Ecological Research program (LTER) Network: paquete de R con Educational dataset examples from the Long Term Ecological Research program. A specific goal of the LTER is education and training - “to promote training, teaching, and learning about long-term ecological research and the Earth’s ecosystems, and to educate a new generation of scientists.
tidyRainbow LGBTQ+ datasets: paquete de R con datasets about LGBTQ+ topics for you to analyze, visualize, and share.
f1dataR: An R package to access Formula 1 Data from the Jolpica API (formerly Ergast) and the official F1 data stream via the FastF1 Python library.
Geographical Research On War: provides access to disaggregated, integrated, spatially explicit, and user-friendly conflict-related data. the GROWup Research Front End offers research-ready data on ethnic groups and intrastate conflict. Our data is compiled from various sources and provided in group-year and country-year format… ready for statistical analysis
U.S. Drought Monitor: The U.S. Drought Monitor (USDM) is a map released every Thursday, showing where drought is and how bad it is across the U.S. and its territories.
FactGrid: a database for historian: es un proyecto que usa datos de Wikidata. Aquí tienen un conjunto de queries útiles para historiadores. Por ejemplo, todos los documentos escritos port alguien: aquí
4 Papers con datos
Harvard Dataverse: un servicio de Harvad con artículos científicos que hacen públicos sus datos.
Finding Economic Articles with Data:: un shiny de Sebastian Kranz que te ayuda a encontrar artículos con datos.
Journal of Comments and Replications in Economics reemplaza a International Journal for Re-Views in Empirical Economics JCRE remains the premier journal for publishing replication studies and also publishes commentaries on original studies in Economics.
5 Otros listados
Interesting Datasets de Curran Kelleher: A collection of public data sets for testing out visualization methods
6 Para docencia
Un hilo de twitter sobre datos para docencia aquí
El paqueteRdatasets agrupa 2264 conjuntos de datos relacionados con el entorno R. Quizás sean más adecuados con fines didácticos. El listado de datos está aquí
El paquete HistData contiene un conjunto da collection of small data sets that are interesting and important in the history of statistics and data visualization
Datos en paquetes R aquí
historydata: datos para historiadores que quieren aprender R
7 GIS
Overture maps: es un proyecto de Microsoft, Amazon, Meta, … to produce standardized and open geospatial datasets for developers to use in their applications. The core datasets available in Overture include: Administrative boundaries, Land and water features, Building footprints and roofprints, Points of interest (POIs) y Transportation layers, like roads and public transit ways. En el post Getting and visualizing Overture Maps buildings data in R: se explica cómo obtener y visualizar datos de edificios de Overture Maps en R
OpenLandMap es un proyecto que hace un Compendium of Global Gridded Environmental Data Sets. Me enteré por este toot
All The Places: son datos de location, teléfono, etc… de todas las tiendas, provienen de a set of web scrapers designed to output consistent geodata about as many places of business in the world as possible
mregions2: paquete R para acceder a datos de regiones marinas.
Fronteras históricas: CShapes 2.0 maps the borders and capitals of independent states and dependent territories from 1886 to 2019. Aquí usan estos datos
spanishoddata es un paquete de R que facilita el acceso a datos de movilidad en España. Los datos provienen del Ministerio de Transporte y usa como fuente principal de datos el posicionamiento de los teléfonos móviles. Tiene geometrías de los distritos municipales
spod_get_zones("distritos", ver = 2)
subincomeR: es un paquete de R providing tools for accessing and analyzing the MCC-PIK Database Of Sub-national Economic Output (DOSE). DOSE is a comprehensive global dataset of sub-national income covering over 1,600 regions across 83 countries from 1960 to 2020, compiled from official statistical agencies, yearbooks, and academic sources. Incluye geometrías de cada región
8 API’s
Public APIs es a collective list of free APIs for use in software and web development. No vamos a ver cómo acceder a API’s, pero no está mal tenerlas en este listado.
Internet Archive: el paquete https://docs.ropensci.org/internetarchive/ is intended primarily for searching for items, retrieving metadata for items, and downloading the files associated with items.
Agencia estadística francesa: paquete de R para interact with the French Official Open Data Portal API directly from R.