datadista / datasets Goto Github PK
View Code? Open in Web Editor NEWFuente de datos de los reportajes y proyectos de periodismo de investigación y datos de DATADISTA
License: GNU Affero General Public License v3.0
Fuente de datos de los reportajes y proyectos de periodismo de investigación y datos de DATADISTA
License: GNU Affero General Public License v3.0
Primero de todo, felicitaros por la información que estáis publicando.
Partiendo de el tiempo de incubación del virus es de 2 a 14 días, con una media de 5 días. Los datos que ofrecéis son interesantes para valorar como está funcionando el confinamiento.
Podría servirnos para ver como han crecido los datos por franjas de edad desde que comenzó el confinamiento. Distribuyendo por franjas entre los que no han podido salir de casa (0-19), los que han podido salir de casa por diversos casos (20-59), la franja entre trabajadores y jubilados (60-69) y los mayores de 70 que deberían haberse quedado en casa o solo salir para comprar, médico o pasear perro.
El primer número son los casos el 23/03/20, el segundo los casos del 27/03/20 y el tercero el incremento de casos entre las dos fechas.
0-19 años: 350 casos a 493 casos, incremento de un 40,8%
20-59: 9541 casos a 16858 casos, incremento de un 76,6%
60-69: 2916 casos a 5633 casos, incremento de un 93%
+70: 6152 casos a 11625 casos, incremento de un 83%
El incremento total sería del 80%
Los datos de los casos de cada día, son inferiores a los casos reportados en otros archivos ( p.e. el día 23/03/2020 en este archivo hay 18959 casos, mientras que oficialmente son 33089, por lo que entiendo que no se pueden utilizar para valorar como funciona el confinamiento. No sé si existe la posibilidad de que puedan coincidir los datos de los casos totales
Además, hay la variable de que por encima de los 75 años puede haber un porcentaje importante de casos producidos en residencias.
Hola, estoy buscando datasets de numero de pacientes pors hospital.
Sabeis donde puedo conseguirlos ? Puedo extraer datos y colgarlos en el github
Muchas gracias.
Los casos del 4 de Abril y 5 de abril han quedado consolidados en el 5 de Abril, desapareciendo el 4.
Los datos de curados/altas en Madrid ha bajado de 551 a 541 del 18 al 19 de marzo. Nos comunican desde Sanidad que parece que es un error de tabulación y que lo están depurando.
¿No sería conveniente, aunque fuera por temas de complitud, poner como día 9 los del boletín 39B y como día 8 los del boletín 39?
También: ¿qué pasa con los datos del día 7?
Hello,
I just noticed that today all the column data changed format, previously was DD/MM/YYYY and now YYYY-MM-DD . Is it going to be this the new one?
Thanks,
Marco
El Instituto Carlos III ha empezado a publicar a finales de esta semana un CSV con los datos a nivel de CCAA: https://covid19.isciii.es/resources/serie_historica_acumulados.csv
Lo positivo:
Lo negativo:
Abro este issue para llegar a un consenso con el resto de reutilizadores. Las opciones son:
¿Qué opináis?
Solo para que lo tengáis presente.
Según la actualización 39B (del 9/3/2020 a las 18.00), el número de casos en España es de 1204, pero en el informe correspondiente de la Organización Mundial de la Salud el número es 1024. Teniendo en cuenta que los demás días las cifras coinciden, es posible que haya habido un baile en los dígitos. Para saber cuál es el bueno habría que sumar los de las comunidades autónomas, pero el informe 39B no los aporta.
La OMS publica sus datos a las 10 a.m. CET, por lo que recoge los que publica España a las 18.00 del día anterior. (El informe de la OMS en cuestión es el 50, correspondiente a las 10 a.m. CET del 10 de marzo.)
En al fichero nacional_covid19_rango_edad.csv, los datos que corresponden a 18/4/2020 hay datos para hombres que tienen fecha posterior a 18/4. Se han colado fechas incrementales.
Se podrían eliminar las filas con totales de los CSV? Añaden pasos a la limpieza de datos, que se pueden agregar facilmente cuando se necesitan.
Gracias
Me pregunto cómo de fiables son estos datos, especialmente los fallecimientos.
Entiendo que son datos acumulados, pero aun así, no parecen ser correctos.
Ejemplo:
Fallecimientos ambos sexos 25/03: 918 casos
Si es acumulado, está mal porque llevamos más de 3000 muertes, y 918 muertes en un día, no parece una cifra correcta, ya que según otra información nos movemos alrededor de los 450 diarios.
Sacar los datos de los PDFs o lo que sea.
Hola,
Me pregunto si podría ayudarme a encontrar los datos de fallecidos totales en España o en una región concreta, durante una jornada determinada (por ejemplo ayer). Mi objetivo es poder medir la variabilidad de fallecimientos totales, es decir, cuánto está incrementando el número de fallecidos totales con respecto a la media de fallecidos, en lugar de con respecto a los casos detectados de Covid. ¿Podría ayudarme a obtener este dato? Gracias
Buenas tardes,
Tenía la duda de si se conoce si los datos de ingresados en la UCI que se muestran las bases de datos son los acumulados o son los actualmente ingresados en la UCI. Muchas gracias.
¿Igual que lo ponen, ahora lo quitan?
Diciendo qué tipo de cosas admitís como contribución. ¿Scripts? ¿Gráficos en R?
¿No se han podido actualizar?
El número total de fallecidos en la fecha 20/03/2020 asciende a 1.002 personas. Sin embargo, la suma de comunidades arroja un valor de 982. ¿Se sabe la razón de la diferencia? Un saludo,
Hi Datadista,
In the first place thanks for the great work.
I have made a visualization (Power BI report) of the data in dataset nacional_covid19_rango_edad.csv, see:
https://worktimesheet2014.blogspot.com/2020/03/coronavirus-covid-19-in-spain-power-bi.html
and I think this dataset has an error: the value '43739' for Age-group should probably be 10-19 (years), as for most other Age-groups I see 6 rows in the table and for this one just 4. Is that correct?
BTW: if you want to add my blog-post to the page where you list all websites that make use of your dataset, great.
saludos,
Maarten van Reek (Dutchman living in Madrid)
El dato de Navarra es 77? Si vemos la serie histórica pareciera que hay un 7 más. El dato nacional de 585 que dice el ministerio está bien?
Hola,
el dato de Castilla La Mancha de hoy parece erróneo. Hay un comentario en el archivo de hospitalizados de hoy que no logro entender. Se refiere a que han cambiado la forma de contabilizar o es que el dato está erróneo.
Gracias!!!
En 2020-04-22 en el fichero de casos veo que los números son mucho menores que los días anteriores (total 85K casos), ¿se trata de un error?
Primero de todo, muchas gracias por hacer estos recursos disponibles para todos. Me parece una iniciativa estupenda.
Hasta ahora, estaba intentando analizar los ficheros PDF de la situación actual de manera automática. Por desgracia, el formato de las tablas cambia casi todos los días así que mis scripts no eran muy estables.
Puesto que uds. ya estáis haciendo esto, me parece más sencillo usar sus datos en vez de reinventar la rueda, así que ahora estoy empleando sus archivos CSV en mi proyecto.
Mi pregunta es: ¿cómo de estable es el formato y la URL de sus ficheros CSV? Añadir columnas no supone un problema, pero renombrarlas, quitarlas, o cambiar la URL de los ficheros haría que la ingestión de datos para mi proyecto fallase. Entiendo que esto es algo que hacéis de manera gratuita para el resto de nosotros, así que no espero una garantía completa, pero me gustaría saber si tienen algún mecanismo para comunicar a los usuarios de sus datos si algo va a cambiar de manera que rompa la compatibilidad de previos formatos.
No puede ser que el valor de casos acumulados sea 1
el 2020-02-28 y 0
al día siguiente (2020-03-02).
En Galicia bajan de 39
a 35
entre 03-11 y 03-12.
Ya de paso pregunto ¿De dónde sale ese dato de Aragón? No lo encuentro en los PDF originales del Ministerio. La primera fecha para datos de comunidades autónomas es de
Hola,
No sé si estoy haciendo mal los cálculos, por lo que os pido ayuda. En teoría, el número de casos activos (A) debería de ser A = Co - Cu - Fa, siendo "Co" los casos confirmados, "Cu" el número de curados y "Fa" el número de fallecidos. Para los datos de Madrid de 23/03/2020 (aunque pasa en más días) hay 7.249 casos activos. Sin embargo, dicen que hay 9.561 hospitalizados, lo cual no puede ser ya que el número es mayor que los propios activos. ¿Sabéis si estoy haciendo yo mal los cálculos o es un error del Ministerio de Sanidad?
Muchas gracias y un saludo,
Creo que se ha sobrescrito casos en el archivo de altas, son los mismos y los datos de altas son los de casos.
Gracias
https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_altas_long.csv
https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_casos_long.csv
El ISCIII ha comenzado a publicar unos informes MoMo de estimación de la mortalidad. Problemas: son gráficos, están en PDF y sólo dan valores semanales en las tablas que publican. ¿Habría alguna manera de obtenerlos en formato CSV? ¿O habrá que teclearlos?
Hola, solo tenemos los datos a partir del 23 de marzo no? antes de eso no se publicaban los datos? no sabemos como evoluciona la curva desde el 8 M hasta el 23 no?
gracias!! enhorabuena por el trabajo
¿por qué no hay una columna de nuevos casos diarios? Es cierto que es un dato que se puede sacar de restando de dia a dia, pero no sé si con esta fórmula se obtiene un dato fiable.
Por favor, poned claramente la licencia de uso de estos datos
El Departamento de Seguridad Nacional (DSN), con datos de Sanidad publicó 17 muertos para el día 8 de marzo con 2 de los fallecidos en Aragón: https://www.dsn.gob.es/gl/actualidad/sala-prensa/coronavirus-covid-19-08-marzo-2020
El día 9 de marzo, el DSN publicó 16 muertos en el texto, pero la suma de los casos suman 17. Siendo los mismos que el 8 de marzo con 2 de los fallecidos en Aragón: https://www.dsn.gob.es/gl/actualidad/sala-prensa/coronavirus-covid-19-09-marzo-2020
El Ministerio de Sanidad el 9 de marzo en su informe de actualización 39 publicó el dato de 16 fallecidos con 1 fallecido en Aragón: https://www.mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/documentos/Actualizacion_39_COVID-19.pdf
El Gobierno de Aragón anunció el 6 de marzo el primer fallecido: http://www.aragonhoy.net/index.php/mod.noticias/mem.detalle/id.256994/prev.1
El Gobierno de Aragón anunció el 8 de marzo su segundo fallecido:
http://www.aragonhoy.net/index.php/mod.noticias/mem.detalle/id.257023/prev.1
Por ese motivo hemos decidido modificar en el dataset nacional el número de fallecidos aportados por Sanidad para el 9 de marzo de 16 a 17 fallecidos. También se ha modificado de 1 a 2 fallecidos en Aragón para el 9 de marzo en el dataset de fallecidos por CCAA.
Hola, aporto los PDF Actualizacion_42B_COVID-19_18.00 y Actualizacion_41B_COVID-19_18.00, que faltan en la carpeta.
Tambien tengo toda la serie del 2 al 20, pero no sé si la quieres.
Muchas gracias.
Actualizacion_41B_COVID-19_18.00.pdf
Actualizacion_42B_COVID-19_18.00.pdf
Hola, muchas gracias por la info.
Estaría bien incluir un csv pra saber las últimas modificaiones de los archivos. De esa manera podríamos cargar solo los archivos que se han modificado:
Archivo | Fecha Modificacion |
---|---|
ccaa_covid19_casos.csv | 2020-03-23 12:45:15 |
ccaa_covid19_altas.csv | 2020-03-23 11:30:00 |
El formato de fecha podría variar al que considerárais oportuno. La hora sería necesario.
¿Qué os parece?
El Ministerio de Sanidad ha actualizado las cifras de casos confirmados el 14/03/2020 y 15/03/2020 en Baleares con 28 casos. El 13/03/2020 reportó 30 casos en Baleares.
Puestos en contacto con Sanidad nos indican que son los datos facilitados por las CCAA al CAES. Sin embargo, la Consejería de Sanidad de Baleares ha reportado de manera independiente 44 casos el 14/03/2020 y 55 casos el 15/03/2020.
Lo primero, gracias por el trabajo realizado.
Hay varios casos en los que el valor de casos acumulados decrece respecto el día anterior,
¿alguna forma de interpretar esto?¿suponemos que ese día no se ha medido correctamente?
Te listo los casos por si ayuda:
Alta Andalucia
dia alta
2 2020-03-18 38
3 2020-03-19 33
4 2020-03-20 72
dia alta
5 2020-03-21 72
6 2020-03-22 38
7 2020-03-23 50
Alta Canarias
dia alta
3 2020-03-19 9
4 2020-03-20 6
5 2020-03-21 7
Alta Cantabria
dia alta
13 2020-03-29 25
14 2020-03-30 24
15 2020-03-31 35
Alta Extremadura
dia alta
6 2020-03-22 8
7 2020-03-23 6
8 2020-03-24 8
Alta Galicia
dia alta
2 2020-03-18 7
3 2020-03-19 4
4 2020-03-20 5
Alta Madrid
dia alta
2 2020-03-18 951
3 2020-03-19 941
4 2020-03-20 1186
Resultado Andalucia
dia resultado
6 2020-03-04 13
7 2020-03-05 12
8 2020-03-06 21
Resultado Aragon
dia resultado
2 2020-02-29 1
3 2020-03-01 0
4 2020-03-02 0
Resultado Baleares
dia resultado
15 2020-03-13 30
16 2020-03-14 28
17 2020-03-15 28
Resultado Canarias
dia resultado
9 2020-03-07 18
10 2020-03-08 17
11 2020-03-09 22
Resultado Galicia
dia resultado
13 2020-03-11 39
14 2020-03-12 35
15 2020-03-13 85
Uci Canarias
dia uci
6 2020-03-12 3
7 2020-03-13 2
8 2020-03-16 9
coincide el número y parece un bug
Como ha indicado fdezordonez en Twitter, ese dato está mal
Y ha provocado el pico en el número de hospitalizados de hoy. ¿Ese agregado lo ha proporcionado el ministerio?
En el fichero EESS_horario_flexible_habitual.csv, la estación de servicio Respsol de Gandesa (Tarragona) está mal geolocalizada. Sus coordenadas (latitud,longitud) la sitúan en Logroño.
Perdonadme esta duda que me corroe.
Como sabéis, desde la actualización 47, los datos que se ofrecen son los consolidados a las 21h del día anterior. ¿No sería más fiel a la realidad asignar al día 16-03 11178 casos y seguir a partir de ahí? De modo que:
2020-03-17: 13716
2020-03-18: 17147
2020-03-19: 19980
Hasta ese cambio los datos sí se correspondían con el día del informe, aunque fuera hasta las 13h, pero ahora son justo los del día anterior.
¿O es que el informe que se publicaba a las 13h en realidad solo tenía datos del día anterior y hemos estado siempre con un día de desfase?
Gracias.
El Ministerio de Sanidad ha actualizado las cifras de fallecidos el 14/03/2020 a las 12h con toda la información remitida por las comunidades autónomas hasta las 11h. La Comunidad de Madrid remitió 89 fallecidos. A las 13:30h, Madrid ha confirmado en una nota de prensa 133 fallecidos.
Por consistencia en los datos, vamos a mantener los 89 en el dataset ccaa_covid19_fallecidos.csv hasta su actualización oficial por parte de Sanidad.
La cantidad de altas en cataluña del dia de hoy es significativamente menor que la del dia anterior.
Se han dejado de registrar algunas altas o han dejado de considerarse altas?
Estamos pensando en normalizar las fechas en el dataset de dd/mm/yyyy a yyyy-mm-dd pero nos gustaría conocer la opinión y postura de los que estáis reutilizando los datos.
fecha | cod_ine | CCAA | total | |
---|---|---|---|---|
2020-04-16 | 00 | Total | 74797 | |
2020-04-17 | 00 | Total | 72963 |
El día 16 hay un número mayor de altas totales que las del 17. Esto no cuadra por algún lado.
https://github.com/datadista/datasets/blob/master/COVID%2019/ccaa_covid19_altas_long.csv
En los archivos ccaa_covid19_fallecidos.csv y ccaa_covid19_fallecidos_long.csv los datos de fallecidos (que son datos acumulados) del día 17 son inferiores a los de los dos días anteriores
Hola gracias por tu contribucion, estoy tratando de ver la data que tu subes pero me sale con el separador ; lo que evita que la vea, es posible corregir el error muchas gracias.
Saludos.
La cifra de nuevos recuperados y fallecidos entre el informe 77 y el informe 78 no corresponde con las cifras en esos informes.
Pero si hacemos la resta entre los dos informes debiesen ser 338 nuevos fallecidos (no 585) y un número negativo de recuperados. ¿Alguien sabe de dónde proviene esta anomalía? Gracias.
Se han introducido varios errores en los valores referentes al 2020-04-06 del fichero nacional_covid19_rango_edad.csv debido a valores a los que les faltan dígitos después del punto de unidades de millar.
Datos erróneos detectados:
ambos:
40-49: hospitalizados 4.34
50-59: hospitalizados 6.84
70-79: confirmados 14.3
80-89: hospitalizados 7.79
hombres:
40-49: hospitalizados 2.62
70-79: confirmados 8.41
Total: fallecidos 3.13
Could you give the definition of 'sexo' = 'ambos' in dataset nacional_covid19_rango_edad.csv?
Would it not be better to have just Male/Female/Unknown? To not double count Corona-cases.
Do you have a meta-data doc?
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.