Git Product home page Git Product logo

verdata's Introduction

Click here for instructions in English.

verdata

verdata es un paquete de R que está pensado como una herramienta para el uso y análisis de los datos de conflicto armado en Colombia resultantes del proyecto conjunto JEP-CEV-HRDAG. Se pueden descargar los datos sobre desaparición, homicidio, reclutamiento de niños, niñas y adolescentes y secuestro del sitio web del Departamento Administrativo Nacional de Estadística. Estos datos corresponden a 100 réplicas, producto del proceso de imputación estadística de campos faltantes (ver sección 4 del informe metedológico del proyecto). El repositorio verdata-examples contiene ejemplos que ilustran cómo usar correctamente los datos y este paquete.

Instalación

Se puede instalar la versión la versión en desarrollo de verdata desde GitHub así:

install.packages("devtools")
devtools::install_github("HRDAG/verdata")

verdata requiere el paquete LCMCR como dependencia. La instalación de LCMCR requiere la instalación del GNU Scientific Library. Es posible que necesite instalar esta librería en su computadora por separado antes de instalar verdata.

Diccionario de datos

En el subdirectorio inst/docs usted puede encontrar la información relacionada con el diccionario de datos de las réplicas. En este encontrará la definición de cada una de las variables que se encuentran allí, así como nuevas variables que fueron usadas en algunos análisis estadísticos durante la construcción del informe final de la CEV.

Uso

Para el uso de este paquete es necesario haber descargado los datos previamente de alguno de los sitios en los que se encuentran publicados. Este paquete ofrece al público 8 funciones para el tratamiento de los datos, divididas así:

Verificación y lectura de datos en R:

  • La función confirm_files permite autenticar que los archivos descargados correspondan exactamente a los archivos originalmente publicados. Esta función acepta archivos en cualquiera de los dos formatos publicados (parquet o csv).

  • Además, la función read_replicates permite autenticar el contenido de los archivos, así como importar el número deseado de réplicas a R. Esta función acepta archivos en cualquiera de los dos formatos publicados (parquet o csv).

Transformación de datos:

  • Para sus análisis en violaciones a derechos humanos, la Comisión de la Verdad especificó diferentes períodos y condiciones. En caso de querer replicar los resultados del Informe Final de la CEV, es necesario aplicar estos mismos filtros a los datos. El uso de la función filter_standard_cev es opcional y permite filtrar los datos del mismo modo que la CEV lo hizo, dependiendo de la violación a derechos humanos a analizar.

Datos observados:

  • La función summary_observed ofrece un conteo del número observado de víctimas -totales o agrupadas por diferentes variables- antes de la imputación estadística de campos faltantes. El número que se obtiene es la media entre las diferentes réplicas.

Datos imputados:

  • La función combine_replicates usa la aproximación normal usando las reglas de total expectativa y varianza para combinar las réplicas, lo que permite obtener un intervalo de la imputación. Ver sección 18.2 de Bayesian Data Analysis para más información.

Datos estimados:

  • La función estimates_exist permite validar si la estimación de los estratos de intrés ya existen, y se encuentran en los archivos de estimaciones precalculadas publicados, que deben haber sido previamente descargados del sitio de la Comisión. Esta función requiere los datos estratificados y el directorio en el que se encuentran las estimaciones precalculadas y devolverá un valor lógico que indica si la estimación existe o no, y la ruta en la que se encuentra, en caso de que exista. En caso de que usted quiera replicar los resultados de la Comisión de la Verdad, los objetos de datos estratificacion (en español) y stratification (en inglés) especifican qué estratificaciones se usaron para cada estimación presente en el informe metodológico del proyecto.

  • La función mse permite hacer estimaciones del subregistro, usando el modelo de LCMCR (ver sección 6 del informe metodológico del proyecto). Para usar esta función es necesario haber definido variables de estratificación, es decir, agrupación, para hacer la estimación y haber hecho la estratificación (ver ejemplo y sección 8.4.2 del informe metodológico del proyecto). Además, considerando que la estimación requiere de tiempo y recursos computacionales, en caso de querer hacer uso de las estimaciones ya calculadas por el equipo, es necesario haberlas descargado del sitio de la Comisión a su máquina local. Esta función requiere como insumo los datos ya estratificados y el directorio en el que se encuentran las estimaciones publicadas -en caso de querer hacer uso de estas-. Tenga presente que al proveer un directorio la función asume las mismas especificaciones para el modelo usadas en el proyecto. Si usted quiere usar otras especificaciones, no debe suministrar un directorio a las estimaciones.

  • Por último, la función combine_estimates permite combinar los resultados de la estimación, lo que, una vez más, dará como resultado un intervalo (que incluye la media). Usa la aproximación normal usando las reglas de total expectativa y varianza. Ver sección 18.2 de Bayesian Data Analysis para más información.

Agradecimientos

Agradecemos a Micaela Morales por su atenta prueba beta.

verdata's People

Contributors

thegargiulian avatar pamadoa avatar mduranf avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.