ropensci / eph Goto Github PK

View Code? Open in Web Editor NEW

58.0 11.0 18.0 12.62 MB

Herramientas para procesamiento de la base usuaria de la EPH

Home Page: https://ropensci.github.io/eph/

License: Other

R 99.56% Python 0.44%

rstats rstatses eph indec mercado-de-trabajo

eph's Introduction

eph

Caja de Herramientas para el procesamiento de la Encuesta Permanente de Hogares

Descripción

Si querés procesar datos de la Encuesta Permanente de Hogares (EPH) elaborada por el Instituto Nacional de Estadística y Censos de la República Argentina (INDEC) mediante el lenguaje de programación R, la librería eph tiene por objeto facilitar tu trabajo.

El paquete cumple un rol fundamental en la democratización de la posibilidad de procesar los datos publicados por INDEC y así obtener conclusiones independientes de aquellas publicadas en los informes elaborados por el organismo. Dado que la información de la EPH constituye una de las principales fuentes para el análisis de las problemáticas sociales presentes en Argentina, el paquete no sólo posibilita investigaciones académicas y periodísticas, sino que también contribuye a la formulación de políticas públicas fundamentadas en evidencia.

Algunas de sus funciones son:

get_microdata(): Descarga las bases de microdatos,
organize_panels(): Permite armar un pool de datos en panel de la EPH continua,
organize_cno(): Clasifica las ocupaciones según el Clasificador Nacional de Ocupaciones (CNO) 2001
organize_caes(): Clasifica las actividades económicas según el Clasificador de Actividades Economicas para encuestas Sociodemograficas (CAES) Mercosur 1.0 y el CAES Mercosur
organize_labels(): Etiqueta las bases siguiendo el último diseño de registro
map_agglomerates(): Mapa de indicadores por aglomerado

El paquete también cuenta con dataframes útiles para el trabajo con la EPH. Algunos de estos son:

diccionario_regiones: Diccionario de regiones según el diseño de registro de la EPH
diccionario_aglomerados: Diccionario de aglomerados según el diseño de registro de la EPH
centroides_aglomerados: Tabla de centroides de los aglomerados (basado en https://www.indec.gob.ar/indec/web/Nivel4-Tema-1-39-120)
adulto_equivalente: Tabla de valores de adulto equivalente segun sexo y edad (ver definición mtodológica)

Instalación

Para descargar la versión estable desde CRAN:

install.packages("eph")

Para descargar desde R-universe:

install.packages("eph", repos = "https://ropensci.r-universe.dev")

Para la versión en desarrollo:

# install.packages('devtools')
# si no tiene instalado devtools

devtools::install_github("holatam/eph")

Modo de uso

Ejemplo de descarga de microdatos

# Cargo la libreria
library(eph)

base_individual <- get_microdata(
  year = 2018:2019, # especifco el año
  trimester = 1, # el trimestre
  type = "individual", # y el tipo de base
  vars = c("PONDERA", "ESTADO", "CAT_OCUP")
) # opcionalmente, puedo especificar las variables que deseo utilizar.

base_individual
#> # A tibble: 117,320 × 3
#>    PONDERA ESTADO CAT_OCUP
#>      <int>  <int>    <int>
#>  1     684      4        0
#>  2    1008      3        0
#>  3    1008      1        1
#>  4    1008      2        0
#>  5     886      1        2
#>  6     594      3        0
#>  7     594      3        0
#>  8     546      3        0
#>  9     509      1        3
#> 10     509      1        3
#> # ℹ 117,310 more rows

Cómo citar este paquete

Podés citar este paquete como “se obtuvieron y/o normalizaron los datos de la Encuesta Permanente de Hogares (EPH-INDEC) utilizando el paquete de R ‘eph’ (Kozlowski et al, 2020)”.

La referencia completa para incluir en la bibliografía es:

Carolina Pradier, Guido Weksler, Pablo Tiscornia, Natsumi Shokida, Germán Rosati, & Diego Kozlowski. (2023). ropensci/eph V1.0.0 (1.0.0). Zenodo. https://doi.org/10.5281/zenodo.8352221

Si necesitás la entrada bib:

@software{carolina_pradier_2023_8352221,
  author       = {Carolina Pradier and
                  Guido Weksler and
                  Pablo Tiscornia and
                  Natsumi Shokida and
                  Germán Rosati and
                  Diego Kozlowski},
  title        = {ropensci/eph V1.0.0},
  month        = sep,
  year         = 2023,
  publisher    = {Zenodo},
  version      = {1.0.0},
  doi          = {10.5281/zenodo.8352221},
  url          = {https://doi.org/10.5281/zenodo.8352221}
}

Aportes de la comunidad

Este paquete se propone incorporar cualquier función de propósitos generales que utilice como base los datos de la Encuesta Permanente de Hogares. Todos los aportes en este sentido son bienvenidos.

Si trabajas con la EPH y querés agregar tu función, te recomendamos que leas los siguientes consejos sobre cómo como colaborar

eph's People

Contributors

Stargazers

Watchers

Forkers

alephcero diegokoz fcontiggiani soberto lw6ege eliocamp pablotis pabloezequiela tuqmano electorarg jgjuara enadianet dsosnik mpvaldez maelle pablo-alberto olivroy uzquedajuan

eph's Issues

pasar de hogares a personas

Hola, estoy trabajando con la base de hogares y con Excel he seleccionado todos los CODUSU que cumplan con alguna condición, digamos, los que son inquilinos y esa lista de CONSUDU tiene por ejemplo 2500 filas. Ahora, quiero filtrar de la base de INDIVIDUOS todos esos CODUSU, para saber a cuántas personas inquilinas representan. Entonces no se como filtrar, las opciones que encontré te dan la posibilidad de filtrar pero hay que indicar uno a uno las condiciones, en este caso tengo 2500 de ellas. gRACIAS

pkgcheck results - master

Checks for eph (v0.6.0)

git hash: 4cf8ed7b

✔️ Package is already on CRAN.
✔️ has a 'codemeta.json' file.
✔️ has a 'contributing' file.
✔️ uses 'roxygen2'.
✔️ 'DESCRIPTION' has a URL field.
✔️ 'DESCRIPTION' has a BugReports field.
✔️ Package has at least one HTML vignette
✔️ All functions have examples.
✔️ Package has continuous integration checks.
✔️ Package coverage is 84.9%.
✔️ R CMD check found no errors.
✔️ R CMD check found no warnings.
👀 Function names are duplicated in other packages

(Checks marked with 👀 may be optionally addressed.)

Package License: MIT + file LICENSE

Consulta labels CH15_COD

Alguien los tiene? No los encuentro

pkgcheck results - master

Checks for eph (v1.0.2)

git hash: e1891166

✔️ Package is already on CRAN.
✔️ has a 'codemeta.json' file.
✔️ has a 'contributing' file.
✔️ uses 'roxygen2'.
✔️ 'DESCRIPTION' has a URL field.
✔️ 'DESCRIPTION' has a BugReports field.
✔️ Package has at least one HTML vignette
✔️ All functions have examples.
✔️ Package has continuous integration checks.
✔️ Package coverage is 86.1%.
✖️ R CMD check process failed with message: 'Build process failed'.
👀 Function names are duplicated in other packages

Important: All failing checks above must be addressed prior to proceeding

(Checks marked with 👀 may be optionally addressed.)

Package License: MIT + file LICENSE

función 'descarga_base_eph' -multiples bases

Que la función permita definir un rango de años y trimestres para descargar y realice el correspondiente binding de las bases

Organización repo

Buenas.

Creo que para organizar mejor el respositoiro conviene hacer un repositorio exclusivo para R. Esto va a servir también si hacemos una librería para que la gente la pueda instalar directamente desde el repo.

Yo agarraría la carpeta que se llama R y la pondría en la raíz del repo. La licencia también tiene que estar en la raiz

delete file

@gefero te quedó este archivo en el root, se puede eliminar?
write-test-a26321d0-d6ed-4665-ab9e-784996e6a2c1

No funciona ` get_microdata`

En windows sucede esto...

`> base_2016t3 <- get_microdata(year = 2016,trimester = 3,labels = FALSE)[['base_individual']]
trying URL 'https://github.com/rindec/data/raw/master/eph/individual/base_individual_2016T3.RDS'
Content type 'application/octet-stream' length 3541265 bytes (3.4 MB)
downloaded 3.4 MB

Error in readRDS(path) : error reading from connection`

pkgcheck results - master

Checks for eph (v1.0.1)

git hash: 36cc3463

✖️ Package name is not available (on CRAN).
✔️ has a 'codemeta.json' file.
✔️ has a 'contributing' file.
✔️ uses 'roxygen2'.
✔️ 'DESCRIPTION' has a URL field.
✔️ 'DESCRIPTION' has a BugReports field.
✔️ Package has at least one HTML vignette
✔️ All functions have examples.
✔️ Package has continuous integration checks.
✔️ Package coverage is 86.6%.
✔️ R CMD check found no errors.
✔️ R CMD check found no warnings.
👀 Function names are duplicated in other packages

Important: All failing checks above must be addressed prior to proceeding

(Checks marked with 👀 may be optionally addressed.)

Package License: MIT + file LICENSE

pkgcheck results - master

Checks for eph (v1.0.0)

git hash: 155983f5

✖️ Package name is not available (on CRAN).
✔️ has a 'codemeta.json' file.
✔️ has a 'contributing' file.
✔️ uses 'roxygen2'.
✔️ 'DESCRIPTION' has a URL field.
✔️ 'DESCRIPTION' has a BugReports field.
✔️ Package has at least one HTML vignette
✔️ All functions have examples.
✔️ Package has continuous integration checks.
✔️ Package coverage is 86.6%.
✔️ R CMD check found no errors.
✔️ R CMD check found no warnings.
👀 Function names are duplicated in other packages

Important: All failing checks above must be addressed prior to proceeding

(Checks marked with 👀 may be optionally addressed.)

Package License: MIT + file LICENSE

Check vignettes

Agregue unas vignettes... si pueden chequearlas para el jueves...

Dificultades para abrir bases de datos

Hola!
Estoy teniendo un problema para abrir las eph.
Utilizo los siguientes códigos para abrir las bases de eph con las variables en var.ind

var.ind <- c('CODUSU','NRO_HOGAR' ,'COMPONENTE','ANO4','TRIMESTRE','REGION',
'AGLOMERADO', 'PONDERA', 'CH04', 'CH06', 'ITF', 'PONDIH','P21')

bases <- get_microdata(year = 2016:2020,
trimester = 1:4,
type = "individual",
vars = var.ind)

Y luego las uno...
bases <- bases %>%
unnest(cols = c(microdata))

Una vez unidas las bases, no me aparece la variable "AGLOMERADO" que es clave para mi análisis. No entiendo por qué sucede esto.

Les agradecería su respueta!

pkgcheck results - master

Checks for eph (v0.6.1)

git hash: 5f31ddc3

✔️ Package is already on CRAN.
✔️ has a 'codemeta.json' file.
✔️ has a 'contributing' file.
✔️ uses 'roxygen2'.
✔️ 'DESCRIPTION' has a URL field.
✔️ 'DESCRIPTION' has a BugReports field.
✔️ Package has at least one HTML vignette
✔️ All functions have examples.
✔️ Package has continuous integration checks.
✔️ Package coverage is 86.6%.
✔️ R CMD check found no errors.
✔️ R CMD check found no warnings.
👀 Function names are duplicated in other packages

(Checks marked with 👀 may be optionally addressed.)

Package License: MIT + file LICENSE

Canastas regionales

Hola Diego, buen día. Podrían cargar las canastas regionales para poder usar el paquete EPH? Ya se publicó hasta las del 3er trimestre 2023 y en el paquete solo está hasta el 2do. Saludos y muchas gracias.

Nueva función para consultar nombre de variables y de sus categorías

Es un "problema" -no grave- usual al momento de trabajar con las variables de la eph el tener que "saltar" entre el diccionario de registro y la plataforma con la que estemos trabajando en R (ej. Rstudio) para conocer las etiquetas de las variables y de sus categorías.

Si bien existe la función organize_labels(), esta responde muy bien cuando trabajamos con la base cruda (sin modificaciones) pero va perdiendo potencia cuando sólo queremos consultar o para trabajar luego de haber pasado por un proceso de limpieza o transformación de variables.

Creo que una función que permita preguntar por la etiqueta de la variable y sus categorías podría ser sencillamente útil de tener a mano.

Algo así como

ask_label(variable = "CH04")

# Variable name = "Sexo",
# Variable category labels = 
  "Varon" = 1,
  "Mujer" = 2
)

pkgcheck results - master

Checks for eph (v0.6.0)

git hash: ad85634f

✔️ Package is already on CRAN.
✔️ has a 'codemeta.json' file.
✔️ has a 'contributing' file.
✔️ uses 'roxygen2'.
✔️ 'DESCRIPTION' has a URL field.
✔️ 'DESCRIPTION' has a BugReports field.
✔️ Package has at least one HTML vignette
✔️ All functions have examples.
✔️ Package has continuous integration checks.
✔️ Package coverage is 84.8%.
✔️ R CMD check found no errors.
✔️ R CMD check found no warnings.
👀 Function names are duplicated in other packages

(Checks marked with 👀 may be optionally addressed.)

Package License: MIT + file LICENSE

error en "get_microdata_internal" Version: 0.3.0

Al ejecutar las lineas que usaba el año pasado me encontré con este error que muestro para un trimestre a modo de ejemplo:
"

library(eph)
library(tidyverse)
base_2019t2_ind <- get_microdata(year = 2019, trimester = 2, type = 'individual', vars = 'all')
Warning message:
In get_microdata(year = 2019, trimester = 2, type = "individual", :
No se pudo descargar la base de year 2019,trimester 2, wave NA, type individual.
Mensaje: problema con la descarga. Posiblemente un error de la conexion a internet
base_2019t3_ind <- get_microdata(year = 2019, trimester = 3, type = 'individual', vars = 'all')
probando la URL 'https://www.indec.gob.ar/ftp/cuadros/menusuperior/eph/EPH_usu_3_Trim_2019_txt.zip'
Content type 'application/x-zip-compressed' length 3000521 bytes (2.9 MB)
"
Observé que no se presenta para el trimestre 2019t3 porque no lo descarga de "https://github.com/holatam/data".

R - get_bases_eph a través de un proxy en Windows

En el caso que se quiera bajar las bases de eph en Windows a través de un proxy encontré necesario utilizar mode='libcurl' en utils.download.

Consulta sobre get_microdata

Hola! Continuo una consulta que había subido acá.

Estoy haciendo esto:

base <- get_microdata(year = 2004:2019, trimester = 1:4, type='individual', vars =c('CODUSU','NRO_HOGAR','COMPONENTE','ANO4', 'TRIMESTRE','CH04','CH06', 'CH15', 'CH15_Cod', 'PONDERA','ESTADO','PP04A', 'NIVEL_ED','AGLOMERADO', 'PP04B_CAES'), destfile = "base_2004_2019.rds") %>% organize_labels(., type='individual')

Y me tira esto:

Al principio podía bajar las bases sin problema, después solo me dejaba bajar de 2011 a 2014 y ahora no me baja ninguna. Será que ya lo tengo en algún lado en mi compu y no me baja por eso? Intenté desinstalando el paquete y lo mismo.

Desde ya muchas gracias por este laburo que hicieron y están haciendo! Es una herramienta muy potente para la investigación en ciencias sociales de nuestro país!

get_data 'hogar' no funcionando

Hola!
Estaba intentando bajar la base para hogares y no me está dejando para todos los trimestres. Me baja con 0 rows. Estoy usando el siguiente código:

library("tidyverse")
library("eph")
library("np")
library("kdensity")
vars <- c('IPCF', 'COMPONENTE','ANO4', 'REGION',
'TRIMESTRE','CH04','CH06',
'ESTADO','PONDERA', 'AGLOMERADO')

data_4Q14 <- get_microdata(year = 2014, trimester = 4,
type= 'hogar', vars = vars)

Error:

2: In get_microdata(year = 2014, trimester = 4, type = "hogar", vars = vars) :
No se pudo descargar la base de year 2014,trimester 4, wave NA, type hogar.
Mensaje:

pkgcheck results - master

Checks for eph (v0.6.1)

git hash: 6330bac6

✔️ Package is already on CRAN.
✔️ has a 'codemeta.json' file.
✔️ has a 'contributing' file.
✔️ uses 'roxygen2'.
✔️ 'DESCRIPTION' has a URL field.
✔️ 'DESCRIPTION' has a BugReports field.
✔️ Package has at least one HTML vignette
✔️ All functions have examples.
✔️ Package has continuous integration checks.
✔️ Package coverage is 86.6%.
✔️ R CMD check found no errors.
✔️ R CMD check found no warnings.
👀 Function names are duplicated in other packages

(Checks marked with 👀 may be optionally addressed.)

Package License: MIT + file LICENSE

Canastas 1T21

Hola, estoy usando el paquete EPH para calcular pobreza para el primer trimestre 2021, pero me salen todas las tasas iguales a cero, eso es porque no están cargadas aún las canastas regionales para ese período, quiero saber cómo puedo cargarlas o bien si lo van a actualizar ustedes. Muchas gracias.

CH15_COD

Hola!
Estaba usando la variable CH15_COD y me di cuenta de que para el 2do, 3er y 4to trimestre de 2016 las bases obtenidas con get_microdata() y la publicada por INDEC difieren en esta variable.

base_descargada_por_mi_del_indec <- readxl::read_excel('data/usu_individual_T216.xls')
base_2016t2_ind <- eph::get_microdata(year = 2016, trimester = 2, type = 'individual')

head(base_descargada_por_mi_del_indec$CH15_COD, n= 10)
# [1] NA    "tuc" NA    NA    NA    NA    NA    NA    "bol" "par"
head(base_2016t2_ind$CH15_COD, n = 10)
#  [1]   1 138   1   1   1   1   1   1  14 102

Como info adicional sobre la variable, CH15_COD contiene el código que hace referencia al lugar de origen de un inmigrante ya sea interno o extranjero.
Para 2017 en adelante los valores de la variable son números tal como los que se encuentran en este link.
Pero en los trimestres 2, 3 y 4 de 2016 (no entiendo por qué pero es así jaja) INDEC usa strings para referirse a los distintos lugares. Son combinaciones de letras como por ejemplo para alguien que nació en Perú, puede tomar los valores "PER", "per", o "Per".

pkgcheck results - master

Checks for eph (v1.0.0)

git hash: 07fb4a06

✖️ Package name is not available (on CRAN).
✔️ has a 'codemeta.json' file.
✔️ has a 'contributing' file.
✔️ uses 'roxygen2'.
✔️ 'DESCRIPTION' has a URL field.
✔️ 'DESCRIPTION' has a BugReports field.
✔️ Package has at least one HTML vignette
✔️ All functions have examples.
✔️ Package has continuous integration checks.
✔️ Package coverage is 86.6%.
✔️ R CMD check found no errors.
✔️ R CMD check found no warnings.
👀 Function names are duplicated in other packages

Important: All failing checks above must be addressed prior to proceeding

(Checks marked with 👀 may be optionally addressed.)

Package License: MIT + file LICENSE

Filtrar datos de hogares a personas

Consulta sobre propuesta de (humilde) colaboración: tabla de errores muestrales eph 2T 2014 en adelante

buenas! hace un tiempo tuve que pasar la dichosa tabla de errores muestrales de la eph vigente desde 2do trim 2014 a una csv para usar con el bello paquete eph. ¿sirve si lo ofrezco para sumarlo a las tablas que trae incorporado el paquete? En caso de que sí, ¿cómo sería el formato de colaboración? Porque estuve leyendo el guidelines y me queda claro cómo sería el formato para colaborar con una función pero no para colaborar con una tabla, por lo que ví del repo, las fuentes de datos están en .rda así que imagino que debería exportalo a ese formato y revisar que los nombres de las columnas coincidan con los usados en otras tablas (como "aglo" por ejemplo).
En todo caso acá está el link al csv: https://github.com/jgjuara/eph_tools/blob/main/errores_eph.csv

Saludos!

Problemas con AGLOMERADO

Hola!

Estoy teniendo problemas con la variable AGLOMERADO para la EPH de 2003 a 2006. Solo me aparecen 8 de los aglomerados urbanos (Gran La Plata, Gran Rosario, Gran Mendoza, Gran Cordoba, Gran Tucuman - T. Viejo, Ciudad de Buenos Aires, Partidos del GBA y Mar del Plata - Batan), el resto me aparece con un valor de 0. Esto pasa para las observaciones de 2003 T3 a 2006 T2 inclusive, pero desde el 2006 T3 en adelante me aparece todo en orden.

No creo que lo esté bajando mal, pero va mi código por las dudas:

library(eph)
library(dplyr)
library(tidyr)
library(haven)
library(foreign)

df <- get_microdata(year=2003:2021, trimester=1:4,type="individual") %>% 
    		unnest() %>% 
		organize_labels(., type='individual') %>% 
		as.data.frame()

Gracias!

Mejorar mensajes de error en función `calculate_tabulates()`

Ejemplo (no existe la variable):

Ubicación de datos

Hola
En mi trabajo filtran el acceso a sitios externos por cuestiones de seguridad y no me permite bajar las bases (ej función get_microdata). Es posible ver donde apuntan las funciones? la idea es que nos liberen el acceso al repositorio. Gracias!

Identificar cantidad de personas en un rango de edad por hogar (base EPH)

Hola, he corrido el comando para calcular pobreza primer semestre 2020 y me salió bien, tengo identificado cada individuo por su condición (POBRE-NO POBRE-INDIGENTE), ahora quiero saber cómo puedo hacer para saber cuántas personas en edad escolar hay por hogar, es decir una nueva columna que me arroje ese número. Gracias.

Sugerencia para el wording de la ayuda de get_microdata

Hola! Excelente trabajo!!! Sugiero agregar en la ayuda de get_microdata qué parámetro es obligatorio vs. los opcionales! Ayuda para entender la funcion por primera vez!

Saludos y nuevamente felicitaciones!

Bases semestrales

Hola Diego, Guido...para realizar el cálculo de pobreza semestral ¿de qué manera tenemos que unir las bases trimestrales? Gracias.

Collaboration Guidelines

Bienvenides 🎉 🎉 🎉

El objetivo de esta librería es construir un Toolbox para el procesamiento de la Encuesta Permanente de Hogares (indec)

Para agregar tu función te pedimos que sigas los siguentes pasos:

Hace un fork de este repositorio
Agregues tu función como un archivo .R en la carpeta R/ con el mismo nombre que la función
Documenta la misma con roxygen2 aclarando su funcionalidad, los parámetros y un ejemplo de uso. Para ver como se documenta poder revisar otra de las funciones en ese mismo directorio
Recordá que para que tu función se pueda utilizar, al final de la documentación debes agregar un
#' @export
Controla que los tipos y valores de los parametros de tu función estén bien (para un ejemplo, podes mirar get_microdata.r
Agrega las dependencias en el archivo DESCRIPTION
Chequea el paquete con devtools::check()
Si todo funciona bien, entonces hace un pull request

obs. Te pedimos que en la medida de los posible trates de seguir la guía de estilo del Tidyverse que va a simplificar mucho la lectura del código y la usabilidad de la librería
obs. En un futuro esperamos agregar test de la librería con testthat.

pkgcheck results - master

Checks for eph (v0.6.1)

git hash: 2de8a057

✔️ Package is already on CRAN.
✔️ has a 'codemeta.json' file.
✔️ has a 'contributing' file.
✔️ uses 'roxygen2'.
✔️ 'DESCRIPTION' has a URL field.
✔️ 'DESCRIPTION' has a BugReports field.
✔️ Package has at least one HTML vignette
✔️ All functions have examples.
✔️ Package has continuous integration checks.
✔️ Package coverage is 86.6%.
✔️ R CMD check found no errors.
✔️ R CMD check found no warnings.
👀 Function names are duplicated in other packages

(Checks marked with 👀 may be optionally addressed.)

Package License: MIT + file LICENSE

pkgcheck results - master

Checks for eph (v0.6.0)

git hash: f128edf7

✔️ Package is already on CRAN.
✔️ has a 'codemeta.json' file.
✔️ has a 'contributing' file.
✔️ uses 'roxygen2'.
✔️ 'DESCRIPTION' has a URL field.
✔️ 'DESCRIPTION' has a BugReports field.
✔️ Package has at least one HTML vignette
✔️ All functions have examples.
✔️ Package has continuous integration checks.
✔️ Package coverage is 84.8%.
✔️ R CMD check found no errors.
✔️ R CMD check found no warnings.
👀 Function names are duplicated in other packages

(Checks marked with 👀 may be optionally addressed.)

Package License: MIT + file LICENSE

update reference

The references on the zenodo and the readme should include @caropradier

We currently have:

    Diego Kozlowski, Pablo Tiscornia, Guido Weksler, German Rosati and Natsumi Shokida (2020). eph: Argentina's Permanent Household Survey Data and Manipulation Utilities. R package version https://doi.org/10.5281/zenodo.3462677

Si necesitás la entrada bib:

``` bib

@Manual{kozlowski2020,
    title = {eph: Argentina's Permanent Household Survey Data and Manipulation Utilities},
    author = {Diego Kozlowski and Pablo Tiscornia and Guido Weksler and German Rosati and Natsumi Shokida},
    year = {2020},
    doi = {10.5281/zenodo.3462677},
    url = {https://holatam.github.io/eph/},
  }

I think we need to add the latest version of the package to zenodo for that (maybe that's done with a new github release )

Not 100% sure how authorship on code work, but probably the mantainer should be the first author.

Calidad de la vivienda

Hola, estoy viendo algunos ejemplos para trabajar con el paquete eph y no encuentro nada para trabajar sobre calidad de los materiales de la vivienda.
En los microdatos de EPH hay dos variables que son indicadores de la calidad de materiales de la vivienda, las cuales son: IV3, V4 y IV5. Según las categorías que toman estas variables quisiera generar una columna que me diga si la calidad es SUFICIENTE, PARCIALMENTE INSUFICIENTE o INSUFICIENTE.
A modo de ejemplo
si IV3 = 1 , V4= 1 ; IV5 = 1 , entonces la nueva variable (digamos calidad) será calidad = SUFICIENTE
IV3 = 2 , V4 = 1 ; IV5 = 2. entonces la nueva variable (digamos calidad) será calidad = INSUFICIENTE

Y así según las combinaciones posibles de estas tres variables.
Podría ayudarme con los comandos que debo usar? estoy trabajando con 4T 2020.
Muchas gracias.

Problemas con `get_microdata()`

Buenas! Me saltan unos errores a la hora de intentar descargar la EPH para 2019, tanto para los 4 trimestres, como uno en particular. Copio a continuación lo que me saltó en la consola. Lo que me parece raro es que ayer me andaba...

Aprovecho para comentar que también me apareció un problema ya contemplado en un issue anterior, sobre la imposibilidad de unir las bases a lo largo del tiempo por los diferentes tipos de variables (esto me ocurrió para los trimestres de 2020):

Error: Can't combine..1$PP04B_COD<character> and..3$PP04B_COD<double>.

Saludos !

EPH total urbano

https://www.indec.gob.ar/indec/web/Institucional-Indec-BasesDeDatos
Se subieron las bases del total urbano, habría que incorporarlas.

Etiquetas para CH15_COD

Faltan las etiquetas de los valores y de la variable CH15_COD ("lugar de nacimiento") en la función organize_labels

Error: No common type for `..1$microdata$ESTADO` <double> and `..4$microdata$ESTADO` <haven_labelled>.

Buenas! Para una investigación tenía que procesar datos de EPH desde 2007 hasta 2011, principalmente ocupados (registrados y no registrados) en la industria manufacturera. Para esto corrí la función "get_microdata()", que te devuelve los valores de las variables como lista dentro de una columna.

eph.individual.07 <- get_microdata(
  year = c(2007),
  trimester = c(1, 2, 3, 4),
  type = "individual",
  vars = c("ESTADO", "CAT_OCUP", "PP04B_COD", "PONDERA", "PP07H", "P21"))

El problema fue que, a la hora de unnestear la data, me reportaba el error que puse en el título, ya que las variables (entre trimestre y trimestre) cambiaban su tipo. Al principio me sucedió con "PP04B_COD", pero luego fue evidente que pasaba con todas.

Error: No common type for ..1$microdata$PP04B_COD and ..2$microdata$PP04B_COD .

Primero probé cambiando la función para unnestear, luego tratando de convertir los elementos de la lista, pero no funcionaba bien. Después de googlear un poco y de bucear en los elementos de los elementos de la lista, con este simple código (la primera parte edita la lista, la segunda la unnestea) lo pude resolver:

eph.individual.07$microdata[[2]]$PP04B_COD <-as.double(eph.individual.07$microdata[[2]]$PP04B_COD) 

eph.individual.07$microdata[[4]]$PP04B_COD <- as.double(eph.individual.07$microdata[[4]]$PP04B_COD)

eph.individual.07$microdata[[1]]$PP04B_COD <- as.double(eph.individual.07$microdata[[1]]$PP04B_COD)

eph.individual.07$microdata[[4]]$ESTADO <- as.double(eph.individual.07$microdata[[4]]$ESTADO) 

eph.individual.07$microdata[[4]]$CAT_OCUP <- as.double(eph.individual.07$microdata[[4]]$CAT_OCUP)

eph.individual.07$microdata[[4]]$PP07H <- as.double(eph.individual.07$microdata[[4]]$PP07H)

bases_bind <- eph.individual.07 %>%
  unchop(., cols = c(microdata))

Espero que sirva!

Saludos!

Aglomerados previos a 2006 con errores

Estimados,

Estoy realizando un análisis por aglomerados desde 2003 hasta 2019 y me encontré con que muchas observaciones tienen en la variable aglomerado valor "0". Si bien el análisis lo estoy haciendo para población adulta mayor, por lo que los números que adjunto son solo una parte de las observaciones totales de EPH, también encontré el problema en las bases sin filtrar. Sin filtrar el problema alcanza aproximadamente a la mitad de las observaciones.

Observaciones de población adulta mayor con aglomerado igual a cero:

Espero que les sirva el comentario.
Muchas gracias por desarrollar este paquete, facilita muchisimo el trabajo.
Saludos!

pkgcheck results - master

Checks for eph (v0.6.0)

git hash: 386a41a2

✔️ Package is already on CRAN.
✔️ has a 'codemeta.json' file.
✔️ has a 'contributing' file.
✔️ uses 'roxygen2'.
✔️ 'DESCRIPTION' has a URL field.
✔️ 'DESCRIPTION' has a BugReports field.
✔️ Package has at least one HTML vignette
✔️ All functions have examples.
✔️ Package has continuous integration checks.
✔️ Package coverage is 85.2%.
✔️ R CMD check found no errors.
✔️ R CMD check found no warnings.
👀 Function names are duplicated in other packages

(Checks marked with 👀 may be optionally addressed.)

Package License: MIT + file LICENSE

Armar paneles en la EPH

Hola! Es posible armar paneles cortos en la EPH? Es decir, la EPH primero encuesta dos trimestres a un grupo de personas, luego ese grupo se retira por dos trimestres y vuelve el año siguiente otros dos trimestres más. Por lo que se podría construir un "panel corto" con dos observaciones en un año para un mismo individo y dos observaciones en el siguiente año para el mismo individuo. De esta forma podría estudiar como cambia alguna característica particular de ese individuo de forma interanual.
Entiendo que uno puede "invocar" las eph con el panel

data-> get_microdata(year=2018:2019, trimester = 1:2, type = "individual")

De esta forma tengo datos del primer semestre

Sin embargo, hay forma de ubicar unicamente a los individuos que tengan datos en los dos años para el primer semestre?

Desde ya muchas gracias!

Salida desanidada para la función `get_microdata()`

Pasar del

base_eph <- eph::get_microdata(year = 2020:2021, 
                               trimester = 1:4) %>% 
  dplyr::select(microdata) %>%
  tidyr::unnest(microdata)

base_eph <- eph::get_microdata(year = 2020:2021, 
                               trimester = 1:4)

Que el resultado sea un data.frame / tibble desanidado con todos los años / trimestres de la consulta.

Label de región patagónica

Hola! =) Una cosa muy pava, la región 44 ("Patagonica") está quedando sin label.

ind_1_23$REGION
LABEL: Codigo de Region
VALUES:
44, 44, 44, 44, 44, 44, 44, 44, 44, 44, 43, 43, 43, 43, 43, 43, 43, 43, 43, 43, 43, 41, 41, 41, 41, 41, 41, 41, 41, 41, 41, 41, 41, 43, 43, 40, 44, 44, 44, 44, 44, 44, 44, 44, 44, 44, 44, 44, 44, 44... 50 items printed out of 48638
VALUE LABELS:
1 Gran Buenos Aires
40 Noroeste
41 Nordeste
42 Cuyo
43 Pampeana
Patagonica

Canastas 2S 2022

Paquete EPH: Hola, buen día. ¿Podrían agregar a la serie de canastas regionales, las correspondientes al 2do semestre 2022?. Gracias.

Cálculo de pobreza e indigencia

¿Cómo podría hacer para calcular tasa de pobreza semestral? Yo probé haciendo lo siguiente:
Con get_microdata cargo dos bases trimestrales (por ejemplo T123:T223). Uso el paquete EPH y me salen valores diferentes a los publicados por INDEC. También calculé por trimestre y luego hice una media ponderada y tampoco. Lo que sé es que en la muestra del 1er T y 2do T hay 50% de datos repetidos, eso es por metodología de muestreo, es decir que la mitad de los hogares que fueron encuestados en el 1er T vuelven a ser visitados en el 2do. ¿Podría esto afectar al resultado? Gracias.

get_microdata_internal() not working on v 0.6.0

get_microdata_internal() not working on v0.6.0

datos <- get_microdata_internal(

year = 2008:2022,
trimester = 2,
type = "individual",
vars = c("CODUSU","NRO_HOGAR","CH06","ITF","ANO4")
)
Error in get_microdata_internal(year = 2008:2022, trimester = 2, type = "individual", :
no se pudo encontrar la función "get_microdata_internal"

sessionInfo(package = "eph")
R version 4.1.2 (2021-11-01)
Platform: x86_64-pc-linux-gnu (64-bit)
Running under: Pop!_OS 21.04

Matrix products: default
BLAS: /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.9.0
LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.9.0

locale:
[1] LC_CTYPE=es_AR.UTF-8 LC_NUMERIC=C LC_TIME=es_AR.UTF-8 LC_COLLATE=es_AR.UTF-8
[5] LC_MONETARY=es_AR.UTF-8 LC_MESSAGES=es_AR.UTF-8 LC_PAPER=es_AR.UTF-8 LC_NAME=C
[9] LC_ADDRESS=C LC_TELEPHONE=C LC_MEASUREMENT=es_AR.UTF-8 LC_IDENTIFICATION=C

attached base packages:
character(0)

other attached packages:
[1] eph_0.6.0

loaded via a namespace (and not attached):
[1] pillar_1.9.0 compiler_4.1.2 methods_4.1.2 utils_4.1.2 tools_4.1.2 grDevices_4.1.2
[7] lifecycle_1.0.3 tibble_3.2.1 gtable_0.3.0 pkgconfig_2.0.3 rlang_1.1.1 cli_3.6.1
[13] rstudioapi_0.14 curl_5.0.0 withr_2.5.0 dplyr_1.1.2 httr_1.4.3 stringr_1.5.0
[19] xml2_1.3.3 generics_0.1.3 vctrs_0.6.2 graphics_4.1.2 datasets_4.1.2 stats_4.1.2
[25] attempt_0.3.1 grid_4.1.2 tidyselect_1.2.0 glue_1.6.2 base_4.1.2 R6_2.5.1
[31] fansi_0.5.0 foreign_0.8-84 purrr_1.0.1 tidyr_1.3.0 ggplot2_3.4.2 farver_2.1.0
[37] selectr_0.4-2 magrittr_2.0.3 codetools_0.2-18 scales_1.2.1 assertthat_0.2.1 rvest_1.0.2
[43] colorspace_2.0-2 labeling_0.4.2 utf8_1.2.2 stringi_1.7.6 munsell_0.5.0

expss package should be mandatory

df_hogar <- eph::put_labels_eph(df$base_hogar, base = "hogar")

Error in loadNamespace(name) : there is no package called ‘expss’

After installing expss package everything goes right!

ropensci / eph Goto Github PK

eph's Introduction

eph

Caja de Herramientas para el procesamiento de la Encuesta Permanente de Hogares

Descripción

Instalación

Modo de uso

Cómo citar este paquete

Aportes de la comunidad

eph's People

Contributors

Stargazers

Watchers

Forkers

eph's Issues

Checks for eph (v0.6.0)

Checks for eph (v1.0.2)

Checks for eph (v1.0.1)

Checks for eph (v1.0.0)

Checks for eph (v0.6.1)

Checks for eph (v0.6.0)

Checks for eph (v0.6.1)

Checks for eph (v1.0.0)

Bienvenides 🎉 🎉 🎉

Checks for eph (v0.6.1)

Checks for eph (v0.6.0)

Checks for eph (v0.6.0)

Recommend Projects

Recommend Topics

Recommend Org