Git Product home page Git Product logo

iniciacao-cientifica's Introduction

Primeiros Passos - POF 2017-2018

Em meu último ano de graduação participei de um projeto de pesquisa como bolsista orientado pela profª Valeria Lucia Pero, do Instituto de Economia da UFRJ, intitulado "Urban Mobility, Transportation Expenditures and Gender Gap in Brazil". O projeto busca investigar a participação do gasto com transporte na despesa das famílias brasileiras residentes em metrópoles. Para tanto, utilizamos a Pesquisa de Orçamentos Familiares, edição 2017-2018, do IBGE. Como encontrei pouco material prático sobre a pesquisa e o pacote para manipulação em R ainda está em desenvolvimento, pretendo concentrar aqui o passo-a-passo do que fiz para extrair informações iniciais dos dados. A POF é uma pesquisa complexa, e não sou especialista nela. Correções e sugestões são muitíssimo bem-vindas. Espero que possa ajudar de alguma forma.

Página oficial da pesquisa onde pode ser encontrado informações sobre seu histórico e dados de edições anteriores.

Entendendo a POF

Uma boa leitura para entender a estrutura da pesquisa é ler o documento Primeiros Resultados do IBGE. Ele apresenta a pesquisa, sua estrutura, os conceitos importantes e realiza uma análise descritiva inicial dos dados.

Aquisição dos Dados

O IBGE fornece juntamente com os microdados uma série de arquivos de suporte e documentação. Eles estão organizados em seis pastas: Dados, Documentação, Questionários, Tradutores das Tabelas, Programas de Leitura e Memória de Cálculo. O arquivo Leia-me contém a descrição dessas pastas. Um dos arquivos mais importantes é o Dicionário de Variáveis que pode ser encontrado na pasta "Documentação", ou aqui.

Progamas de Leituras

Na pasta Programas de Leituras encontra-se a pasta R, que contém o arquivo Leitura dos Microdados - R. Esse arquivo gerará os arquivos RDS que contém as informações da pesquisa e serão utilizados para gerar o arquivo com as despesas categorizadas.

Memória de Cálculo

Nessa pasta, dentro pasta R, encontram-se scripts que permitem gerar alguns resultados agregados sobre a pesquisa. Utilizei os dados gerados pelo arquivo Tabela de Despesa Geral.R como base do meu trabalho. Esse arquivo gera uma tabela com a despesa média nacional por categoria, o que não era meu objetivo, visto que tinha a necessidade de investigar outros níveis de agregação. Porém, entender esse script é fundamental. Leia-o com atenção, tentando entender o passo-a-passo realizado. Sugiro que vá executando-o por blocos. O algoritmo está extensamente comentado e são utlizadas apenas funções base do R, praticamente.

Gerar Meu Dataset

Para o propósito da minha pesquisa, precisei realizar algumas alterações nesse script "Tabela de Despesa Geral.R", para fazer as agregações que eram convenientes para mim. Esse arquivo é o Gerar Meu DataSet.R. Meu objetivo era ver a despesa média com transporte para as diferentes regiões metropolitanas. Para tanto, era preciso construir uma lista de todas as despesas categorizadas. A documentação anteriormente mencionada apresenta essas categorias, em especial o documento "Primeiros Resultados".

Além disso, eu precisava ter o local dessas despesas (UF, URBANO/RURAL, CAPITAL/RESTO DA RM). Essa informação pode ser obtida pela variável "ESTRATO_POF". Contudo, o arquivo que traduz os estratos, não está em um formato adequado para uma operação de join ("Estratos POF 2017-2018.xls", presente na pasta "Documentação", ou aqui). Editei manualmente este arquivo (a versão modificada pode ser encontrada aqui, de forma a utilizá-lo para gerar uma lista de estratos utilizando um algoritmo R. Assim, de forma a incorporar os estratos corretamente, você deve:

  1. Baixar o arquivo Tradutor_Estratos.csv
  2. Baixar e executar o algoritmo Gerar Tradutor de Estratos.R

Esse procedimento gerará o arquivo Tradutor Estratos.RDS que será usado no algoritmo Gerar Meu DataSet.R.

"Gerar Meu DataSet.R" é o arquivo principal dessa parte. Ao executá-lo será gerada uma lista de despesas categorizadas e já com os devidos códigos e dos estratos. Será gerado o arquivo "POF_despesas.rds" e a partir dele podemos iniciaremos nosso processo de limpeza e organização dos dados.

Limpeza dos Dados

Nessa etapa eu realizei um exercício de organização dos dados, corrigindo classe das variáveis, trocando nomes de colunas, criando algumas variáveis categóricas a partir de varíaveis contínuas (classes de rendimento a partir da renda). Nessa etapa utilizei o arquivo auxiliar Minhas Variáveis.csv e Indice_Despesa.csv para substituir o o código da despesa pelo seu nome. Assim:

  1. Baixe o arquivo Indice_Despesa.csv
  2. Baixe o arquivo Minhas Variáveis.csv
  3. Baixe e execute o arquivo Data Cleaning POF.r

Após executar esses passos teremos o arquivo POF.rds pronto para ser analisado!

Exploração dos Dados

Se você leu todos os arquivos que sugeri e compreendeu os algoritmos deve ter percebido que cada família na POF tem um peso. Para podermos gerar as despesas médias para os níveis geográficos de interesses, devemos atentar para o fato de que sempre precisaremos dividir a soma das despesas que estamos interessados pelo peso das famílias a que essas despesas estão associadas. (IMPORTANTE! Essa não é uma definição precisa do que é feito, estou escrevendo de forma a tornar prático os procedimentos. Sempre que possível procure fontes do IBGE para definições precisas de "peso", "família", "domicílio", "nível de agregação" e outros conceitos importantes. Mais uma vez destaco que o "Primeiros Resultados" é uma fonte importante de consulta".

O arquivo Data Exploring POF.R contém alguns exemplos de cálculos de médias que podem ser úteis para entender a lógica utilizada.

iniciacao-cientifica's People

Contributors

paulobistenealexandrino avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.