Git Product home page Git Product logo

edc-m4-desafio's Introduction

edc-m4-desafio


IGTI

MBA em Engenharia de Dados

Bootcamp - Engenheiro de dados Cloud

Módulo 4 - DDE Desenho de arquiteturas de dados escaláveis


Desafio do Bootcamp

Os alunos deverão desempenhar as seguintes atividades:

  1. Criar um cluster Kubernetes para a realização das atividades (local ou baseado em nuvem). Recomendamos utilizar um cluster baseado em nuvem para comportar o volume de dados trabalhado.

  2. Realizar a instalação e configuração do Spark Operator conforme instruções de aulas.

  3. Realizar a instalação e configuração de outas ferramentas que se deseje utilizar (Airflow, Argo CD etc).

  4. Realizar a ingestão dos dados do Enade 2017 no AWS S3 ou outro storage de nuvem de sua escolha.
    Dados disponíveis em: https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enade
    Os dados devem ser ingeridos de maneira automatizada na zona raw, zona crua ou zona bronze do seu Data Lake.

  5. Utilizar o SparkOperator no Kubernetes para transformar os dados no formato parquet e escrevê-los na zona staging ou zona silver do seu data lake.

  6. Fazer a integração com alguma engine de data lake. No caso da AWS, você deve:
    a. Configurar um Crawler para a pasta onde os arquivos na staging estão depositados.
    b. Validar a disponibilização no Athena.

  7. Caso deseje utilizar o Google, disponibilize os dados para consulta usando o Big Query. Caso utilize outra nuvem, a escolha da engine de Data Lake é livre.

  8. Use a ferramenta de Big Data ou a engine de Data Lake (ou o BigQuery, se escolher trabalhar com Google Cloud) para investigar os dados e responder às perguntas do desafio.

  9. Quando o desenho da arquitetura estiver pronto, crie um repositório no Github (ou Gitlab, ou Bitbucket, ou outro de sua escolha) e coloque os códigos de processos Python e implantação da estrutura Kubernetes.


Execução

Criar cluster eks

Instalar airflow

Instalar spark

Preparar DAGS e fluxo no Airflow

Fluxo de execução do DAG

  • enade_converte_parquet >>
  • enade_converte_parquet_sensor >>
  • create_and_trigger_crawler_enade

Efetuar consultas no Athena


Todo o código foi baseado no repositório:
https://github.com/neylsoncrepalde/edc_mod4_exercise_igti

https://www.cncf.io/blog/2021/01/20/spark-operator-and-s3-4-integration-steps-to-operator-flames/

https://stackoverflow.com/questions/34209196/amazon-s3a-returns-400-bad-request-with-spark

https://github.com/GoogleCloudPlatform/spark-on-k8s-operator/blob/master/docs/user-guide.md

edc-m4-desafio's People

Contributors

andersonesanto avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.