O projeto foi dividido em dois níveis, básico e avançado.
Recomendo fortemente fazer primeiro o básico e se sobrar tempo, pode aventurar no avançado.
Os exercícios podem ser feitos em qualquer linguagem e todas as questões são bem abertas, tendo várias formas de serem realizadas e interpretadas, pois a idéia é não termos projetos iguais.
O projeto deve estar no github.com, a forma de organizar o conteúdo é por sua conta, caso nunca tenha usado, este já é seu primeiro desafio.
Ao final do projeto você precisa preencher o formulário com o seu nome completo, email utilizado no treinamento e o link do github do seu projeto.
- Nivel Basico
- Nivel Avançado
Dados: PAINEL COVID
- Enviar os dados para o hdfs
- Otimizar todos os dados do hdfs para uma tabela Hive particionada por município.
- Criar as 3 vizualizações pelo Spark com os dados enviados para o HDFS
- Salvar a primeira visualização como tabela Hive
- Salvar a segunda visualização com formato parquet e compressão snappy
- Salvar a terceira visualização em um tópico no Kafka
- Criar a visualização pelo Spark com os dados enviados para o HDFS:
Replicar as visualizações do site “https://covid.saude.gov.br/”, porém acessando diretamente a API de Elastic.
Link oficial para todas as informações: https://opendatasus.saude.gov.br/dataset/covid-19-vacinacao
• URL https://imunizacao-es.saude.gov.br/desc-imunizacao
• Nome do índice: desc-imunizacao
• Credenciais de acesso
o Usuário: xxxx
o Senha: xxxxx
• Consumo do API: https://opendatasus.saude.gov.br/dataset/b772ee55-07cd-44d8-958fb12edd004e0b/resource/5916b3a4-81e7-4ad5-adb6-b884ff198dc1/download/manual_api_vacina_covid-19.pdf