Projeto Final de Spark

O projeto foi dividido em dois níveis, básico e avançado.

Recomendo fortemente fazer primeiro o básico e se sobrar tempo, pode aventurar no avançado.

Os exercícios podem ser feitos em qualquer linguagem e todas as questões são bem abertas, tendo várias formas de serem realizadas e interpretadas, pois a idéia é não termos projetos iguais.

O projeto deve estar no github.com, a forma de organizar o conteúdo é por sua conta, caso nunca tenha usado, este já é seu primeiro desafio.

Ao final do projeto você precisa preencher o formulário com o seu nome completo, email utilizado no treinamento e o link do github do seu projeto.

Notebooks

Nivel Basico
Nivel Avançado

Campanha Nacional de Vacinação contra Covid-19

Nível Básico:

Dados: PAINEL COVID

Referência das Visualizações:

Site: https://covid.saude.gov.br/

Guia do Site: Painel Geral

Etapas

Enviar os dados para o hdfs
Otimizar todos os dados do hdfs para uma tabela Hive particionada por município.
Criar as 3 vizualizações pelo Spark com os dados enviados para o HDFS
Salvar a primeira visualização como tabela Hive
Salvar a segunda visualização com formato parquet e compressão snappy
Salvar a terceira visualização em um tópico no Kafka
Criar a visualização pelo Spark com os dados enviados para o HDFS:

Nível Avançado:

Replicar as visualizações do site “https://covid.saude.gov.br/”, porém acessando diretamente a API de Elastic.

Link oficial para todas as informações: https://opendatasus.saude.gov.br/dataset/covid-19-vacinacao

Informações para se conectar ao cluster:

• URL https://imunizacao-es.saude.gov.br/desc-imunizacao

• Nome do índice: desc-imunizacao

• Credenciais de acesso

o Usuário: xxxx
o Senha: xxxxx

Links utéis para a resolução do problema:

• Consumo do API: https://opendatasus.saude.gov.br/dataset/b772ee55-07cd-44d8-958fb12edd004e0b/resource/5916b3a4-81e7-4ad5-adb6-b884ff198dc1/download/manual_api_vacina_covid-19.pdf

Conexão do Spark com Elastic:

Instalar Dependências:

https://www.elastic.co/guide/en/elasticsearch/hadoop/current/install.html

marcelosouzadias / semantix_spark Goto Github PK

semantix_spark's Introduction

Projeto Final de Spark

Notebooks

Campanha Nacional de Vacinação contra Covid-19

Nível Básico:

Referência das Visualizações:

Site: https://covid.saude.gov.br/

Guia do Site: Painel Geral

Etapas

Nível Avançado:

Informações para se conectar ao cluster:

Links utéis para a resolução do problema:

Conexão do Spark com Elastic:

Instalar Dependências:

semantix_spark's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent