Este repositório apresenta um setup inicial para utilização do Apache Spark. É importante notar que o conteúdo abordado aqui é apenas o ponto de partida, e o Apache Spark oferece uma ampla gama de funcionalidades para processamento de dados em grande escala.
Os dados fazem parte de um dos trabalhos executados durante o curso de Engenheiro de dados Cloud da XP Educação
Para aproveitar ao máximo este repositório, é recomendado:
- Ter acesso ao Google Colab
- Ter noção de lógica de programação
- Ter conhecimento básico de estrutura de dados
- Familiaridade com SQL, em particular, operações de agrupamento
- Conhecimento em Python
- Clone o repositório em seu ambiente local
- Baixe os arquivos e carrgue no seu projeto
- Execute o notebook
-
Quantos filmes (incluindo os da televisão) foram lançados no ano de 2015?
Resposta: 19987 -
Qual o gênero de títulos mais frequente?
Resposta: Drama -
Qual o gênero com a melhor nota média de títulos?
Resposta: History -
Qual o vídeo game do gênero aventura mais bem avaliado em 2020?
Resposta: Half-Life: Alyx -
Quantos títulos de filmes diferentes existem?
Resposta: 3931670 -
Qual a duração média dos filmes com conteúdo adulto?
Resposta: 92,79 minutos -
Quantos filmes têm o título atual (“primary”) diferente do título original?
Resposta: 125056 -
Qual o filme que tem o nome mais longo?
Resposta: tt12985206 -
Qual filme tem a maior quantidade de votos?
Resposta: tt0111161 -
Qual é a menor nota média de um filme?
Resposta: 1.0