O PySpark requer a instalação do Java na versão 7 ou superior. Obtenha a versão mais recente clicando aqui. Para verificar a versão que está instalada em sua máquina execute a seguinte linha de código no seu prompt:
java -version
O Python deve ser instalado em sua versão 2.6 ou superior. Para obter a versão mais recente clique aqui. Para verificar a versão do Python que está instalada em sua máquina digite o seguinte comando em seu prompt:
python --version
Selecione a versão mais estável clicando aqui. Na criação deste projeto utilizamos a versão do Spark 3.1.2 e como tipo de pacote selecionamos Pre-built for Apache Hadoop 2.7.
Para instalar o Apache Spark não é necessário executar um instalador, basta descomprimir os arquivos em uma pasta de sua escolha.
Obs.: certifique-se de que o caminho onde os arquivos do Spark foram armazenados não contenham espaços (ex.: "C:\spark\spark-3.1.2-bin-hadoop2.7").
Para testar o funcionamento do Spark execute os comandos abaixo em seu prompt de comando. Esses comandos assumem que você extraiu os arquivos do Spark na pasta "C:\spark".
cd C:\spark\spark-3.1.2-bin-hadoop2.7 bin\pyspark O comando acima inicia o shell do PySpark que permite trabalhar interativamente com o Spark.
Para sair basta digitar exit() e logo depois presionar Enter. Para voltar ao prompt pressione Enter novamente.
pip install findspark
Os arquivos do Spark não incluem o utilitário winutils.exe que é utilizado pelo Spark no Windows. Se não informar onde o Spark deve procurar este utilitário, veremos alguns erros no console e também não conseguiremos executar scripts Python utilizando o utilitário spark-submit.
Faça o download para a versão do Hadoop para a qual sua instalação do Spark foi construída. Em nosso exemplo foi utilizada a versão 2.7. Faça o download apenas do arquivo winutils.exe.
Crie a pasta "hadoop\bin" dentro da pasta que contém os arquivos do Spark (em nosso exemplo "C:\spark\spark-3.1.2-bin-hadoop2.7") e copie o arquivo winutils.exe para dentro desta pasta.
Crie duas variáveis de ambiente no seu Windows. A primeira chamada SPARK_HOME que aponta para a pasta onde os arquivos Spark foram armazenados (em nosso exemplo "C:\spark\spark-3.1.2-bin-hadoop2.7"). A segunda chamada HADOOP_HOME que aponta para %SPARK_HOME%\hadoop (assim podemos modificar SPARK_HOME sem precisar alterar HADOOP_HOME).
Nosso projeto consiste em ler, manipular, tratar e salvar um conjunto de dados volumosos utilizando como ferramenta o Spark.
Carregamento de dados
Dados Públicos CNPJ
Receita Federal
⌨️ 🚀 por River Diniz 🧑🚀