🚀 Utilizando o Spark no Windows

📋 Pré-requisitos

Passo 1 - Instalando o Java

O PySpark requer a instalação do Java na versão 7 ou superior. Obtenha a versão mais recente clicando aqui. Para verificar a versão que está instalada em sua máquina execute a seguinte linha de código no seu prompt:

java -version

Passo 2 - Instalando o Python

O Python deve ser instalado em sua versão 2.6 ou superior. Para obter a versão mais recente clique aqui. Para verificar a versão do Python que está instalada em sua máquina digite o seguinte comando em seu prompt:

python --version

Passo 3 - Instalando o Apache Spark

Selecione a versão mais estável clicando aqui. Na criação deste projeto utilizamos a versão do Spark 3.1.2 e como tipo de pacote selecionamos Pre-built for Apache Hadoop 2.7.

Para instalar o Apache Spark não é necessário executar um instalador, basta descomprimir os arquivos em uma pasta de sua escolha.

Obs.: certifique-se de que o caminho onde os arquivos do Spark foram armazenados não contenham espaços (ex.: "C:\spark\spark-3.1.2-bin-hadoop2.7").

Para testar o funcionamento do Spark execute os comandos abaixo em seu prompt de comando. Esses comandos assumem que você extraiu os arquivos do Spark na pasta "C:\spark".

cd C:\spark\spark-3.1.2-bin-hadoop2.7 bin\pyspark O comando acima inicia o shell do PySpark que permite trabalhar interativamente com o Spark.

Para sair basta digitar exit() e logo depois presionar Enter. Para voltar ao prompt pressione Enter novamente.

Passo 4 - Instalando o findspark

pip install findspark

Passo 5 - Instalando o winutils

Os arquivos do Spark não incluem o utilitário winutils.exe que é utilizado pelo Spark no Windows. Se não informar onde o Spark deve procurar este utilitário, veremos alguns erros no console e também não conseguiremos executar scripts Python utilizando o utilitário spark-submit.

Faça o download para a versão do Hadoop para a qual sua instalação do Spark foi construída. Em nosso exemplo foi utilizada a versão 2.7. Faça o download apenas do arquivo winutils.exe.

Crie a pasta "hadoop\bin" dentro da pasta que contém os arquivos do Spark (em nosso exemplo "C:\spark\spark-3.1.2-bin-hadoop2.7") e copie o arquivo winutils.exe para dentro desta pasta.

Crie duas variáveis de ambiente no seu Windows. A primeira chamada SPARK_HOME que aponta para a pasta onde os arquivos Spark foram armazenados (em nosso exemplo "C:\spark\spark-3.1.2-bin-hadoop2.7"). A segunda chamada HADOOP_HOME que aponta para %SPARK_HOME%\hadoop (assim podemos modificar SPARK_HOME sem precisar alterar HADOOP_HOME).

🛠️ Projeto

Nosso projeto consiste em ler, manipular, tratar e salvar um conjunto de dados volumosos utilizando como ferramenta o Spark.

Carregamento de dados

Dados Públicos CNPJ

Receita Federal

Fonte original dos dados

⌨️ 🚀 por River Diniz 🧑‍🚀

riversdiniz / extracaodadoscnpj Goto Github PK

extracaodadoscnpj's Introduction

🚀 Utilizando o Spark no Windows

📋 Pré-requisitos

Passo 1 - Instalando o Java

Passo 2 - Instalando o Python

Passo 3 - Instalando o Apache Spark

Passo 4 - Instalando o findspark

Passo 5 - Instalando o winutils

🛠️ Projeto

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent