Git Product home page Git Product logo

extracaodadoscnpj's Introduction

🚀 Utilizando o Spark no Windows

fonte

📋 Pré-requisitos

Passo 1 - Instalando o Java

O PySpark requer a instalação do Java na versão 7 ou superior. Obtenha a versão mais recente clicando aqui. Para verificar a versão que está instalada em sua máquina execute a seguinte linha de código no seu prompt:

java -version

Passo 2 - Instalando o Python

O Python deve ser instalado em sua versão 2.6 ou superior. Para obter a versão mais recente clique aqui. Para verificar a versão do Python que está instalada em sua máquina digite o seguinte comando em seu prompt:

python --version

Passo 3 - Instalando o Apache Spark

Selecione a versão mais estável clicando aqui. Na criação deste projeto utilizamos a versão do Spark 3.1.2 e como tipo de pacote selecionamos Pre-built for Apache Hadoop 2.7.

Para instalar o Apache Spark não é necessário executar um instalador, basta descomprimir os arquivos em uma pasta de sua escolha.

Obs.: certifique-se de que o caminho onde os arquivos do Spark foram armazenados não contenham espaços (ex.: "C:\spark\spark-3.1.2-bin-hadoop2.7").

Para testar o funcionamento do Spark execute os comandos abaixo em seu prompt de comando. Esses comandos assumem que você extraiu os arquivos do Spark na pasta "C:\spark".

cd C:\spark\spark-3.1.2-bin-hadoop2.7 bin\pyspark O comando acima inicia o shell do PySpark que permite trabalhar interativamente com o Spark.

Para sair basta digitar exit() e logo depois presionar Enter. Para voltar ao prompt pressione Enter novamente.

Passo 4 - Instalando o findspark

pip install findspark

Passo 5 - Instalando o winutils

Os arquivos do Spark não incluem o utilitário winutils.exe que é utilizado pelo Spark no Windows. Se não informar onde o Spark deve procurar este utilitário, veremos alguns erros no console e também não conseguiremos executar scripts Python utilizando o utilitário spark-submit.

Faça o download para a versão do Hadoop para a qual sua instalação do Spark foi construída. Em nosso exemplo foi utilizada a versão 2.7. Faça o download apenas do arquivo winutils.exe.

Crie a pasta "hadoop\bin" dentro da pasta que contém os arquivos do Spark (em nosso exemplo "C:\spark\spark-3.1.2-bin-hadoop2.7") e copie o arquivo winutils.exe para dentro desta pasta.

Crie duas variáveis de ambiente no seu Windows. A primeira chamada SPARK_HOME que aponta para a pasta onde os arquivos Spark foram armazenados (em nosso exemplo "C:\spark\spark-3.1.2-bin-hadoop2.7"). A segunda chamada HADOOP_HOME que aponta para %SPARK_HOME%\hadoop (assim podemos modificar SPARK_HOME sem precisar alterar HADOOP_HOME).

🛠️ Projeto

Nosso projeto consiste em ler, manipular, tratar e salvar um conjunto de dados volumosos utilizando como ferramenta o Spark.

Carregamento de dados

Dados Públicos CNPJ

Receita Federal

Fonte original dos dados

⌨️ 🚀 por River Diniz 🧑‍🚀

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.