Git Product home page Git Product logo

everton_e_marcosleandro's Introduction

MapRecude

Equipe

Atividade: Encontrar as 1500 palavras mais usadas em 1 determinado livro.

Requisitos

  • Instalar o python3
  • Instalar o bs4
  • Configurar no arquivos "extract_text.py" o caminho do diretório do livro, o diretório de saída e o nome do arquivo de saída

O script pode ser executada de duas formas:

Forma 1:
  • Executar os seguintes comandos no terminal no diretório dos arquivos
python3.4 extract_text.py
cat livros.txt | python  map.py | sort | python reduce.py > output.txt
  • Visualizar o arquivo de saída "output.txt" no diretório dos arquivos
Linha Descrição
Linha 1 extrai e salva somente o conteúdo do livro em um novo arquivo
Linha 2 pega o arquivo gerado faz o "map", o "reduce" e salva no arquivo de saída
Forma 2:
  • Executar os seguintes comandos no terminal no diretório dos arquivos
python3.4 extract_text.py
hdfs dfs -put /home/cloudera/Documents/python/livros.txt /user/cloudera/arquivos/
hadoop  jar /usr/lib/hadoop-mapreduce/hadoop-streaming-*.jar     
        -D mapred.job.name="Hadoop_Streaming_UP"
        -mapper "python /home/cloudera/Documents/python/map.py"
        -reducer "python /home/cloudera/Documents/python/reduce.py"
        -input "arquivos/livrosForHdfs.txt"
        -output "arquivos/saidaHdfs"
  • Visualizar dentro do hdfs o arquivo de saída
Linha Descrição
Linha 1 extrai e salva somente o conteúdo do livro em um novo arquivo
Linha 2 coloca o arquivo gerado dentro do hdfs
Linha 3 Comando para executar o map reduce
Linha 3: Parâmetro 1 biblioteca hadoop-streaming-*.jar
Linha 3: Parâmetro 2 define um nome para o job
Linha 3: Parâmetro 3 seleciona o arquivo de map
Linha 3: Parâmetro 4 seleciona o arquivo de reduce
Linha 3: Parâmetro 5 arquivo de entrada dentro do hdfs
Linha 3: Parâmetro 6 diretório de saída dentro do hdfs

Obs.: A diferença entre as duas formas é que a primeira executa o map reducer sem utilizar o hdfs, já a segunda utiliza o streaming do hdfs.

everton_e_marcosleandro's People

Contributors

marcos-leandro avatar

Watchers

ALESSANDRO DE OLIVEIRA BINHARA avatar James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.