The bs4-crawler-mercadolivre from pedrowill-dev

RESUMO: Utilizando a Biblioteca Beautiful Soup para Web Scraping

Introdução à Biblioteca Beautiful Soup
- Propósito: Extrair informações de páginas da web
- Exemplo: Coletando dados do site do Mercado Livre
https://www.crummy.com/software/BeautifulSoup/bs4/doc.ptbr/
Definindo Valores para Extrair
1. Identificar os valores a serem extraídos (por exemplo, título, preço, avaliação)
2. Escolher uma classe pai que contenha esses valores
Configurando o Código
1. Importar bibliotecas necessárias: Beautiful Soup, pandas, requests, regex
```
 import re
 import requests
 import bs4
 import pandas as pd
```
1. Fazer uma requisição para obter o conteúdo do site
```
 response = requests.get(host).content
```
Extraindo Informações
1. Recuperar informações de título para testar a funcionalidade
2. Usar métodos como find_all para localizar elementos específicos com base em valores de classe
```
container_items = soup.find_all("div", class_="ui-search-result__content-wrapper")
```

Processamento de Dados

Definir funções para processar e retornar os dados extraídos
Utilizar regex para extrair informações de preço e avaliação

   
 def add_product(texto):
   # Expressões regulares para extrair o título, preço e avaliação
   regex_preco = r'R\$(\d+\.?\d*)'

   # Encontrar correspondências usando regex
   titulo = texto.split('por ')[0]
   preco = re.search(regex_preco, texto).group(1)
   try:
       avaliacao =  re.search(r'\((\d+)\)', texto).group(1)
       avaliacao = avaliacao.replace('(', '').replace(')', '')
   except:
       avaliacao = 0


   return {
       'title': titulo,
       'price': float(preco),
       'assessment': int(avaliacao)
   }

Criando um DataFrame
1. Armazenar os dados extraídos em uma lista para conversão em DataFrame
```
  for item in container_items:

   data.append(add_product(item.text))
```
1. Converter a lista em um DataFrame para facilitar a manipulação de dados
```
df = pd.DataFrame(data)
```

Filtrar os dados

Realizar filtragem de dados (por exemplo, filtrar avaliações diferentes de zero)

df = df.query('assessment >= 1000')
df = df.query('price >= 1.000')

Conduzir análises adicionais ou métricas sobre os dados extraídos

import matplotlib.pyplot as plt

 df = df.sort_values(by='price', ascending=False)
 
 # Criando o gráfico de barras
 plt.figure(figsize=(12, 6))
 plt.barh(df['title'], df['price'], color='skyblue')
 plt.xlabel('Preço (R$)')
 plt.ylabel('Produto')
 plt.title('Preços das Geladeiras')
 plt.gca().invert_yaxis()  # Inverter a ordem dos itens para o mais caro aparecer primeiro
 plt.show()

Visualização verticial dos valores X e Y, preço e produto da nossa extração!

Conclusão
1. Apresentar o DataFrame gerado
2. Demonstrar capacidades de filtragem e análise de dados
3. Destacar o potencial para análises ou métricas adicionais utilizando os dados extraídos

pedrowill-dev / bs4-crawler-mercadolivre Goto Github PK

bs4-crawler-mercadolivre's Introduction

RESUMO: Utilizando a Biblioteca Beautiful Soup para Web Scraping

bs4-crawler-mercadolivre's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent