- E-MAIL: [email protected]
- PORTIFÓLIO: https://hermannvargens.wixsite.com/dados/portfolio
- MEDIUM: https://medium.com/@hermannvargens
Olá, me chamo Hermann, sou servidor público federal há 11 anos. Embora não atue diretamente na área de dados, sou apaixonado pelo universo dos dados e procuro sempre utilizar o conhecimento e as ferramentas da Análise de Dados e Ciência de Dados em busca de soluções!
Tenho background na área de Engenharia Química e também Física, que me ajudaram a desenvolver as habilidades de pensamento analítico e comunicação.
Amo estudar, e encontrei nas Ciências de Dados a oportunidade de unir matemática e computação pra resolver diferentes tipos de problemas de negócios.
Linguagens de programação e bancos de dados
- Python como foco em análise dados, pacotes como Pandas.
- Web scraping com Python.
- SQL para extração de dados.
Estatística e aprendizado de máquina
- Pacotes de Machine Learning (Sklearn e Scipy).
- Pacotes de análise de dados (Pandas).
- Estatísticas descritivas.
- Técnicas de Seleção, Validação e Otimização de Hiperparâmetros.
Engenharia de software
- Git, GitHub e Ambiente Virtual.
- Streamlit, Flask.
Visualização de dados
- Matplotlib, Seaborn e Plotly.
- Power BI
Este projeto tem como objetivo analisar base de dados de uma empresa de telefonia, que contém informações dos seus clientes, entre elas se o cliente deixou a empresa (churn) e quanto tempo cada um deles permaneceu com a empresa antes de deixá-la, de modo a entender como as características mais relevantes se relacionam com as receitas obtidas pela empresa, e também com o churn rate.
Responderemos tammbém algumas perguntas de negócio através de consulta ao banco de dados, para obter outros insights relevantes.
Finalmente, aplicaremos o algoritmo de clusterização K-Prototypes para segmentar os clientes em diferentes grupos e entender melhor como cada grupo contribui com as receitas e o churn rate da empresa.
Neste projeto, procurarei realizar uma Análise Exploratória mais detalhada do dataset "House Prices - Advanced Regression Techniques", obtido no link "https://www.kaggle.com/c/house-prices-advanced-regression-techniques".
Este conjunto se constitui em 79 features, que é considerado um número razoavelmente alto, de onde podem se obter informações diversas.
Procuraremos realizar uma análise voltada a entender cada tipo de variável, bem como analisar graficamente cada uma.
Ao final, analisaremos ainda, algumas das principais características dos outliers.
Esta é a segunda parte do projeto relacionado ao dataset de competição do Kaggle "House Prices - Advanced Regression Techniques", que teve como objetivos:
Analisar e comparar o desempenho de 4 modelos de Machine Learning (Regressão Linear, Random Forest Regressor, KNN Regressor e Support Vector Regression).
Otimizar cada modelo através do tuning dos respectivos hiperparâmetros, analisando de que forma eles impactam no desempenho.
Utilizar a técnica de Stacking Generalization, para combinar todas as predições de forma a encontrar um modelo cujo desempenho supere todos os outros modelos individualmente.
Neste projeto, o utilizei o conhecido dataset da competição do Titanic, obtido do Kaggle, para realizar Análise Exploratória de Dados, e responder algumas perguntas sobre o dataset. Utilizei a biblioteca Altair para visualização de gráficos, a qual também fornece ferramentas de interatividade. Para a modelagem empreguei o Random Forest Classifier, e otimizei os parâmetros com o GridSearchCV.
This capstone was needed to complete the IBM-Coursera Data Science course. The aim was to predict whether a rocket would land successfully or not. I used BeautifulSoup for Web Scrap data, I did Exploratory Data Analysis with SQL and Pandas, Data Visualization with Matplolib, Seaborn and Folium, I created a dashboard using Plotly and finally I used some Machine Learning models to classify the rocket launches.