Analytics Portfolio

My DataScience Portfolio

1. Machine Learning

El proyecto que se describe a continuación tiene por objetivo la predicción de una variable continua Importe Total Factura mediante el uso de diversos algoritmos de regresión en combinación con diferentes configuraciones de hiperparámetros. Los principales algoritmos que se han utilizado son:

Multiple linear regression
SVR regressor
Random Forest regressor
Ensemble Voting regressor
Gradient Boosting
ADABoost
XGBoost
Stacking Regressor
MLP Regressor

En el siguiente gráfico se puede observar, comparativamente, los resultados de los diferentes algoritmos de ML basado en el coeficiente de determinación (R2)

El proyecto aborda todas la etapas de un proyecto de datascience: entendimiento de la necesidad del negocio, comprensión de los datos, preprocesamiento de datos, evaluación de algoritmos, evaluación de resultados

Visitar notebook de machine learning

2. Data Visualization

Actualmente vengo trabajando en un par de iniciativas de visualización de datos: El primero de ellos tiene que ver con el uso de Dash de plotly. Y un segundo relacionado a visualización geo-espacial (GIS)

Muy aparte de lo mencionado anteriormente, he utilizado la librería de IPYWidgets para dotar de interactividad a los gráficos que se utilizan regularmente para el análisis exploratorio de datos: heatmaps, boxplots, scatterplots, pairplots, etc. De este modo, el usuario del negocio puede realizar un analisis dinámico y focalizado a través de controles como: range slider, combobox, radiobutton, label, etc.

En la siguiente figura se puede observar que el usuario tiene disponible la opción de utilizar un slider para modificar el rango de la variable Cuota C.U y observar como los gráficos se van ajustando a su criterio de análisis de forma dinámica

Para el análisis dinámico de correlación con el apoyo visual de un heatmap, el usuario cuenta con 2 sliders: uno para la variable target Importe Total Factura S/. y el otro para Cuota C.U

Para este último caso, el usuario cuenta con más opciones para el análisis dinámico de la distribución de las variables numéricas mediante el uso de boxplots: combobox para la selección de variables a analizar, slider dinámico en función a la variable seleccionada en el combobox, radiobutton para descartar o no la presencia de outliers en los boxplots

Cada una de las gráficas anteriores se encuentran contenidas en diferentes tabs o pestañas, de esta manera el usuario tiene una visualización más ordenada de las opciones que tiene disponibles para iniciar su proceso exploratorio de datos, sin que la excesiva aparición de controles lo intimide.

Tópicos: Geolocalizacion, Dashboard, Frontend, IPYWidgets, User interaction

3. Time Series

El análisis y modelado de series temporales viene captando el interés de las empresas que buscan optimizar sus predicciones en base a información histórica temporal como pueden ser sus ventas que, muchas veces, presentan estacionalidad.

En el siguiente gráfico se muestra la tendencia de búsquedas en Google sobre este tópico en los últimos 5 años

A continuación muestro algunos de los modelos que he venido trabajando en analisis de series temporales

Análisis Univariado

ARIMA

Presentación del modelo autoregresivo integrado con medias móviles.

Visitar notebook de ARIMA

SARIMA

Presentación de la generalización del modelo ARIMA con el componente estacional

Visitar notebook de SARIMA

Análisis Multivariado

VAR

Presentación del modelo autoregresivo con más de una serie temporal.

Visitar notebook de VAR

Tópicos: Stationarity, Seasonality, ADF, Log transformation, Box-cox transformation, Autocorrelation, Partial Autocorrelation

4. Data Mining

Resulta útil, sobre en todo en negocios con una alta transaccionalidad comercial como el caso de los retailers, la posibilidad de poder identificar patrones, por ejemplo, artículos que tienen una alta frecuencia de rotación conjunta. Esta información resulta en importantes insights para determinar los patrones de compra de los clientes y en base a ello diseñar, por ejemplo, estrategias de ventas cruzadas o publicidad focalizada en parte del portafolio de productos.

Problem Statement

Se cuenta con una empresa de consumo masivo que desea identificar patrones de consumo a partir de la data transaccional de las ventas a sus clientes. A partir de esta iniciativa podrá identificar cuáles son las combinaciones de productos con mayor frecuencia de venta y como se afecta la compra de un producto en función a otros.

La siguiente gráfica muestra la solución al problema planteado: se identifica claramente patrones de consumo con un nivel de certeza específico y con un umbral de frecuencia relevante mínimo. La primera línea del cuadro se puede interpretar de la siguiente manera: Todos aquellos clientes que compran el item 7 han comprado también el item 20 con una frecuencia de 9 veces y con un nivel de confianza de 81.82%, es decir que esas 9 veces del patrón 7->20, corresponde al 81.82% de todas las compras del item 7

Visitar notebook de datamining

Tópicos: Data pattern, insights, itemsets, association rules

5. Sentiment Analysis

Problem Statement

A finales del mes de Junio, a raiz de la crisis sanitaria producto del COVID-19, se cuestionó que las clínicas privadas en Perú cobraban exorbitantes sumas por el tratamiento de pacientes infectados por el COVID-19 y que no tenían seguro privado. Ante esto el gobierno del Perú dio un ultimatum a las clínicas para llegar un acuerdo sobre las tarifas solidarias a cobrar por el tratamiento de pacientes con COVID-19. Ante esto se plantea conocer la percepción de la gente, su posición acerca de los anuncios dados por el gobierno sin necesidad de esperar una encuesta que tomaría más tiempo y recursos.

En la siguiente gráfica se puede apreciar la nube de palabras predominantes en twitter sobre el acuerdo del gobierno con las clínicas privadas durante la crisis del COVID-19.

La curva ROC que se muestra a continuación muestra la relacion entre la tasa de verdaderos positivos (TPR) y falsos positivos (FPR) y la performance del modelo de clasificación para diferentes valores de thresholds.

Visitar notebook de sentiment analysis

Tópicos: NLP, Bag of words, TFIDF, API Twitter, Naive Bayes, Logistic Regression

6. Exploratory Data Analysis

En análisis exploratorio de datos que se muestra a continuación se basa en el análisis descriptivo de la información de un dataset que permita el mayor entendimiento posible sobre la data mediante el uso de elementos gráficos como: diagrama de barras, boxplot, heatmaps, entre otros

Tópicos: Plotting, Boxplot, Correlation, R

rasecotineb / datascience Goto Github PK

datascience's Introduction

Analytics Portfolio

1. Machine Learning

2. Data Visualization

3. Time Series

Análisis Univariado

Análisis Multivariado

4. Data Mining

Problem Statement

5. Sentiment Analysis

Problem Statement

6. Exploratory Data Analysis

datascience's People

Contributors

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent