Lenguaje: Python.
Librerias: numpy, regex, pandas, matplotlib, seaborn, plotly, tensorflow, sklearn, xgboost, streamlit
Este proyecto es el resultado del trabajo en equipo llevado a cabo por Adrián Moldes, Eduardo Velazco, Esteban Pérez y Urko Regueiro como proyecto final del bootcamp de Data Science e Inteligencia Artificial de la escuela HACKABOSS. La idea de realizar un estudio pormenorizado del mercado laboral tecnólogico en España surge de nuestro propio interés en podernos incorporar a él, entendiendo al menos de forma general cuáles son las necesidades actuales y reales de las empresas que requieren este tipo de perfiles. Para conseguir nuestro objetivo, hemos llevado a cabo la tarea de extraer, transformar, cargar y analizar datos de los portales de empleo más utilizados con el objetivo de conseguir información valiosa y detallada, obteniendo una primera muestra de más de 18000 datos que seguiremos ampliando y actualizando.
Los resultados obtenidos se han presentado en la web Applicatech donde organizamos nuestros hallazgos en tres secciones:
-
Una visión general:
En esta sección hemos querido proporcionar una panorámica completa de la situación del mercado tecnológico español. Desde la demanda de empleos por sector hasta las habilidades más demandadas. Reconocemos la importancia de comprender las tendencias generales antes de sumergirse en detalles más específicos. -
Explora el mercado:
Aquí brindamos la posibilidad de personalizar tu exploración, pudiendo descubrir qué stack tecnológico se adapta mejor a cada sector o entender la distribución salarial por comunidad autónoma a través de gráficos interactivos. Creemos que esta personalización permitirá obtener información precisa y relevante para saciar tu curiosidad. -
Predictor Salarial:
En esta parte hemos diseñado una herramienta montada sobre dos modelos de Machine Learning que te permitirán, especificando ciertos parámetros, obtener un rango salarial estimado ajustado a tus características.
Queremos destacar que este proyecto no solo es una iniciativa informativa, sino también un testimonio de nuestro aprendizaje en el mundo de la ciencia de datos e inteligencia artificial. Este sitio web es el producto de un esfuerzo colaborativo de nuestro talentoso equipo, y queremos compartir contigo los frutos de nuestro trabajo. Podrás explorar más a fondo el proceso ETL y el código detrás de esta plataforma en las siguientes secciones.
El proceso de extracción puede encontrarse en la carpeta Scrapers. Aquí se pone a disposición el código que ha hecho posible la obtención de todos nuestros datos.
A su vez el código del proceso de transformación y limpieza de datos lo encontramos diponible en la carpeta Limpieza
Este análisis puede encontrarse en la carpeta EDA. Aquí se podrá explorar más a fondo todas las relaciones encontradas en nuestros datos. Debido al gran tamaño del notebook es necesario su descarga para su visualización.
En esta sección ponemos a tu disposición el código implementado para los modelos de machine learning entrenados con nuestra base de datos de empleos en España. En concreto se trata de dos SVR(Suport Vector Regression), cada uno entrenado para predecir el salario mínimo y máximo respectivamente.
En la carpeta Modelo_predictivo encontrarás todo el proceso de construcción.
Para visualizar el código que ha hecho posible montar la web a traves de Streamlit pueden acceder al repositorio Applicatech.