Se realizó un modelo de machine learning para realizar una predicción sobre si un paciente tendrá una estancia hospitalaria prolongada o no.
- pandas: Es una herramienta de análisis y manipulación de datos de código abierto rápida, potente, flexible y fácil de usar, construido sobre el lenguaje de programación Python.
- numpy: Librería de Python especializada en el cálculo numérico y el análisis de datos, especialmente para un gran volumen de datos.
- seaborn: Es una librería de visualización de datos.
- matplotlib: Es una librería de Python especializada en la creación de gráficos en dos dimensiones.
- tqdm: Es un pequeño módulo que permite crear una barra de progreso basada en texto, que es desplegada en pantalla a partir de un bucle
- sklearn: La librería scikit-learn, también llamada sklearn, es un conjunto de rutinas escritas en Python para hacer análisis predictivo, que incluyen clasificadores, algoritmos de clusterización, etc. Está basada en NumPy, SciPy y matplotlib
- Cargar los diferentes datasets y transformalos en DataFrames.
- Limpieza, análisis y transformación de los DataFrames.
- Codificación de variables categóricas.
- Escalado de datos.
- Creación del set de entrenamiento y de prueba.
- Creación del modelo de Bosques aleatorios.
- Creación del archivo *csv con las predicciones.
- Proyecto 2 Jupyter Notebook
Un importante Centro de Salud lo ha contratado con el fin de poder predecir si un paciente tendrá una estancia hospitalaria prolongada o no, utilizando la información contenida en el dataset asociado, la cual recaba una muestra histórica de sus pacientes, para poder administrar la demanda de camas en el hospital según la condición de los pacientes recientemente ingresados.
Para esto, se define que un paciente posee estancia hospitalaria prolongada si ha estado hospitalizado más de 8 días. Por lo que debe generar dicha variable categórica y luego categorizar los pacientes según las variables que usted considere necesarias, justificando dicha elección.
El proceso detallado de lo realizado en cada dataset se describe en el Jupyter Notebook que se muestran a continuación: