Этот репозиторий содержит анализ прогнозирования банкротства для польских и тайваньских компаний. Целью данного анализа является построение и сравнение моделей классификации для прогнозирования банкротства.
Проект направлен на выявление лучших моделей классификации для прогнозирования банкротства польских и тайваньских компаний. Анализ включает предобработку данных, отбор признаков и оценку моделей.
Poland.ipynb
: Jupyter ноутбук, содержащий процесс анализа данных и построения моделей для польских компаний.Taiwan.ipynb
: Jupyter ноутбук, содержащий процесс анализа данных и построения моделей для тайваньских компаний.
Наборы данных, используемые в этом анализе, получены из UCI Machine Learning Repository. Они содержат финансовые и нефинансовые атрибуты польских и тайваньских компаний, которые используются в качестве признаков для прогнозирования целевой переменной (банкротства).
- https://archive.ics.uci.edu/dataset/572/taiwanese+bankruptcy+prediction
- https://archive.ics.uci.edu/dataset/365/polish+companies+bankruptcy+data
- Получение данных: Наборы данных загружаются с использованием пакета
ucimlrepo
. - Корреляционный анализ: Высококоррелированные признаки выявляются и удаляются для уменьшения мультиколлинеарности.
- Вариационный анализ: Признаки с низкой вариацией удаляются, так как они не вносят значительного вклада в модель.
Построены и оценены несколько моделей классификации, включая, но не ограничиваясь:
- Логистическая регрессия
- Случайные леса
- Градиентный бустинг
- Xgboost
Модели оцениваются с использованием различных метрик для обеспечения комплексной оценки, таких как:
- Точность (Accuracy)
- Точность (Precision)
- Полнота (Recall)
- F1-мера (F1-Score)
- ROC-AUC