Код от команды также представлен тут: https://github.com/YuriyBalandin/hacksai_rossakkreditazia_case
Задачей хакатона являлось выявление несоответствий описаний товара назначенной подкатегории. В решении использовалась комбинация моделей CatBoost и дообученного RuBert.
Описание файлов:
ETL.ipynb - загрузка и предобработка файлов catboost_modeling.ipynb - разработка модели CatBoost bert_modeling.ipynb - разработка модели BERT label_df.csv - закодированные подкатегории Папки:
validation - код для запуска веб-интерфейса для проверки корректности заполненных подкатегорий prediction - код для запуска веб-интерфейса для предсказания подкатегории по введенному описанию Перед запуском:
В локально скачанный репозиторий, в папку model6 необзодимо загрузить модель BERT (не помещается на гитхаб из-за большого размера): https://drive.google.com/file/d/11jGomY-cs1L36_Zwam6vY_PPKjjVt7d2/view?usp=sharing
Для запуска:
Скачать репозитоорий на локальный компьютер Установить requirements.txt Перейти в папку validation или prediction (в зависимости от того, что хотите исполльзовать) Запустить из командной строки в этой папке : python main.py Перейти по ссылке, будет доступен интрефейс решения