https://www.kaggle.com/c/rucode-fake-job-postings
- Данные представляют собой .csv таблицы с текстовыми и категориальными полями.
- В данных присутствуют пропуски, которые могут быть обусловлены как тем, что соответствующая информация в объявлении о приеме на работу отсутствовала, так и тем, что объявление неверно распарсилось алгоритмом.
- Данные в задаче сильно несбалансированы: среди объявлений фейковых очень мало. Метрика, используемая для оценивания: F1 score.
- test_data.csv - тестовый датасет
- train_data.csv - тренировочный датасет
- rucode_distilbert.ipynb - ноутбук с решением
- Rucode fake jobs.pdf - презентация с описанием решения