Финальный проект "Желтое такси в Нью-Йорке" специализации "Машинное обучение и анализ данных"
Задача проекта — научиться предсказывать количество поездок в ближайшие часы в каждом районе Нью-Йорка. Районы определены прямоугольниками.
Данные:
- Сырые данные о поездках такси nyc.gov
- Файл regions - содержит идентификаторы (id) районов и географичекие координаты их границ
Результат:
Kaggle Leaderboard: Grigoriy Gusarov, Score = 14.44715
Порядок выполенения проекта:
Неделя 1
Знакомство с данными. Очистка данных от ошибок и аномалий, агрегирование поездок по времени их начала и соответсвующего id региона.
Неделя 2
Визуализация распределения плотности поездок за май 2016 с помощью библиотек basemap и folium. Отбор наиболее важных районов по пороговому значению.
Неделя 3
Прогнозирование ряда из произвольно выбранного района (в моем случае - район содержащий Empire State Building) с помощью модели ARIMA с учетом сезонности на основе регрессионных признаков Фурье.
Неделя 4
Кластеризация по id отобраных на второй недели рядов. Построение моделей временных рядов для центров кластеров.
Неделя 5
Сведение задачи массового прогнозирования к регрессионоой постановке.
Используемый набор признаков:
- Идентификатор географической зоны
- Дата и время
- Количество поездок в периоды, предшествующие прогнозируемому
- Синусы, косинусы и тренды, которые были использованны внутри регрессионной компоненты ARIMA
- Результаты предсказаний недели 4.
Неделя 6
Добавление в модель дополнительных признаков.
Из сырых данных были добавлены:
- Средняя продолжительность поездок
- Среднее число пасажиров
- Средняя стоимость поездок
Добавлен бинарный признак праздник\рабочий день.
Проведена кластеризация рядов по времени, признаком являются номера кластеров.
Неделя 7
Визуализация результатов