Git Product home page Git Product logo

mlcourse_open's Introduction

Открытый курс OpenDataScience по машинному обучению

ODS stickers

Основные темы

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Python
  3. Классификация, деревья решений и метод ближайших соседей
  4. Линейные модели классификации и регрессии
  5. Композиции: бэггинг, случайный лес
  6. Построение и отбор признаков
  7. Обучение без учителя: PCA и кластеризация
  8. Обучаемся на гигабайтах с Vowpal Wabbit
  9. Анализ временных рядов с помощью Python
  10. Градиентный бустинг. Часть 1
  11. Градиентный бустинг. Часть 2. ~ 01.06.2017

Домашние задания

  1. Анализ данных по доходу населения UCI Adult. Тетрадка, веб-форма для ответов, решение
  2. Визуальный анализ данных о публикациях на Хабрахабре. Тетрадка, веб-форма для ответов, решение
  3. Деревья решений в игрушечной задаче и на данных Adult репозитория UCI. Тетрадка, веб-форма для ответов, решение
  4. Линейные модели классификации и регрессии в соревнованиях Kaggle Inclass. Часть 1: идентификация взломщика, Часть 2: прогноз популярности статьи на Хабрахабре, веб-форма для ответов, решение 1 части, решение 2 части
  5. Логистическая регрессия и случайный лес в задаче кредитного скоринга. Тетрадка, веб-форма для ответов, решение
  6. Работа с признаками. Тетрадка, веб-форма для ответов, решение
  7. Метод главных компонент, t-SNE и кластеризация. Тетрадка, веб-форма для ответов, решение
  8. Часть 1: Реализация алгоритмов онлайн-обучения, тетрадка, решение. Часть 2: Vowpal Wabbit в задаче классификации тегов вопросов на Stackoverflow, тетрадка, решение. веб-форма для ответов
  9. Предсказание числа просмотров вики-страницы. Тетрадка, решение, веб-форма для ответов
  10. Реализация градиентного бустинга. Тетрадка, веб-форма для ответов

Соревнования Kaggle Inclass

  1. Прогноз популярности статьи на Хабре
  2. Идентификация взломщика по последовательности переходов по сайтам

Тьюториалы

Участники курса сами могут написать тьюториал, поделиться им с другими и получить за это отличный опыт (и баллы). Подробности тут. За понравившиеся тьюториалы можно проголосовать в канале #mlcourse_open слэка ODS.

Рейтинг

В течение курса ведется рейтинг. На него влияют:

  • домашние задания (от 10 до 20 баллов за каждое)
  • соревнования Kaggle Inclass (за каждое 40(1−(p−1)/N) баллов, где p – место участника в приватном рейтинге, N – число участников, побивших все бенчмарки в приватном рейтинге)
  • разовые короткие контесты, объявляемые в slack OpenDataScience в канале #mlcourse_open (от 1 до 8 баллов), тьюториалы – в этом же формате (макс. 40 баллов)

Авторы статей и лекторы

(в скобках – ники в OpenDataScience и на Хабрахабре)

Юрий Кашницкий (@yorko, yorko)

Программист-исследователь Mail.ru Group, старший преподаватель факультета компьютерных наук ВШЭ, научный сотрудник Международной научно-учебной лаборатории интеллектуальных систем и структурного анализа ВШЭ. В прошлом — разработчик Hadoop, бизнес-аналитик и Java-программист РДТЕХ. Домашняя страница. Преподаватель в годовой программе дополнительного образования по анализу данных в ВШЭ, автор Capstone проекта специализации Яндекса и МФТИ "Машинное обучение и анализ данных". У Юрия есть репозиторий с Jupyter-тетрадками по языку Python и основным алгоритмам и структурам данных.

Павел Нестеров (@mephistopheies, mephistopheies)

Data Scientist в стартапе, который нельзя называть. Раньше - программист-исследователь Mail.Ru Group в департаменте рекламы, позже в департаменте поиска. Преподавал в Техносфере@Mail.Ru на базе МГУ ВМК. Еще раньше - программист-исследователь в сфере компьютерного зрения, до нейросетевой эпохи, в Aspose ltd. Домашняя страница. Павел пишет содержательные статьи на Хабре по нейронным сетям.

Екатерина Демидова (@katya, cotique)

Data Scientist в Segmento, г. Санкт-Петербург. Ментор специализации Яндекса и МФТИ "Машинное обучение и анализ данных". У Кати есть репозиторий со списком книг/курсов/статей по Data Science.

Мария Мансурова (@miptgirl, miptgirl)

Аналитик-разработчик в команде Яндекс.Метрики. До этого в Яндексе работала аналитиком ключевых показателей. В прошлом также успела поработать бизнес-аналитиком в компании-интеграторе в сфере телекоммуникаций.

Виталий Радченко (@vradchenko, vradchenko)

Data Science Intern в компании Ciklum. Студент магистерской программы Computer Science with Specialization in Data Science в Украинском Католическом Университете. Организовывает кагл-тренировки и другие активности по Data Science в Киеве и Львове. Был ментором специализации Яндекса и МФТИ "Машинное обучение и анализ данных". Раньше работал в банке, большой ритейл-компании и интернет-рекламе.

Арсений Кравченко (@arsenyinfo, Arseny_Info)

Data Science Team Lead @ gojuno.com. В прошлом - аналитик-разработчик в Яндексе и менеджер по продукту в Wargaming. Домашняя страница.

Сергей Королев (@libfun, libfun)

Исследователь в СколТехе, разработчик в Snap Inc.

Дмитрий Сергеев (@dmitryserg, Skolopendriy)

Data Scientist @ Zeptolab, лектор в Центре Математических Финансов МГУ.

Алексей Натекин (@natekin, natekin)

Основатель сообщества OpenDataScience и DM Labs, Chief Data Officer @ Diginetica. В прошлом – глава отдела аналитики Deloitte.

mlcourse_open's People

Contributors

festline avatar yorko avatar vdyashin avatar arsenyinfo avatar dmitryzheglov avatar nsegeorge avatar urticazoku avatar cortwave avatar odaykhovskaya avatar nikulin avatar letoile avatar theotheo avatar loopdigga96 avatar vitaliyradchenko avatar

Watchers

James Cloos avatar Roman Sarychev avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.