Курс для магистерской программы Университета ИТМО ([Проектирование и разработка систем искусственного интеллекта] (https://abit.itmo.ru/program/master/ai_systems)). Обзорный курс содержит 8 лекций и 8 практических занятий.
Занятие идёт с одним перерывом.
18:10 | Начало занятия |
18:50 | Перерыв 5 минут |
18:55 | Начало второй части занятия |
19:35 | Конец занятия |
1. Введение в большие данные
Определение больших данных.
Основные характеристики: объем, скорость, разнообразие, достоверность, ценность.
Примеры применения больших данных.
Обзор экосистемы больших данных.
Основные технологии и инструменты.
Архитектура хранилищ больших данных.
Сравнение с традиционными системами управления базами данных (СУБД).
2. Технологии и инструменты для работы с большими данными
Hadoop и экосистема Hadoop.
Компоненты Hadoop: HDFS, MapReduce, YARN.
Инструменты экосистемы: Hive, Pig, HBase, Sqoop, Flume.
Архитектура Spark.
Основные компоненты: Spark Core, Spark SQL, Spark Streaming, MLlib, GraphX.
Программирование на Spark.
3. Введение в NoSQL
Типы NoSQL баз данных: документные (MongoDB), столбцовые (Cassandra), ключ-значение (Redis), графовые (Neo4j).
Примеры использования и особенности.
4. Хранилища данных и ETL процессы
Проектирование хранилищ данных.
Основные концепции: схематические модели, нормализация и денормализация.
Поисковые индексы и эффективное хранение и применение индексов на диске.
Форматы хранения данных.
Архитектура хранилищ данных.
Популярные NoSQL хранилища и СУБД: HDFS, HBase, Memcached, ElasticSearch/Solr, ClickHouse.
Data Lake vs Data Warehouse.
5. ETL-процессы
Извлечение данных из различных источников.
Трансформация данных: очистка, агрегация, объединение.
Загрузка данных в хранилище.
Инструменты для ETL: Apache Nifi, Talend, Informatica, Airflow.
6. Аналитика и визуализация данных
Инструменты для аналитики больших данных.
Основные инструменты: Apache Hive, Presto, Drill.
Обзор SQL on Hadoop решений.
Визуализация данных.
Инструменты для визуализации: Tableau, Power BI, Apache Superset.
Создание интерактивных отчётов и дашбордов.
7. Управление данными
Метаданные и каталогизация данных.
Качество данных и управление ими.
Мониторинг и оптимизация производительности.
8. Безопасность данных
Безопасность и конфиденциальность данных.
Принципы безопасности данных.
Шифрование и управление доступом.
Соответствие нормативным требованиям.