Git Product home page Git Product logo

big-data-2024-course's Introduction

Курс "Технологии хранения больших данных"

Описание курса

Курс для магистерской программы Университета ИТМО ([Проектирование и разработка систем искусственного интеллекта] (https://abit.itmo.ru/program/master/ai_systems)). Обзорный курс содержит 8 лекций и 8 практических занятий.

Регламент занятий

Занятие идёт с одним перерывом.

18:10 Начало занятия
18:50 Перерыв 5 минут
18:55 Начало второй части занятия
19:35 Конец занятия

Обзор курса

1. Введение в большие данные
Определение больших данных.
Основные характеристики: объем, скорость, разнообразие, достоверность, ценность.
Примеры применения больших данных.
Обзор экосистемы больших данных.
Основные технологии и инструменты.
Архитектура хранилищ больших данных.
Сравнение с традиционными системами управления базами данных (СУБД).

2. Технологии и инструменты для работы с большими данными
Hadoop и экосистема Hadoop.
Компоненты Hadoop: HDFS, MapReduce, YARN.
Инструменты экосистемы: Hive, Pig, HBase, Sqoop, Flume.
Архитектура Spark.
Основные компоненты: Spark Core, Spark SQL, Spark Streaming, MLlib, GraphX.
Программирование на Spark.

3. Введение в NoSQL
Типы NoSQL баз данных: документные (MongoDB), столбцовые (Cassandra), ключ-значение (Redis), графовые (Neo4j).
Примеры использования и особенности.

4. Хранилища данных и ETL процессы
Проектирование хранилищ данных.
Основные концепции: схематические модели, нормализация и денормализация. Поисковые индексы и эффективное хранение и применение индексов на диске. Форматы хранения данных.
Архитектура хранилищ данных. Популярные NoSQL хранилища и СУБД: HDFS, HBase, Memcached, ElasticSearch/Solr, ClickHouse.
Data Lake vs Data Warehouse.

5. ETL-процессы
Извлечение данных из различных источников.
Трансформация данных: очистка, агрегация, объединение.
Загрузка данных в хранилище.
Инструменты для ETL: Apache Nifi, Talend, Informatica, Airflow.

6. Аналитика и визуализация данных
Инструменты для аналитики больших данных.
Основные инструменты: Apache Hive, Presto, Drill.
Обзор SQL on Hadoop решений.
Визуализация данных.
Инструменты для визуализации: Tableau, Power BI, Apache Superset.
Создание интерактивных отчётов и дашбордов.

7. Управление данными
Метаданные и каталогизация данных.
Качество данных и управление ими.
Мониторинг и оптимизация производительности.

8. Безопасность данных
Безопасность и конфиденциальность данных.
Принципы безопасности данных.
Шифрование и управление доступом.
Соответствие нормативным требованиям.

Опросы

Оценка за курc

Дополнительные задания (творческие и необязательные)

big-data-2024-course's People

Contributors

iradche avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.