Git Product home page Git Product logo

hse_spark_course's Introduction

Spark course

Расположение материалов(курсов) по веткам

В репозитории располагаются 3 учебных курса, которые направлены на обучение замечательному инструменту Apache Spark.

Курс / тип учебной группы Ветка Git Дата запуска группу Ссылка
1 Spark begginig (from zero to hero) fzth 21.06.2021 ссылка на ветку
2 Spark on production prod 26.06.2021 ссылка на ветку
3 Spark Magnit (begginers) mgnt_tech 25.06.2021 ссылка на ветку

Инфраструктура курса

hse_spark_course's People

Contributors

nameartem avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar

hse_spark_course's Issues

TypeError: 'JavaPackage' object is not callable при использовании PyDeeQu

Пытаюсь запустить pydeequ на кластере databricks на azure.
Пробую данный код

from pydeequ.checks import *
from pydeequ.verification import *

# примерные данные
df = spark.sparkContext.parallelize([
    Row(a="foo", b=1, c=5),
    Row(a="bar", b=2, c=6),
    Row(a="baz", b=3, c=None)]).toDF()

# инициализация теста
check = Check(spark, CheckLevel.Error, "Integrity checks")

# rdd обзор / тест данных
checkResult = VerificationSuite(spark) \
    .onData(df) \
    .addCheck(
        check.hasSize(lambda x: x >= 3) \
        .hasMin("b", lambda x: x == 0) \
        .isComplete("c")  \
        .isUnique("a")  \
        .isContainedIn("a", ["foo", "bar", "baz"]) \
        .isNonNegative("b")) \
    .run()

# запуск верификации
checkResult_df = VerificationResult.checkResultsAsDataFrame(spark, checkResult)
checkResult_df.show()

# описание результата
if checkResult.status == "Success":
    print('Тесты пройдены')

else:
    print('Найдены ошибки:')

    for check_json in checkResult.checkResults:
        if check_json['constraint_status'] != "Success":
            print(f"\t{check_json['constraint']} причина: {check_json['constraint_message']}")

Получаю следующую ошибку
image

Я что-то не так делаю?

Развертывание кластера в VirtualBox + Ubuntu

После установки spark запуск скриптов start-master.sh и start-worker.sh запускает соответствующие процессы, но почему-то не запускает web ui на локалхосте (адрес локалхоста я смотрел командой hostname -I).
вопрос низкого уровня: как дебажить\какие настройки окружения могут за эти вещи отвечать?
вопрос высокого уровня: существует ли ресурс, дающий хороший обзор всей архитектуры кластера сверху? я подозреваю, что проблема не в скриптах, а в фундаментальном непонимании устройства Спарка\линукса

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.