В выгрузке есть параметр CLASS, обозначающее отношение операции к легитимной (G), мошеннической (F). Значение U означает Uknown.
Значения p1_Fraud, ..., p5_Fraud являются откликами от 0 до 1 различных экспертных систем. Чем ближе к 1, тем более ЭС "уверена", что событие мошенничесское.
Поле AMOUNT показывает сумму.
Остальные поля для лабораторной №0 не имеют значения.
Напишите в Markdown формулы полноты и точности для рассчёта на статистических данных.
Предположим что q=10.
Для cut_off 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.95, 0.99 найдите полноту и точность каждой из пяти ЭС.
Напишите в Markdown эквиваленты формул полноты и точности для рассчёта на статистических данных, учитывающие не количество а суммы операций.
Предположим что q=10.
Для cut_off 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 0.95, 0.99 найдите полноту и точность каждой из пяти ЭС.
Постройте ROC кривую для задания 1 и для задания 2.
На двух разных графиках.
Разными цветами обозначте 1, 2, ..., 5 системы
Аналогично заданию 3, только cut_off определите с шагом 0.01, а не 0.1
Постройте кривую precision-recall для задания 1 и для задания 2.
Выгрузите все данные для графиков из задач 1-5 в csv файлы.
Зададим ансамбль через параметры A, B, C:
p =(A*p1_fraud + B*p2_fraud + C*p3_fraud) / ( A + B + C ).
- Найдите A, B, C, чтобы коэфициент Джини ансамбля был бы максимальным.
- При каких A, B, C коэфициент Джини минимален?
- Найдите A, B, C для максимального true positive при условии, что false positive должен быть равен 0.1.
- Каков порог решающего правила?