Micro framework for comparing dimension reduction tools
See contributing
No pip/conda distro is currently provided, use this repo.
$ pip install numpy cython # build-time dependencies
$ pip install -e .
$ pytest
Micro framework for comparing dimension reduction tools
License: Apache License 2.0
Micro framework for comparing dimension reduction tools
See contributing
No pip/conda distro is currently provided, use this repo.
$ pip install numpy cython # build-time dependencies
$ pip install -e .
$ pytest
Надо сохранять отчёты так, чтобы их было легко парсить и мёржить с разных запусков и в том числе с разных машин.
Должен содержать как минимум время работы каждого алгоритма, характеристики машины, какой-то хэш, чтобы каждый отчёт был уникальный. Ещё надо сохранять все полученные метрики и картинки.
Пока сошлись на том, что будут джейсончики на каждый запуск.
Ну рисовалку в пайплан впилить
Ну или объясните мне как вот эта штука работает
https://github.com/iggisv9t/dimreducers-crusher/blob/main/dimreducers_crusher/utils/py_utils.py
Это просто Must Have, какгрится
https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_swiss_roll.html
Во-первых это решает проблемы разных имплементаций одного метода, во-вторых можно впилить всякую мету вроде ссылки на пейпер, ссылки на имплементацию и т. д.
То есть поле __name__
будет напрямую транслироваться в отчёт и там одна короткая строка. description
уже всякие ссылки и всё, что необходимо указать о методе.
dimreducers-crusher/run_single.py
Lines 42 to 46 in b5b96b4
Тут то же самое, что в #10 только с плоттерами. Не горит.
Сейчас у нас есть run_single.py который прогоняет на одном датасете один редьюсер. Чтобы перебирать всё подряд -- надо запускать много таких. Для этого нужно прописывать каждому аргументы. Это очень неудобно писать вручную, т.к. надо перечислять возможные аргументы, да и команды длинноваты.
Нужен либо конфиг, в который надо вписывать параметры запуска и читалка конфига, которая будет генерить какой-нибудь cru.sh
либо скрипт, который будет спрашивать чего добавить в запуск и перечислять доступные опции. Опции по-любому придётся каждый раз смотреть перед запуском, поэтому почему бы не помочь юзеру с этим.
dimreducers-crusher/run_single.py
Lines 35 to 39 in b5b96b4
Вот тут у нас сейчас предполагается, что метрика на один запуск только одна. Но нет смысла переучивать с нуля редьюсер, чтобы посчитать ту же метрику. Надо принимать метрики списком в аргументах и потом в цикле их прогонять на результате и писать в отчёт.
Now it's hardcoded here
dimreducers-crusher/run_single.py
Line 29 in b3a327b
We also have to change positional args to named, in order to allow dataset generators just accept kwargs, when they don't use n
and d
parameters.
Надо впилить штуку, чтобы из json-ов с отчётами рисовалась страничка, можно в простой хтмл или маркдаун или что-то ещё простое, где будут все отчёты с картинками и табличка со всякими метриками и описаниями.
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.