Hoje a etapa de pré processamento de dados pode consumir até 80% do tempo do projeto de análise de dados, conforme artigo “For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights” do jornal The New York Times. Esse projeto tem o objetivo de automatizar e facilitar a limpeza dos dados para análises de algoritmos de Machine Learning.
DIsponibilizar uma aplicação de simples utilização para gerenciar datasets . Fornecer ferramentas que possibilitem automatizar ao máximo tarefas de limpeza de dados. No que não for possível automatizar, fornecer ferramentas para tornar o processo o mais simples possível em termos de utilização, mas com recursos verdadeiramente úteis, como análises estatísticas e gráficos de apoio.
As tecnologias utilizadas no desenvolvimento serão:
- Front-End: Baseado no Vuestic https://github.com/epicmaxco/vuestic-admin
- Backend:
- Laravel para controle de aplicação e gerenciamento de banco de dados.
- Python para execução das tarefas de limpeza de dados. Bibliotecas como Pandas, Numpy, Sklearn, Matplotlib e Plotly serão como apoio.
- Banco de dados: MongoDB