Git Product home page Git Product logo

pythondatalab's Introduction

README

Sobre

Este repositório é dedicado à organização e compartilhamento de arquivos e diretórios com conteúdo valioso sobre Ciência de Dados, Linguagem de programação Python e afins. Aqui, você encontrará uma variedade de recursos, incluindo datasets, notebooks Jupyter, scripts Python, e documentações que servem como uma base de conhecimento para entusiastas e profissionais da área.

Objetivo

O principal objetivo deste repositório é fornecer uma estrutura clara e eficiente para armazenar e acessar informações relacionadas à Ciência de Dados e afins. Busco facilitar a aprendizagem e o desenvolvimento de projetos, promovendo a colaboração e o compartilhamento de conhecimento.

Contribuição

Contribuições são sempre bem-vindas! Se você deseja contribuir com o repositório, por favor, siga as diretrizes de contribuição listadas abaixo:

  • Faça um fork do repositório.
  • Crie uma branch para sua feature ou correção de bugs.
  • Envie um pull request com uma descrição clara das mudanças propostas.

Agradecemos o seu interesse e apoio ao nosso repositório de Ciência de Dados!

PROFISSIONAL BÁSICO - CIÊNCIA DE DADOS

I - MATEMÁTICA:

1. Cálculo Básico:

  • funções;
  • limites;
  • derivadas;
  • derivadas parciais;
  • máximos e mínimos; integrais.

2. Álgebra Linear:

  • vetores e matrizes;
  • operações com vetores e matrizes;
  • tipos de matrizes;
  • transformações lineares;
  • espaços e subespaços vetoriais de Rn;
  • sistemas de equações lineares;
  • normas (L1, L2, infinita, p-generalizada, Minkowksi e Chebyshev), autovalores e autovetores;
  • decomposição matricial (Cholesky e Singular Value Decomposition (SVD)).

3. Otimização Matemática:

  • programação linear inteira e mista;
  • problemas de otimização unidimensionais e multidimensionais, com e sem restrições;
  • otimização convexa;
  • programação dinâmica.

II - PROBABILIDADE E ESTATÍSTICA:

1. Fundamentos de probabilidade:

  • definições básicas de probabilidade;
  • axiomas;
  • probabilidade condicional.

2. Variáveis aleatórias e distribuições de probabilidades:

  • variáveis aleatórias;
  • funções de probabilidade;
  • principais distribuições discretas e contínuas (Uniforme, Binomial, Normal, Poisson, Bernoulli e Exponencial).

3. Estatísticas Descritivas:

  • medidas de tendência central (média, mediana e moda);
  • medidas de dispersão (variância, desvio padrão e amplitude);
  • medidas de posição (percentis e quartis).

4. Teoremas fundamentais da probabilidade:

  • independência de eventos;
  • teorema de Bayes;
  • teorema da probabilidade total;
  • lei dos grandes números;
  • teorema central do limite.

5. Distribuições amostrais:

  • distribuição amostral da média;
  • distribuição amostral da proporção;
  • distribuição qui-quadrado;
  • distribuição t de Student;
  • distribuição F.

6. Inferência estatística:

  • estimação pontual e intervalar;
  • intervalos de confiança;
  • testes de hipóteses (formulação, tipos de erros, e poder do teste);
  • testes z e t para médias;
  • testes de proporções;
  • testes qui-quadrado para independência e ajuste de Goodness-of-Fit;
  • teste A/B.

7. Correlação:

  • correlação e causalidade;
  • correlação de Pearson;
  • correlação de Spearman;
  • correlação parcial.

8. Inferência Bayesiana:

  • distribuições a priori e a posteriori;
  • estimativa pontual e intervalar;
  • predição e testes de hipóteses bayesianos;
  • critérios de seleção de modelos;
  • métodos MCMC.

III - FINANÇAS QUANTITATIVAS:

1. Matemática financeira:

  • Convenções de Cálculo de Juros;
  • Valor Presente Líquido;
  • Taxa Interna de Retorno;
  • projeção de fluxos de caixa futuros.

2. Mercados de Taxas de Juros:

  • Instrumentos de Renda Fixa;
  • Taxa Spot;
  • Taxa Foward;
  • Relações Básicas de Não Arbitragem no Mercado de Juros;
  • Curvas de Juros;
  • Bootstraping de Curvas de Juros;
  • Duration;
  • Convexidade;
  • técnicas de interpolação de taxas de juros;
  • modelos de Svenson e de Nelson-Siegel.

3. Medidas de Desempenho e de Riscos:

  • Volatilidade;
  • Value At Risk;
  • Conditional Value at Risk;
  • Backtesting de Modelos de Risco;
  • Maximum Drawdown;
  • Sharpe Ratio;
  • Information Ratio.

4. Otimização de carteiras:

  • modelo de média-variância com e sem restrições;
  • modelos de paridade de riscos;
  • modelos de paridade de riscos hierárquica (HRP).

5. Simulação de Monte Carlo em Finanças:

  • principais aplicações em precificação e análise de riscos.

6. Derivativos:

  • conceitos gerais;
  • derivativos de renda variável;
  • derivativos de renda fixa;
  • modelo de Black-Scholes.

IV- DADOS E BASES DE DADOS:

1. Conceitos fundamentais de dados:

  • o que são dados;
  • processos geradores de dados;
  • tipos e classes de dados;
  • formatos de arquivos de dados comuns (txt, csv, xlsx, xml, json e parquet).

2. Introdução a Bases de Dados:

  • o que são bases de dados;
  • tipos de bases de dados;
  • metadados;
  • tidy data.

3. Introdução ao armazenamento de dados:

  • armazenamento de arquivos;
  • principais estruturas de armazenamento de dados analíticos (data warehouse, data mart, data lake data lakehouse, vector stores), suas diferenças conceituais e casos de uso;
  • armazenamento na nuvem.

4. Sistemas Gerenciadores de Base de Dados (SGBD):

  • definição de SGBD;
  • principais funções;
  • principais tipos de SGBDs (SQL e NoSQL) e suas diferenças; transações e índices.

5.Modelo de dados:

  • modelo de entidade-relacionamento (ER);
  • modelo relacional:
    • tabelas,
    • esquemas,
    • chaves,
  • consultas;
  • dados estruturados, semiestruturados e não estruturados;
  • modelo chave-valor;
  • modelo colunar;
  • modelo orientado a documentos;
  • modelo orientado a grafos.

6. Ingestão e armazenamento de dados;

  • definição de ingestão em lote (batch) e em tempo real (stream).

7. Big Data:

  • conceito de big data;
  • conceitos gerais sobre técnicas e ferramentas para lidar com grandes volumes de dados (Spark, Hadoop, HDFS e MapReduce).

V - GESTÃO DE PROJETOS DE CIÊNCIA DE DADOS:

1. Ciclo de vida de projetos de ciência de dados.

2. Metodologias de gestão de projetos de ciência de dados:

  • CRISP-DM;
  • Microsoft Team Data Science Process (TDSP);
  • princípios de métodos ágeis (Scrum/Kanban);
  • fundamentos de design thinking.

3. Principais papéis envolvidos em projetos de ciência de dados.

VI - QUALIDADE E PREPARAÇÃO DE DADOS:

1. Metadados:

  • a sua importância para avaliação da qualidade de dados;
  • linhagem de dados;

2. Coleta de dados:

  • fontes comuns de dados (internas e externas);
  • interface de programação de aplicação (API);
  • técnicas de web scraping.

3. Problemas comuns de qualidade de dados:

  • valores ausentes;
  • duplicatas;
  • outliers;
  • desbalanceamento;
  • erros de imputação.

4. Preparação de dados:

  • técnicas de tratamento e limpeza de dados;
  • técnicas detecção de vieses;
  • data profiling.

5. Pré-processamento de dados:

  • técnicas de normalização e padronização;
  • discretização;
  • metodologias de codificação de variáveis categóricas (encoding).

6. Feature engineering:

  • processos para enriquecimento de dados, com criação e seleção de features relevantes;
  • transformações matemáticas e estatísticas comuns em variáveis.

7. Divisão de dados:

  • técnicas de amostragem;
  • divisão entre treinamento, validação e teste;
  • abordagens para cross-validation.

VII - MODELAGEM:

1. Pipeline de treinamento de modelos e suas etapas.

2. Otimização de hiperparâmetros:

  • grid search;
  • random search;
  • algoritmos de otimização avançados;
  • automl;
  • autotuning;
  • autofeature engineering.

3. Métricas para avaliação e seleção de modelos:

  • métricas para regressão (MSE; RMSE; MAE; R²; R² ajustado);
  • métricas para classificação (accuracy, precision, recall, F1-score e ROC-AUC);
  • análise de matriz de confusão;
  • trade-off entre viés e variância;
  • detecção de overfitting e underfitting.

4. Técnicas de regularização:

  • lasso;
  • ridge;
  • elastic net;
  • dropout;
  • early stopping;
  • batch normalization.

5. Dados desbalanceados:

  • técnicas para lidar com dados desbalanceados;
  • oversampling;
  • undersampling;
  • dados sintéticos;
  • ajuste de pesos.

6. Validação de Modelos:

  • K-fold cross-validation;
  • leave-one-out cross-validation;
  • bootstrap.

7. Modelagem de IA centrada em dados (data-centric).

8. Interpretabilidade de modelos:

  • feature importance;
  • valores de Shapley (SHAP) e LIME.

9. Implantação de modelos em produção:

  • exportação de modelos (pickle, PMML e ONNX);
  • modelos como serviço (APIs; microsserviços);
  • integração com sistemas existentes;
  • APIs e serviços web;
  • conceitos de MLOps;
  • implantação local (on premise) e na nuvem.

10. Monitoramento de modelos:

  • monitoramento de desempenho;
  • data drift;
  • concept drift;
  • detecção de drifts;
  • retreino e atualização de modelos.

VIII - CLASSES DE MODELOS:

1. Redução de dimensionalidade:

  • Principal Component Analysis (PCA);
  • LDA;
  • ICA;
  • T-SNE;
  • uso de autoencoders.

2. Técnicas de clusterização:

  • K-Means;
  • agrupamento hierárquico;
  • Gaussian Mixture Models;
  • DBSCAN.

3. Técnicas de classificação:

  • Regressão logística;
  • K-Nearest Neighbors (KNN);
  • Suport Vector Machines (SVM);
  • Decision Trees (CART);
  • classificadores Naive-Bayes (Binomial-Beta, Poisson-Gama, Normal-Normal);
  • Florestas Aleatórias (Random Forest).

4. Introdução à regressão:

  • regressão linear simples e múltipla;
  • hipóteses clássicas, método dos mínimos quadrados, diagnóstico e avaliação de modelos de regressão (F-test, coeficiente de determinação, análise de resíduos e demais), testes de significância, intervalos de confiança, análise ANOVA, modelos não lineares (log-log, lin-log, log-lin e inverso).

5. Ensembling de modelos:

  • Bagging;
  • boosting (AdaBoost, Gradient Boosting, XGBoost, LightGBM e CatBoost);
  • stacking.

6. Sistemas de recomendação:

  • Filtragem colaborativa (baseadas em usuários ou itens);
  • filtragem baseada em conteúdo; sistemas híbridos;
  • problemas comuns (cold start, escalabilidade, data sparsity).

7. Modelos de séries temporais:

  • definição;
  • componentes (tendência, sazonalidade, ciclos e ruído);
  • autocorrelação e autocorrelação parcial;
  • conceito e testes de estacionaridade;
  • cointegração;
  • modelos AR, ARMA e ARIMA;
  • modelos de suavização exponencial;
  • modelos de decomposição;
  • modelos de regressão com variáveis temporais (ARIMAX).

8. Tópicos em regressão:

  • modelos de dados em painel;
  • GLM;
  • regressão espacial;
  • regressão quantílica;
  • regressão de Poisson;
  • modelos VAR;
  • ECM e GARCH.

9. Introdução a modelos causais:

  • fundamentos de causalidade estatística, experimentos e quase-experimentos, desenho de descontinuidade de regressão, modelos de variáveis instrumentais, diferenças em diferenças, modelos de equações estruturais (SEM), métodos de pareamento.

10. Redes neurais:

  • Introdução a Redes Neurais Artificiais (arquitetura, funções de ativação, treinamento, forward pass, backpropagation, loss functions, algoritmos de otimização, épocas, batch size e demais);
  • embeddings;
  • redes profundas (deep learning);
  • Redes Neurais Convolucionais (CNNs) e Recorrentes (RNNs);
  • LSTM;
  • GRU;
  • GAN;
  • modelos multimodais.

11. Modelos de aprendizado por reforço:

  • Q-Learning;
  • Deep Q-Networks (DQN);
  • Policy Gradient Methods;
  • multi-armed bandit.

12. Visão Computacional:

  • técnicas de pré-processamento de imagem;
  • OCR;
  • segmentação e extração de características de imagens;
  • detecção;
  • segmentação e reconhecimento de objetos;
  • classificação de imagens.

13. Modelos multi-modais:

  • principais aplicações.

14. Quantificação de incertezas em modelos preditivos:

  • Programação Probabilística;
  • Amostragem de Gibbs;
  • Inferência Variacional;
  • Hamiltonian Monte Carlo;
  • Modelos de Markov Ocultos;
  • Aprendizado Profundo Probabilístico;
  • Conformal Prediction.

IX - PROCESSAMENTO DE LINGUAGEM NATURAL (NLP):

1. Técnicas de pré-processamento de texto:

  • limpeza;
  • normalização;
  • remoção de stop words;
  • stemming;
  • lematização e demais.

2. Representação de texto:

  • N-grams;
  • CBoW;
  • FTD-IDF;
  • word embeddings (Word2Vec, GloVe e demais) e document embeddings (Doc2Vec, BERT, ELMo e demais).

3. Modelagem de tópicos:

  • latent dirichlet allocation (LDA);
  • non-negative matrix factorization (NMF).

4. Modelos de linguagem:

  • modelos de linguagem tradicionais;
  • redes neurais recorrentes;
  • redes neurais convolucionais;
  • transformers.

5. Tarefas básicas em NLP:

  • classificação de texto;
  • análise de sentimento;
  • extração de informação (NER; REL);
  • similaridade textual;
  • sumarização de texto;
  • rotulação de partes do discurso (POS-tagging) e tradução automática.

6. Aplicações relacionadas a modelos de NLP:

  • geração de texto;
  • question answering e diálogo conversacional;
  • retrieval augmented generation (RAG);
  • chatbots;
  • extração estruturada de informações;
  • agentes de IA (IA agents).

X - PROGRAMAÇÃO E FERRAMENTAS:

1. Linguagem de programação Python:

  • sintaxe básica;
  • operadores;
  • variáveis;
  • estruturas de dados (dataframes, listas, matrizes, dicionários e conjuntos);
  • estruturas de controle de fluxo;
  • funções;
  • escopo;
  • método;
  • paralelização de rotinas;
  • serialização e desserialização.

2. Bibliotecas Python:

  • Pandas (manipulação; limpeza; transformação e pré-processamento de dado);
  • NumPy (operações de arrays);
  • Matplotlib e Seaborn (visualização de dados);
  • TensorFlow;
  • Keras e PyTorch (redes neurais);
  • Scikit-learn e XGBoost (aprendizado de máquina);
  • NLTK e spaCy (processamento de linguagem natural);
  • huggingface (LLM);
  • PySpark (Big data);
  • Beautiful Soup (web scraping);
  • Streamlit (data apps).

3. Linguagem SQL (Structured Query Language):

  • conceitos introdutórios;
  • comandos básicos para consultas (inserção, atualização e exclusão de dados) e para análise de dados (como funções de agregação, filtros, joins, subconsultas e demais).

4. Gestão de Código:

  • qualidade de código;
  • testes automatizados;
  • versionamento (Git).

5. Ambientes de programação:

  • Jupyterhub e Jupyter Notebooks;
  • linha de comando (navegação em diretórios, manipulação de arquivos e dados);
  • gerenciamento de processos;
  • configuração de ambientes e variáveis de ambiente;
  • gerenciamento de pacotes Python (pip);
  • ambientes virtuais Python.

6. Microsoft Power BI:

  • conexão e importação de dados;
  • modelagem de dados;
  • criação de medidas e colunas calculadas;
  • visualizações e gráficos;
  • interações entre visualizações;
  • criação de relatórios e painéis.

XI - VISUALIZAÇÃO;

  • STORYTELLING E COMUNICAÇÃO CORPORATIVA:

1. Principais tipos de visualizações e gráficos:

  • tabela;
  • gráfico de barras;
  • linhas;
  • pizza;
  • dispersão;
  • histograma;
  • área;
  • boxplot;
  • bolhas;
  • radar;
  • mapas cartográficos;
  • mapa de calor.

2. Visualização de dados:

  • princípios de design de gráficos efetivos;
  • principais conceitos de codificação visual;
  • interatividade;
  • acessibilidade em gráficos.

3. Dashboards:

  • técnicas para construção de interfaces e layout;
  • abordagens para escolha de designs;
  • organização de elementos visuais e gráficos;
  • seleção de gráficos e visualizações;
  • interatividades e drill-downs;
  • acessibilidade.

4. Storytelling com dados:

  • construção de narrativas visuais e contextualizações;
  • componentes de um storytelling efetivo.

5. Reportes executivos:

  • princípios de comunicação corporativa;
  • interpretação e apresentação de dados de resultados de análises e de insights.

XII - GOVERNANÇA E SEGURANÇA DE DADOS:

1. Noções de governança de dados (DMBOK):

  • conceitos e objetivos da governança de dados;
  • principais técnicas de qualidade e integridade de dados;
  • princípios de privacidade e proteção a dados.

XIII - GOVERNANÇA, SEGURANÇA E APLICAÇÃO RESPONSÁVEL DE IA:

1. Noções de governança de IA:

  • conceitos e objetivos da governança de IA;
  • gestão de riscos em IA;
  • gestão de ciclo de vida de modelos.

2. Principais riscos e vulnerabilidades relacionados a IA:

  • viés algorítmico;
  • exposição de dados sensíveis;
  • envenenamento de dados de treinamento;
  • ataques adversariais;
  • ataques de manipulação de modelos;
  • roubo de modelos;
  • ataque de inferência;
  • alucinações.

3. Aplicação de IA responsável:

  • definição;
  • ética;
  • transparência;
  • justiça e equidade;
  • responsabilização;
  • segurança cibernética;
  • compliance regulatório.

pythondatalab's People

Contributors

espeditoalves avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.