
Curso EEAr é uma linguagem de programação usada por muitos cientistas de dados para limpar dados, fazer visualizações e construir modelos. Aprender Python para ciência de dados nunca foi tão fácil – existem muitos guias e tutoriais gratuitos por aí que você pode usar a seu favor.
Dito isso, o Python tem aplicativos além da ciência de dados, portanto, sem a orientação adequada, você pode acabar aprendendo coisas que raramente são usadas na ciência de dados. É por isso que desenvolvi um currículo de 26 semanas que contém recursos gratuitos que você pode usar para aprender Python para ciência de dados em 2022.
Eu dividi este currículo do Preparatório EEAr em 4 seções principais. Acredito que a melhor maneira de aprender algo é fazendo, então, além de deixar links para tutoriais e guias em vídeo, incluí exercícios e projetos em cada seção para ajudá-lo a dominar o Python para ciência de dados.
Uma visão geral de todas as coisas do Python que você precisa para a ciência de dados também pode ser encontrada no vídeo abaixo.
Conceitos básicos do Python para ciência de dados
A primeira coisa a fazer para dominar o Curso EEAr Online é entender os conceitos principais. Isso significa aprender os tipos de dados mais comuns, como usar variáveis e como usar listas e dicionários de maneira adequada.
Outras coisas importantes a aprender são as instruções condicionais (instrução if / else) e loops (for, while, etc). Eles são essenciais para fazer coisas mais avançadas em Python.
Lembre-se de que o editor de texto que você deve usar como aspirante a cientista de dados é o Jupyter Notebook. Este editor nos permite não apenas escrever código, mas também escrever equações, visualizar visualizações, adicionar texto e mais coisas que fazem nosso script Python parecer um caderno.
Semana 1: Introdução ao EEAR e tipos de dados (inteiro, flutuante, booleano, string, etc)
Tutorial de vídeo: (0:03:53 a 0:39:10)
Semana 2: Variáveis, Listas, Tuplas e Dicionários
Tutorial de vídeo: (0:39:10 a 1:21:50)
Semana 3: declaração IF e loop FOR
Tutorial de vídeo: (1:21:50 a 1:33:49)
Semana 4: Funções e Módulos
Tutorial de vídeo: (1:33:49 a 1:44:41)
Semana 5: projetos para iniciantes em Python
Os seguintes projetos para iniciantes nos ajudam a colocar em prática tudo o que aprendemos nas semanas anteriores, então considere fazer pelo menos um deles. Eles são classificados por dificuldade, então o primeiro projeto é o mais simples, enquanto o último é o mais difícil.
Jogo de teste: neste projeto, usaremos a instrução if / else e trabalharemos com a função de entrada para perguntar e responder a algumas perguntas aleatórias com Python.
Pedra, papel, tesoura: este é um jogo popular que você pode implementar facilmente em Python. Vamos praticar a instrução if / else, como trabalhar com variáveis, listas e loops.
Ferramenta de renomeação de arquivos: O projeto consiste em fazer 7 operações comuns de sistema de arquivos com Python. Este projeto é todo sobre o módulo OS. Este é um módulo simples, mas poderoso, que vem com o Python.
Python para análise de dados
Bibliotecas de análise de dados, como Pandas e NumPy, são a base para resolver tarefas comuns de ciência de dados, como limpeza de dados e análise exploratória de dados (EDA).
As semanas seguintes são focadas em aprender como criar e manipular dataframes. Além disso, vou mostrar alguns recursos que contêm exercícios úteis que ajudarão a praticar tudo isso.
Semana 6: Pandas e Numpy Introdução: Como criar um dataframe, selecionar e adicionar colunas, operações e métodos comuns.
Tutorial de vídeo: (1:44:41 a 3:09:56)
Exercício: Introdução aos Pandas
Semana 7 e 8: Filtragem e extração de dados
8 maneiras de filtrar dataframes do Pandas
Como usar o loc em pandas
Como excluir uma coluna nos pandas
O método de consulta
Pandas aplicam a função () a uma (s) coluna (s) única e múltipla (s)
Exercício de Filtragem
Semana 9: tabelas dinâmicas
Substituir Tabela Dinâmica do Excel por Python Pandas
Pandas Pivot Table: Exercícios, Practice, Solution
Semana 10: Função GroupBy e Aggregate
Pandas Groupby explicado em detalhes
Exercício de Agrupamento
Semana 11: Mesclando DataFrames
Python Pandas mesclando DataFrames
Exercício: Mesclando e Concatenando DataFrames
Semana 12: Projetos de Análise de Dados
Os projetos a seguir permitirão que você pratique a maioria dos métodos do Pandas que você aprendeu até agora. O primeiro projeto consiste na coleta de dados, o segundo é sobre a limpeza de dados (essa é uma das tarefas mais demoradas da ciência de dados) e, no terceiro projeto, você tem que fazer a visualização dos dados apenas com o Pandas.
Coleta de dados: neste projeto, você deve coletar dados usando Pandas e Selenium. Selenium é uma ferramenta de automação web que nos permite extrair dados. de sites e construir nosso próprio conjunto de dados.
Limpando dados com o Pandas: Limpar dados é uma tarefa comum com a qual todo cientista de dados precisa lidar. Neste projeto, vamos limpar um conjunto de dados aplicando diferentes técnicas para garantir a alta qualidade dos dados.
Visualização de dados apenas com Pandas: o Pandas nos permite fazer visualizações como gráfico de partes, gráfico de barras, gráfico de linha e muito mais. Neste projeto, vamos fazer uma tabela dinâmica e, em seguida, criar gráficos que nos ajudam a fazer uma análise melhor.
Python para visualização de dados
Embora você possa criar visualização de dados com o Pandas, não há opções suficientes para personalizar nossos gráficos. Aqui é quando bibliotecas mais completas como Matplotlib e Seaborn são úteis.
Ambas as bibliotecas nos permitem ir além dos enredos básicos que os Pandas oferecem. Provavelmente você viveria fazendo visualizações apenas com o Pandas, mas se gosta de fazer visualizações lindas como eu, considere aprender Matplotlib e / ou Seaborn.
Além disso, nesta seção, aprenderemos como fazer uma nuvem de palavras e resolver projetos interessantes para praticar técnicas de visualização de dados enquanto nos divertimos.
Semana 13: Visualização de dados com Matplotlib e Wordclouds com Stylecloud
Tutorial de plotagem em Python com Matplotlib e Pandas
Como fazer lindas nuvens de palavras com facilidade em Python
Semana 14: Visualização de dados com Seaborn
Como fazer belas visualizações com o Seaborn
Semana 15: Projetos
A visualização de dados deve ser divertida, portanto, para este projeto, você deve escolher qualquer filme / programa de TV de sua preferência, ir até o Kaggle e procurar um conjunto de dados que contenha os roteiros desse filme / programa. Assim que tiver o conjunto de dados, leia com o Pandas e faça todas as plotagens necessárias para saber mais sobre o filme / programa que você adora.
Se precisar de inspiração, verifique os artigos abaixo.
Visualização de dados em Python com Avatar The Last Airbender
Os Simpsons encontram a visualização de dados
Python para aprendizado de máquina
Todo cientista de dados deve ser capaz de criar modelos de aprendizado de máquina. É por isso que precisamos aprender bibliotecas como sklearn, Keras e Tensorflow. Eles nos ajudarão a construir, avaliar e selecionar o melhor modelo para nosso projeto.
Eventualmente, você perceberá que implementar esses modelos em Python não é tão difícil. Para a maioria das pessoas, a parte mais difícil disso é entender os conceitos básicos por trás de cada algoritmo e aplicá-los adequadamente em um projeto.
É por isso que, nas próximas semanas, nos concentraremos em aprender como funcionam os algoritmos de aprendizado de máquina mais comuns e só então veremos como implementá-los em Python (a maioria das implementações são com sklearn, após as 26 semanas Eu encorajo você a aprender bibliotecas mais avançadas, como TensorFlow e Keras)
Semana 16: Introdução ao aprendizado de máquina
Noções básicas de aprendizado de máquina
O que é aprendizado de máquina?
Semana 17: Regressão Linear
Regressão Linear e Implementação Python
Regressão linear múltipla
Semana 18: Regressão Logística
Regressão Logística em Aprendizado de Máquina
Aplicação de regressão logística e implementação Python
Semana 19: árvore de decisão
Árvore de decisão em aprendizado de máquina
Caso de uso de árvore de decisão e implementação Python
Semana 20: Naive Bayes
Classificador Naive Bayes
Classificação de texto usando Naive Bayes (implementação Python)
Semana 21: máquinas de vetores de suporte
SVM em aprendizado de máquina
Caso de uso de SVM em Python
Semana 22: KNN
Algoritmo KNN em aprendizado de máquina
Caso de uso KNN em Python
Semana 23: Análise de Componentes Principais (PCA)
PCA em aprendizado de máquina
Implementação PCA em Python
Semana 24: Floresta Aleatória
Floresta aleatória em aprendizado de máquina
Random Forest Use Case – IRIS Flower Analysis using Python
Semana 25: modelo de métricas
Exatidão, precisão, recall e F1
Compreendendo a Matriz de Confusão do Scikit, aprender
Semana 26: Projetos
Previsão de rotatividade de cliente do banco: neste projeto, você deve classificar se um cliente irá se desligar ou não. Você usará um conjunto de dados que contém dados financeiros sobre o cliente de um banco (pontuação de crédito, posse, número de produtos, salário estimado, etc.) para construir um modelo preditivo.
Observação: existem mais algoritmos de aprendizado de máquina que encorajo você a aprender após essas 26 semanas.