Curso EEAr, Preparatório EEAr, Curso EEAr Online, EEAR

Curso EEAr é uma linguagem de programação usada por muitos cientistas de dados para limpar dados, fazer visualizações e construir modelos. Aprender Python para ciência de dados nunca foi tão fácil – existem muitos guias e tutoriais gratuitos por aí que você pode usar a seu favor.

Dito isso, o Python tem aplicativos além da ciência de dados, portanto, sem a orientação adequada, você pode acabar aprendendo coisas que raramente são usadas na ciência de dados. É por isso que desenvolvi um currículo de 26 semanas que contém recursos gratuitos que você pode usar para aprender Python para ciência de dados em 2022.

Eu dividi este currículo do Preparatório EEAr em 4 seções principais. Acredito que a melhor maneira de aprender algo é fazendo, então, além de deixar links para tutoriais e guias em vídeo, incluí exercícios e projetos em cada seção para ajudá-lo a dominar o Python para ciência de dados.

Uma visão geral de todas as coisas do Python que você precisa para a ciência de dados também pode ser encontrada no vídeo abaixo.

Conceitos básicos do Python para ciência de dados

A primeira coisa a fazer para dominar o Curso EEAr Online é entender os conceitos principais. Isso significa aprender os tipos de dados mais comuns, como usar variáveis ​​e como usar listas e dicionários de maneira adequada.

Outras coisas importantes a aprender são as instruções condicionais (instrução if / else) e loops (for, while, etc). Eles são essenciais para fazer coisas mais avançadas em Python.

Lembre-se de que o editor de texto que você deve usar como aspirante a cientista de dados é o Jupyter Notebook. Este editor nos permite não apenas escrever código, mas também escrever equações, visualizar visualizações, adicionar texto e mais coisas que fazem nosso script Python parecer um caderno.

Semana 1: Introdução ao EEAR e tipos de dados (inteiro, flutuante, booleano, string, etc)

Tutorial de vídeo: (0:03:53 a 0:39:10)

Semana 2: Variáveis, Listas, Tuplas e Dicionários

Tutorial de vídeo: (0:39:10 a 1:21:50)

Semana 3: declaração IF e loop FOR

Tutorial de vídeo: (1:21:50 a 1:33:49)

Semana 4: Funções e Módulos

Tutorial de vídeo: (1:33:49 a 1:44:41)

Semana 5: projetos para iniciantes em Python

Os seguintes projetos para iniciantes nos ajudam a colocar em prática tudo o que aprendemos nas semanas anteriores, então considere fazer pelo menos um deles. Eles são classificados por dificuldade, então o primeiro projeto é o mais simples, enquanto o último é o mais difícil.

Jogo de teste: neste projeto, usaremos a instrução if / else e trabalharemos com a função de entrada para perguntar e responder a algumas perguntas aleatórias com Python.

Pedra, papel, tesoura: este é um jogo popular que você pode implementar facilmente em Python. Vamos praticar a instrução if / else, como trabalhar com variáveis, listas e loops.

Ferramenta de renomeação de arquivos: O projeto consiste em fazer 7 operações comuns de sistema de arquivos com Python. Este projeto é todo sobre o módulo OS. Este é um módulo simples, mas poderoso, que vem com o Python.

Python para análise de dados

Bibliotecas de análise de dados, como Pandas e NumPy, são a base para resolver tarefas comuns de ciência de dados, como limpeza de dados e análise exploratória de dados (EDA).

As semanas seguintes são focadas em aprender como criar e manipular dataframes. Além disso, vou mostrar alguns recursos que contêm exercícios úteis que ajudarão a praticar tudo isso.

Semana 6: Pandas e Numpy Introdução: Como criar um dataframe, selecionar e adicionar colunas, operações e métodos comuns.

Tutorial de vídeo: (1:44:41 a 3:09:56)

Exercício: Introdução aos Pandas

Semana 7 e 8: Filtragem e extração de dados

8 maneiras de filtrar dataframes do Pandas

Como usar o loc em pandas

Como excluir uma coluna nos pandas

O método de consulta

Pandas aplicam a função () a uma (s) coluna (s) única e múltipla (s)

Curso EEAr, Preparatório EEAr, Curso EEAr Online, EEAR

Exercício de Filtragem

Semana 9: tabelas dinâmicas

Substituir Tabela Dinâmica do Excel por Python Pandas

Pandas Pivot Table: Exercícios, Practice, Solution

Semana 10: Função GroupBy e Aggregate

Pandas Groupby explicado em detalhes

Exercício de Agrupamento

Semana 11: Mesclando DataFrames

Python Pandas mesclando DataFrames

Exercício: Mesclando e Concatenando DataFrames

Semana 12: Projetos de Análise de Dados

Os projetos a seguir permitirão que você pratique a maioria dos métodos do Pandas que você aprendeu até agora. O primeiro projeto consiste na coleta de dados, o segundo é sobre a limpeza de dados (essa é uma das tarefas mais demoradas da ciência de dados) e, no terceiro projeto, você tem que fazer a visualização dos dados apenas com o Pandas.

Coleta de dados: neste projeto, você deve coletar dados usando Pandas e Selenium. Selenium é uma ferramenta de automação web que nos permite extrair dados. de sites e construir nosso próprio conjunto de dados.

Limpando dados com o Pandas: Limpar dados é uma tarefa comum com a qual todo cientista de dados precisa lidar. Neste projeto, vamos limpar um conjunto de dados aplicando diferentes técnicas para garantir a alta qualidade dos dados.

Visualização de dados apenas com Pandas: o Pandas nos permite fazer visualizações como gráfico de partes, gráfico de barras, gráfico de linha e muito mais. Neste projeto, vamos fazer uma tabela dinâmica e, em seguida, criar gráficos que nos ajudam a fazer uma análise melhor.

Python para visualização de dados

Embora você possa criar visualização de dados com o Pandas, não há opções suficientes para personalizar nossos gráficos. Aqui é quando bibliotecas mais completas como Matplotlib e Seaborn são úteis.

Ambas as bibliotecas nos permitem ir além dos enredos básicos que os Pandas oferecem. Provavelmente você viveria fazendo visualizações apenas com o Pandas, mas se gosta de fazer visualizações lindas como eu, considere aprender Matplotlib e / ou Seaborn.

Além disso, nesta seção, aprenderemos como fazer uma nuvem de palavras e resolver projetos interessantes para praticar técnicas de visualização de dados enquanto nos divertimos.

Semana 13: Visualização de dados com Matplotlib e Wordclouds com Stylecloud

Tutorial de plotagem em Python com Matplotlib e Pandas

Como fazer lindas nuvens de palavras com facilidade em Python

Semana 14: Visualização de dados com Seaborn

Como fazer belas visualizações com o Seaborn

Curso EEAr, Preparatório EEAr, Curso EEAr Online, EEAR

Semana 15: Projetos

A visualização de dados deve ser divertida, portanto, para este projeto, você deve escolher qualquer filme / programa de TV de sua preferência, ir até o Kaggle e procurar um conjunto de dados que contenha os roteiros desse filme / programa. Assim que tiver o conjunto de dados, leia com o Pandas e faça todas as plotagens necessárias para saber mais sobre o filme / programa que você adora.

Se precisar de inspiração, verifique os artigos abaixo.

Visualização de dados em Python com Avatar The Last Airbender

Os Simpsons encontram a visualização de dados

Python para aprendizado de máquina

Todo cientista de dados deve ser capaz de criar modelos de aprendizado de máquina. É por isso que precisamos aprender bibliotecas como sklearn, Keras e Tensorflow. Eles nos ajudarão a construir, avaliar e selecionar o melhor modelo para nosso projeto.

Eventualmente, você perceberá que implementar esses modelos em Python não é tão difícil. Para a maioria das pessoas, a parte mais difícil disso é entender os conceitos básicos por trás de cada algoritmo e aplicá-los adequadamente em um projeto.

É por isso que, nas próximas semanas, nos concentraremos em aprender como funcionam os algoritmos de aprendizado de máquina mais comuns e só então veremos como implementá-los em Python (a maioria das implementações são com sklearn, após as 26 semanas Eu encorajo você a aprender bibliotecas mais avançadas, como TensorFlow e Keras)

Semana 16: Introdução ao aprendizado de máquina

Noções básicas de aprendizado de máquina

O que é aprendizado de máquina?

Semana 17: Regressão Linear

Regressão Linear e Implementação Python

Regressão linear múltipla

Semana 18: Regressão Logística

Regressão Logística em Aprendizado de Máquina

Aplicação de regressão logística e implementação Python

Semana 19: árvore de decisão

Árvore de decisão em aprendizado de máquina

Caso de uso de árvore de decisão e implementação Python

Semana 20: Naive Bayes

Classificador Naive Bayes

Classificação de texto usando Naive Bayes (implementação Python)

Semana 21: máquinas de vetores de suporte

SVM em aprendizado de máquina

Caso de uso de SVM em Python

Semana 22: KNN

Algoritmo KNN em aprendizado de máquina

Caso de uso KNN em Python

Semana 23: Análise de Componentes Principais (PCA)

PCA em aprendizado de máquina

Implementação PCA em Python

Semana 24: Floresta Aleatória

Floresta aleatória em aprendizado de máquina

Random Forest Use Case – IRIS Flower Analysis using Python

Semana 25: modelo de métricas

Exatidão, precisão, recall e F1

Compreendendo a Matriz de Confusão do Scikit, aprender

Semana 26: Projetos

Previsão de rotatividade de cliente do banco: neste projeto, você deve classificar se um cliente irá se desligar ou não. Você usará um conjunto de dados que contém dados financeiros sobre o cliente de um banco (pontuação de crédito, posse, número de produtos, salário estimado, etc.) para construir um modelo preditivo.

Observação: existem mais algoritmos de aprendizado de máquina que encorajo você a aprender após essas 26 semanas.