Apresentação
Em fase de testes Atividades: Esta seção está em validação e pode sofrer ajustes.
💡 Dica
Esta parada da Trilha de Dados trata da coleta de dados utilizando a linguagem de programação Python.
O estudante terá contato com bibliotecas como requests, BeautifulSoup, Scrapy, Selenium e TinyDB.
Pré-requisitos
Tópicos do treinamento
01 — Conceitos iniciais
Fontes de pesquisa, HTML/CSS, inspeção de elementos e páginas estáticas ou dinâmicas.
02 — requests + BeautifulSoup
Requisições HTTP, parsing de HTML, find, find_all e atributos.
03 — Paginação e erros
Percorrer páginas, lidar com falhas, retries e pausas entre requisições.
04 — Tratamento
Limpeza de texto, conversão de tipos, datas e preparação dos dados coletados.
05 — Armazenamento
JSON, TinyDB, deduplicação e armazenamento de arquivos.
06 — Selenium
Coleta em páginas dinâmicas, navegador headless e interação com formulários.
Certificação
Material de apoio
- How to parse XML sitemaps using Python
- Intro to Beautiful Soup
- Beautiful Soup: Build a Web Scraper With Python
- How to scrape websites with Python and BeautifulSoup
- Parsing tables and XML with Beautiful Soup 4
- Find all URLs of a website in a few seconds - Python