Apresentação

Em fase de testes Atividades: Esta seção está em validação e pode sofrer ajustes.

💡 Dica

Esta parada da Trilha de Dados trata da coleta de dados utilizando a linguagem de programação Python.

O estudante terá contato com bibliotecas como requests, BeautifulSoup, Scrapy, Selenium e TinyDB.

Pré-requisitos

Fontes de pesquisa, HTML/CSS, inspeção de elementos e páginas estáticas ou dinâmicas.

Requisições HTTP, parsing de HTML, find, find_all e atributos.

Percorrer páginas, lidar com falhas, retries e pausas entre requisições.

Limpeza de texto, conversão de tipos, datas e preparação dos dados coletados.

JSON, TinyDB, deduplicação e armazenamento de arquivos.

Coleta em páginas dinâmicas, navegador headless e interação com formulários.