Scrapy Study é um repositório de estudo que contém algumas spiders para demonstração de web crawling e scraping com Scrapy e Scrapy Cloud.
Ferramentas usadas nesse repositório:
-
Clone o repositório:
git clone [email protected]:anacls/scrapy-study.git
-
Vá para o diretório principal:
cd scrapy-study
-
A pasta
tdc_examples
é um projeto com spiders utilizadas numa apresentação realizada no TDC.Spiders
-
books.py: faz raspagem no site books.toscrape.com, extrai e imprime título, nome do autor e link dos itens do catálogo.
-
quotes.py: faz raspagem em duas páginas do site quotes.toscrape.com e para cada página extrai todo o html e salva em um novo arquivo .html.
-
top_series_week.py: faz raspagem na sessão de séries do adorocinema.com extraindo e imprimindo título, descrição, quantidade de temporadas, de episódios e algumas outras informações sobre as séries.
-
trains_situation.py: faz raspagem no site da CPTM e retorna a situação atualizada das linhas.
-
trilhas_tdc.py: faz raspagem na sessão de trilhas do site do TDC 2018, extrai e retorna algumas informações sobre as trilhas.
-
-
A pasta
tripadvisor
é um projeto que contém uma única spider. Essa spider faz raspagem na página de restaurantes de Indaiatuba no site do tripadvisor e retorna nome, nota, endereço e link do item.
Vá até a pasta do projeto onde a spider se encontra e execute o comando scrapy crawl <spider_name>
Eg.: cd tripadvisor && scrapy crawl tripadvisor
OBS: O nome da spider nem sempre é igual ao nome do arquivo, esse nome é definido na váriavel name
dentro do arquivo da spider.
-
Crie uma conta no Scrapinghub
-
Crie um projeto selecionando
Scrapy
como a opção para fazer deploy das suas spiders -
Siga o passo a passo da aba
Code & Deploys
-
Vá para a sua dashboard e clique no botão
RUN
-
No campo
Spiders
digite o nome da spider que deseja executar