Scrapy Study

Scrapy Study é um repositório de estudo que contém algumas spiders para demonstração de web crawling e scraping com Scrapy e Scrapy Cloud.

Índice

Pré-Requisitos
Para começar
Pastas
Executando uma spider

Pré-Requisitos

Ferramentas usadas nesse repositório:

Python = 2.7.15
Scrapy >= 1.5

Para começar

Clone o repositório: git clone [email protected]:anacls/scrapy-study.git
Vá para o diretório principal: cd scrapy-study

Pastas

tdc_examples

A pasta tdc_examples é um projeto com spiders utilizadas numa apresentação realizada no TDC.

Spiders
- books.py: faz raspagem no site books.toscrape.com, extrai e imprime título, nome do autor e link dos itens do catálogo.
- quotes.py: faz raspagem em duas páginas do site quotes.toscrape.com e para cada página extrai todo o html e salva em um novo arquivo .html.
- top_series_week.py: faz raspagem na sessão de séries do adorocinema.com extraindo e imprimindo título, descrição, quantidade de temporadas, de episódios e algumas outras informações sobre as séries.
- trains_situation.py: faz raspagem no site da CPTM e retorna a situação atualizada das linhas.
- trilhas_tdc.py: faz raspagem na sessão de trilhas do site do TDC 2018, extrai e retorna algumas informações sobre as trilhas.
tripadvisor

A pasta tripadvisor é um projeto que contém uma única spider. Essa spider faz raspagem na página de restaurantes de Indaiatuba no site do tripadvisor e retorna nome, nota, endereço e link do item.

Executando uma spider

Para executar uma spider na sua máquina local:

Vá até a pasta do projeto onde a spider se encontra e execute o comando scrapy crawl <spider_name>

Eg.: cd tripadvisor && scrapy crawl tripadvisor

OBS: O nome da spider nem sempre é igual ao nome do arquivo, esse nome é definido na váriavel name dentro do arquivo da spider.

Para executar uma spider no ScrapingHub:

Crie uma conta no Scrapinghub
Crie um projeto selecionando Scrapy como a opção para fazer deploy das suas spiders
Siga o passo a passo da aba Code & Deploys
Vá para a sua dashboard e clique no botão RUN
No campo Spiders digite o nome da spider que deseja executar

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
tdc_examples		tdc_examples
tripadvisor		tripadvisor
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Scrapy Study

Índice

Pré-Requisitos

Para começar

Pastas

tdc_examples

tripadvisor

Executando uma spider

Para executar uma spider na sua máquina local:

Para executar uma spider no ScrapingHub:

About

Uh oh!

Releases

Packages

Uh oh!

Languages

anacls/scrapy-study

Folders and files

Latest commit

History

Repository files navigation

Scrapy Study

Índice

Pré-Requisitos

Para começar

Pastas

tdc_examples

tripadvisor

Executando uma spider

Para executar uma spider na sua máquina local:

Para executar uma spider no ScrapingHub:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages