Aprendendo a extrair informações de uma página web

Nesse projeto usei o framework scrapy para extrair algumas informações do site Tripadvisor a respeito da Lagoa do Paraíso em Jericoacoara(Ceará) local que pretendo conhecer em breve.

Foram extraídas as seguintes informações:

Nome da pessoa que comentou;
Localização de onde essa pessoa mora;
Título do comentário;
Descrição do comentário;
Data do comentário;
Tipo de viagem.

Ferramentas utilizadas:

Python 3
Scrapy

observação: A versão do python precisa ser superior a 3.5

Preparando o ambiente:

Criando um ambiente virtual

pip install virtualenv

virtualenv nomeambiente

Instalando o scrapy

conda install -c conda-forge scrapy

Estrutura do projeto:

No arquivo items.py e comentarios.py (esse último arquivo está na pasta spiders) você encontra toda a estrutura utilizada para o desenvolvimento do projeto os outros arquivos são criados automaticamente quando iniciamos o scrapy.

Exportando os dados:

Depois que os dados foram extraídos as informações foram salvas em arquivos .csv e .json, o intuito e deixar os dados devidamente preparados para uma análise mais profunda.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
Image		Image
spiders		spiders
.directory		.directory
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
__init__.py		__init__.py
file.csv		file.csv
file.json		file.json
items.py		items.py
middlewares.py		middlewares.py
pipelines.py		pipelines.py
settings.py		settings.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Aprendendo a extrair informações de uma página web

Preparando o ambiente:

Estrutura do projeto:

Exportando os dados:

About

Releases

Packages

Languages

License

MrRobotCoder/Projeto_TripAdvisor

Folders and files

Latest commit

History

Repository files navigation

Aprendendo a extrair informações de uma página web

Preparando o ambiente:

Estrutura do projeto:

Exportando os dados:

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages