Foto de carboxaldehyde en Pexels
Oscar Rojo Martín [email protected]
Álvaro Rodríguez Pardo [email protected]
El objetivo de este proyecto es el de obtener dos dataset de la Diputación Foral de Gipuzkoa con los datos de las subastas pendientes y las realizadas, respectivamente. Al final del proyecto dispondremos de dos ficheros CSV donde se muestran todos los datos almacenados.
Se encuentran almacenados en la carpeta data dentro de la carpeta code:
Previo a la realización del trabajo, se ha generado un script para el análisis del fichero robots.txt con objeto de conocer las páginas y ficheros que podemos solicitar y las que no.
Para ejecutar el script:
$ python code/robots.py
El resultado del análisis de la web de la Diputación Foral de Gipuzkoa, se puede consultar en el fichero robots.md.
Los dos datasets obtenidos tienen como estructura común los siguientes campos:
- URL
- Número
- Tipo
- Lugar
- Descripción
- Importe
- Fecha
- Procedimiento
- Situación
Las formas de recopilar los datasets son muy parecidas y siguen el siguiente orden:
- Se obtiene la URL raíz de la diputación foral (contendida en un archivo plano).
- Se sustituye la URL por la raíz necesaria.
- Se recorre la raíz inicial en busca de la URL "hijos".
- Se recopilan las diferentes URLs en una lista que se ha de limpiar de datos innecesarios y elementos duplicados.
- Se recorre la lista de hijos en busca de nuevas URLs.
- Se recopilan las nuevas URLs y se realiza una vez más una limpieza de la nueva lista.
- De esta última lista de URLs donde se detallan cada uno de los productos, se realiza el scraping.
- Finalmente, se convierte el diccionario en un dataframe y este en un archivo CSV.
El presente proyecto se inspira en la primera publicación que realizó la Diputación Foral de Gipuzkoa en los portales inmobiliarios de internet como "Idealista" y "Fotocasa", donde se informaba de las subastas.
Como se puede comprobar, muchas de las subastas que hay en el dataset que se ha obtenido han quedado desiertas. Habría que valorar si el motivo fue el precio, las condiciones del inmueble o la falta de publicidad del evento.
Se ha elegido CC BY-NC-SA 4.0 ya que: Esta licencia no permite un uso comercial de la obra original ni de las posibles obras derivadas. Además, la distribución de estas obras derivadas se debe hacer con una licencia igual a la que regula la obra original.
Para su correcta ejecución se recomienda:
-
Generar una carpeta
$ mkdir -directorio
-
Generar un entorno virtual
en Linux$ python3 -m venv /path/to/new/virtual/environment
en Windows
c:\>c:\Python35\python -m venv c:\path\to\myenv
-
Instalar los módulos necesarios detallados en el fichero requirements.txt
$ pip install requirements.txt
-
Ejecutar el scraping sobre las subastas de la Diputación:
$ python code/diputacion.py
Contribuciones | Firma |
---|---|
Investigación previa | Integrante 1, Integrante 2 |
Redacción de las respuestas | Integrante 1, Integrante 2 |
Desarrollo código | Integrante 1, Integrante 2 |
Integrante 1:
Oscar Rojo Martín [email protected]
Integrante 2:
Álvaro Rodríguez Pardo [email protected]