Un archivo robots.txt indica a los rastreadores de los buscadores qué páginas o archivos de tu sitio pueden solicitar y cuáles no. Principalmente, se utiliza para evitar que las solicitudes que recibe tu sitio lo sobrecarguen; no es un mecanismo para impedir que una página web aparezca en Google. Si lo que buscas es esto último, debes usar directivas noindex o proteger esas páginas con contraseña.
import os
from utils import robots_to_df
De un archivo plano con las páginas web de subastas obtenemos las URL y ejecutamos el script robots.py.
with open("data/dfg.txt", encoding="utf-8") as file:
diputacion = [l.rstrip("\n") for l in file]
diputacion = diputacion[0]
diputacion
'https://www.gipuzkoa.eus/es'
robots_to_df(diputacion)
<style scoped>
.dataframe tbody tr th:only-of-type {
vertical-align: middle;
}
</style>
.dataframe tbody tr th {
vertical-align: top;
}
.dataframe thead th {
text-align: right;
}
User-agent | Status | Pattern | |
---|---|---|---|
0 | MauiBot | Disallow | / |
1 | AhrefsBot | Disallow | / |
2 | DotBot | Disallow | / |
3 | SemrushBot | Disallow | / |
4 | MJ12bot | Disallow | / |
5 | Seekport | Disallow | / |
6 | Seekport | Disallow | /es/resultados-buscador |
7 | Seekport | Disallow | /eu/bilaketaren-emaitzak |
8 | Seekport | Disallow | /*DLF_Bilatzailea |
9 | Seekport | Disallow | /*DLYCrossSiteRequestProxy-portlet |
10 | Seekport | Disallow | /*DLYServices-portlet |
11 | Seekport | Disallow | /*notifications-portlet |
12 | Seekport | Disallow | /*calendar-portlet |
13 | Seekport | Disallow | /*buscar |
14 | Seekport | Disallow | /*INSTANCE |
15 | Seekport | Disallow | /*combo |
16 | Seekport | Disallow | /*busqueda |
17 | Seekport | Disallow | /*bilaketa |
18 | Seekport | Disallow | /*galeria-bektoriala |
19 | Seekport | Disallow | /*asset_publisher |